Webクローラーツールを活用した事例などをご紹介していきます

AI+クローラークローラー全般

営業やマーケティングで本社だけじゃなくて支店や支社などの単位をしっかりと攻めたいという時に作るアタックリスト作成のためのクローラーの利用方法

営業やマーケティングで本社だけじゃなくて支店や支社などの単位をしっかりと攻めたいという時に作るアタックリスト作成のためのクローラーの利用方法

営業やマーケティングで使うアタックリストは、本社などの単位ではなく支店、支社などの単位のものがほしいということがよくあります。しかし、問題はどこからその情報を集めるのかということ。効率的に収集したい場合、項目がきれいにまとめられているポータルサイトなどのようなところからクロールすると方法がひとつの解決策となります。しかし、ここで課題になるのは、理想的なポータルサイトが存在するのかという点です。飲食店などのサービス業、店舗型のビジネスのお店をまとめて紹介しているポータルサイトというのは非常にたくさんあります。しかし、ホワイトカラーのような仕事をメインとされている企業を、網羅的にまとめているポータルサイトというのは意外にないものです。その代替として利用されるものとして、求人ポータルサイトなどがあります。しかし、求人サイトでは人材を募集していない、求人広告を購入していない企業は掲載されていないことに加えて、支社全体の人材募集をを本社で一括で行っていることも多くあります。また、特定の支社などが人材募集をしていたとしても、すべての支社が一度に募集をかけることはまれで、網羅性という点では問題があります。では、支店、支社などの単位までしっかりと網羅していくためにはどうするのが正解なのでしょうか。

支店、支社を網羅したいのであれば企業サイトを地道にクロールするのが最適解

いろいろな方法がある中で、最も確実で、最も効果的なのは「企業サイトを個別にクロールする」という地道な方法です。もちろん、ポータルサイトなどから情報を集める場合と比べると、数万倍、数千万倍の処理が増えることにはなります。しかし、サービス業などを除く企業の支店や支社の情報が的確に掲載されているところとなると、理想的なサイトはそうはありません。覚悟を決めて企業サイトを収集していくのか最も確実な方法です。この方法のメリットは支店、支社の情報を集めること以外にもあります。企業サイトのページデータを集めることができれば、ホームページにどの程度力を入れているか、どのような事業をやっているか、どういうことをPRする傾向があるかなど、会社概要などに記載された情報以外にもいろんなことを把握することができるようになります。たとえば、全8ページの企業ホームページをもっている会社と、全300ページの企業ホームページと、3年前から週に一度以上の頻度で更新しているブログをもっている企業があった時に、この2つの企業を簡単に把握することができるようになります。資本金や事業内容の説明だけでは、違いが見いだせないようなものも、企業サイトを分析するとかなり細かな違いまでを分析、抽出することができるというメリットは、営業やマーケティングで利用するということを考えると非常に大きなものです。

企業毎に異なる項目名、記載方法を吸収するためにはAIを利用した抽出・解析が有効

企業サイトをクロールして抽出していく方法は課題もあります。問題は企業が違えば、ホームページのページ構成、ページ内容、項目名、記述方法などが異なるため、リストとして利用するのに適した、項目ごとに切り分けることが簡単ではないということです。通常、ポータルサイトなどであれば、個別に正規表現等を設定して対応していくことになりますが、何十万、何百万という企業サイトのひとつひとつに個別のロジックを作って対応するのは現実的な方法ではありません。完成までに要する時間、コストがビジネスの許容範囲に収まらないためです。こうした問題を解決するための方法として実践的なものとして挙げられるのがAI、機械学習を使った抽出です。大量のパターンから傾向や特徴を学習させ、そこから自動で数百万~数千万ページを処理し、企業毎に重要な項目の情報が掲載されているページを見つけ出し、項目として切り出して保存する。これが現在、コスト、時間共に最も優れた方法です。しかし、もちろん新しいパターンに対しては常に学習させ続ける必要があるため、数パーセントの不正解率が発生することはあります。常に対応しても、常に新しい表現、ページデザインなどが生まれ続けるわけですから、ある程度のところまでは自動で正解を導き出すことができますが、完ぺきを求める場合は、少量のデータを人で処理するという昔ながらの方法のほうが優れています。但し、こちらの方法では、処理数に限界があることと、単調な作業を行ってくれる人材の確保、教育、管理という問題が付いて回りますので、こちらも完璧なプランとはいえません。一長一短ある中で選択する必要があります。

営業やマーケティングを行う現場では、アタックリストは非常に重要なアイテムです。見込み客になる可能性が高いリストがあればビジネス効率は大幅に高まります。そのために支店、支社などのデータを集めたいという時は、許容できるコスト、リストの精度などを確認の上で、方法を検討していくのが理想的です。完ぺきなスピード、数、精度を求める場合、完ぺきな予算も必要になります。現実的な落としどころとなるプランを見つけた目には、許容できるものを考えるところから始めるのが大切です。

Next article クローラーで企業サイトを収集、監視して更新情報をアラートで把握したいという時にシステム的に考えておくべきポイント
Previous article Webページをクローラーで取得しながら画面キャプチャもとりたいという時に検討しておくべきポイント

Related posts