Webクローラーツールを活用した事例などをご紹介していきます

AI+クローラークローラー全般クローラー導入の検討ポイント

Webクローラーで自由自在に”ほしい情報”を集めるために、事前にやっておきたい要件のまとめ方

Webクローラーで自由自在に”ほしい情報”を集めるために、事前にやっておきたい要件のまとめ方

Webクローラーを検討されている方の多くは、ほしい情報を集めることをゴールとして考えています。しかし、実際に進めてみると「ほしい情報」が集まらないと悩まれることがよくあります。その理由は「ほしい情報」のことが実はよくわかっていないからです。「ほしい情報?そんなものはしっかりわかっている。具体的には営業リストで、この地域の、こういう企業のリストを作りたいんだ。”営業のアタックリスト”こそが欲しいデータなんだ」と明確にお答えになるような方でも、多くの場合、プロジェクトの進行途中で悩まれる方がほとんどです。その理由は、理想と現実のギャップ、そして抽象と具体の違いにあります。ここではWebクローラーへの投資を、しっかりと成果につなげるための”ほしい情報”を把握するための検討方法、要件のまとめ方などをご紹介していきます。

「これまでやってきた業務を自動化するだけ」であれば問題なし。でも、「これまでやったこともない、新規のデータ収集プロジェクト」の場合は要注意

多くの方は”ほしい情報”のことがわかっていないというお話をしましたが、具体的にどれくらいの方たちが把握できていないかというと、60~70%ほどの方たちが該当します。逆に言えば、30%~40%の方たちは、問題なくWebクローラーの導入できており、投資効果を得られているといえます。この”ほしい情報”をしっかりと把握できている人たちの特徴は、「これまでやってきた業務を自動化するために、Webクローラーを利用したい」と考えている方たちであるということです。たとえば、毎日、特定のサイトの特定のページから、手動でコピーアンドペーストでリストを作っている業務があり、それを自動化したいというような場合です。こういうケースでは、具体的に取得したいサイトやページ、項目や、収集の過程で起こる問題なども既に把握されており、それを自動化するためのソリューションとして、Webクローラーを利用するということなりますので、導入までとてもスムーズです。問題が起きやすいのは「これまでやったことがない、新規のデータ収集プロジェクトとしてWebクローラーを利用したい」という場合です。取得すべきサイト、項目など、あらゆるものが抽象的で、なんとなくインターネット上にこういう情報があるに違いないというところから始まっている場合などでは、理想と現実にギャップがあり、実践の現場で厳しい問題を解決するために四苦八苦するということが良く起こります。

Webクローラーの活用を成功させるためには「300サイト、300ページ分のサンプルをエクセルにまとめる」ことからはじめよう

理想と現実のギャップの問題を解消するためには、「現実を確認する」ということがとても重要です。具体的には何をするのかというと、クローラーの挙動と同じルールで、手動で300サイト、300ページ分のサンプルをエクセルにまとめます。そんなことかと思われるかもしれませんが、実際にやってみると、期待しているようなサイトがなかなか見つからなかったり、サイトの中からどういうページに掲載されているかがわからず抽出に時間がかかったり、そもそも300も集まらない、見つからないというのはよくあることです。ここで時間がかかったり、作れなかったりするということは、実際には「ほしい情報」をしっかりと把握できていなかったということになりますので、テストとしても行う価値があります。実際にサンプルができあがったら、今度はその中身をチェックしていきます。エクセルのセルごとに、期待している項目が並んでいるはずですが、問題はデータの記述形式等です。特定のサイトから集めたデータだけであれば、同一の項目はある程度、正規化されています。しかし、異なるサイトから収集した場合、住所、電話番号、企業名など、一般的といわれる項目であっても、記述形式には差があります。具体的な例でいいますと、あるサイトでは、住所のところは建物名まで書いてあるのに、あるところでは町名までしか書いていないといったような具合です。その状態で大丈夫という場合は問題ありませんが、こんな状態では使えないというこであれば、収集しただけ、つまりWebクローラーだけでは不十分であるということになります。収集したデータを、期待する形式に揃えるためのデータの変換などを行うシステムや、抽出方法を人が調整しながら行うようにAIを活用して補正しながら実施するなど、別の工夫を入れる必要があります。当然、こうした対応をするとコストは増えますが、事前にしっかり把握しておくことで、適切な予算の確保を行うことができ、結果としてプロジェクトは成功へと近づくというわけです。

Webクローラーの投資を結果につなげるためにはしっかりとした計画が必要です。それは実現が可能なものなのか、そして実現した場合に起こる問題は何なのか、その問題を解消するための解決策はどうやって用意するのか。こうしたすべてを把握してこそ、Webクローラーはビジネスで本当に役立つツールとなります。これまで収集したことがないデータを集めることを検討している場合は、まずはサンプルづくりにチャレンジしてみてください。

Next article 営業担当者に顧客の関連ニュースなどの情報を収集して提供したいと思ったときに気を付けておきたい、WebクローラーとAIの組み合わせによる落とし穴
Previous article Webクローラーでニュースやプレスリリースを収集して、営業やマーケティングに役立つ情報を抽出したいと思った時のチェックすべきポイント

Related posts