Webクローラーツールを活用した事例などをご紹介していきます

クローラー全般

いろんなサイトからクローラーでデータを集めた後に、重複チェック、統合をきれいに行う方法

いろんなサイトからクローラーでデータを集めた後に、重複チェック、統合をきれいに行う方法

営業のアタックリストなどを作るときに1サイトからクローラーで集めるだけであれば、それをそのまま利用するだけの簡単な作業です。しかし、複数のサイトからデータを集めて、まとめて1ファイルにしようとすると考えなければならないポイントがたくさんでてきます。サイトが違うと項目が異なることは当然として、項目の中身の記載ルールも全く異なってきます。住所と書いてある欄に、都道府県しか載っていないものもあれば、番地番号まで含まれているものもあったりすると現場で活躍できるデータになっているとはいえません。加えて、同一の企業データなどがサイト毎に違う企業として判定されてしまい、正しく統合されないと、営業担当が複数ついてしまったり、DMを重複して送ってしまうなどの問題も発生して今います。ネット上から「取得する」、そして「使う」という、この当たり前の状態を実現するために、可能な限りきれいに統合したいところ。ここではきれいな統合のポイントをご紹介していきます。

項目を最大公約数に設定する

営業やマーケティングで利用するデータとなると、いろいろな分析をするためについつい欲張って設定してしまいがちです。しかし、複数のサイトのデータを統合する前提にする場合は、どのサイトにもあり、自社で絶対に利用する項目のみに絞ってみることが重要です。もし、特定のサイトにしかないような項目を残す場合は、原則、利用しないデータとして割り切ることが最初の作業です。思い切って、最大公約数の部分だけに集中していきましょう。

項目の内容の表記を統一処理をルール化して実行する

次にやるべきことは、項目の中身のデータを、自社の基準の形式に変換することです。たとえば電話番号であれば「000-0000-0000」というようにハイフンをいれるものもあれば、「(00)0000-0000」というようにハイフンだけでなくカッコも利用して、市外局番を紹介しているところもあります。これらの表記はサイト毎にルールが異なるだけでなく、同一サイトのなかでもフリーテキストとして受け付けている仕様の場合、様々なパターンが登場します。電話番号、メールアドレス、住所、こうしたものは自社が最も活用しやすい形に、すべてのデータを変換する処理をかけていきます。この時、想定外のパターンもときおり登場します。「給与」と書いてある欄であれば、普通は月給○○万円、時給000円など、給与としての意味を成す表記があると考えてしまいがちですが、「成果次第」など、給与としての数字が一切ないものが登場し、想定漏れになる場合などがあります。そのため、想定外のものもでてくることを踏まえて、変換パターンに該当しないものはアラートを出すように調整していくことが重要です。ここの精度をしっかりと上げていくと、次の工程の重複削除や統合の精度もあがるので、気合いをいれてやりきりましょう。

重複判定を段階的に設定、確実なものだけのデータと、不確実で検討の必要があるデータを分ける

そして最後は重複の削除、統合作業です。社名や電話番号、住所など、この項目が完全一致すれば同一の企業として判定するという作業になります。しかし、実際に行おうとすると、社名と電話番号は一致するけれど、住所は一致しないというようなこともあります。また、住所と電話は一緒だが、社名が異なるような場合もあり、それぞれ対応をする必要があります。まず、ここで大切になるのがすべてを完全に自動化しないということです。自動化するのは「確実なもの」に絞り、「不確実な可能性があるもの」は、別途手動での判定を入れていくことで、徐々に精度をあげていきます。まず、「確実なもの」は指定の項目がすべて一致したものです。こうなると、重複データとして統合することに何も躊躇する必要がありません。そして、このデータだけをまとめたファイルにすることで、信頼性をもって利用していいデータができあがります。逆に、一部、怪しい可能性があるというデータについては、別ファイルで保存をします。こちらは目視で確認をして、判定ロジックを上げていく材料に利用していきます。電話や住所は一緒だが、社名は違う場合は、AサイトとBサイトでは、常にBサイトの表記が正しいということがわった場合は、社名のみ違う場合は、Bサイトの社名表記を信用して統合し、確実なものとして割り振るといった具合です。

効率的に、そして信頼性の高いリストを作るのは簡単なことではありませんが、着実に一歩ずつすすめていけばかなりのところまでは自動化することができます。しっかりと一歩ずつ進んでいきましょう。

Next article 営業やマーケティングを効率化させるための検索エンジンを作る時に抑えておきたい、クローラーの仕様検討のポイント
Previous article クローラーツールが実現できる業務の自動化まとめ

Related posts