Webクローラーツールを活用した事例などをご紹介していきます

AI+クローラークローラービジネス活用事例クローラー全般

企業名の名寄せを的確に行うためにはAI+クローラーの活用がポイント

企業名の名寄せを的確に行うためにはAI+クローラーの活用がポイント

何気なく利用していると営業リストですが、管理する担当者の人は、実は結構、頭を悩ますポイントがたくさんあります。そのひとつが、複数の営業リスト、社内の企業マスタなどのデータの統合に関する問題です。いわゆる「名寄せ」というものですが、どうやって同一の企業として判定し、マージ、統合を行っていくのかを考えて、実行し、みんなが利用できる状態に更新する作業です。空白文字や装飾文字をとったりして正規化を行うといったレベルのものは、みなさん実施されていることと思いますが、それだけでは思ったようにきれいに統合ができません。名寄せを悩ませる主な理由は次のようなものです

  1. 誤字脱字も存在する(ABし株式会社)
  2. 企業名のところに企業名以外の表記も存在する(ABC株式会社~東証一部のあいう株式会社の100%子会社~)
  3. 複数の企業名がひとつにまとめられていることがある(ABC株式会社/あいう株式会社)
  4. 部署名などの表記が入ることがある(ABC株式会社法人営業部)
  5. 装飾が入ることがある(!(^^)!ABC株式会社)
  6. 会社名として判定していいか不明瞭な場合がある(ABC)
  7. 会社名とブランド名が別でブランド名のみが表示されている場合がある(ハンバーガーショップABC)

こうした理由の組み合わせなどによって、実はけっこう難しい問題がたくさんあるのが企業データのマージとなる「名寄せ」です。総合的に考えると、企業の名称部分だけを使って同一性を判断するのは難しいので、住所や電話番号を使って、複数の条件で合致させていく方法を使っている方も多いわけですが、ここにも問題があります。1つの企業であっても、部署、支店などが違えば、住所や電話番号も代わるという問題です。しかも、最近では広告の公開計測用などのために、広告メディア側が用意した特別な電話番号などが掲載されている場合もあり、企業名と住所と電話番号で判定しても、そこまで統合率が高まるわけではありません。

企業名、所在地、電話番号だけで判定するのは無理がある。本気で名寄せしたいならもっと総合的な情報で判断する必要あり

リストをみていると、どうやってこのリスト内の項目で統合をしようかと悩んでしまいます。しかし、そもそも企業名、所在地、電話番号などの項目だけで統合しようとしていること自体が問題です。たとえば「ABC株式会社」という会社があったときに、その会社が展開しているブランド「あいう」があったとします。この場合、会社名とブランド名が異なるため、どちらかの表記であっても、同一の企業である可能性が高いというように調整するわけです。しかし、もし、新ブランド「かきく」というものを「ABC株式会社」が立ち上げて、リスト上の表記がブランド名だけだったらどうでしょうか。この場合、企業を特定して統合することは理論上、不可能となるわけです。では、どうしたらいいのかというと、こうした項目だけでなく、事業内容、説明に用いられる用語など、一般的に項目として明確なものにしにくい文章なども判定に使っていくのがベストな方法です。こうした部分も判定の材料に加えていくことで、名寄せの精度を飛躍的に向上させることができます。

インターネット上のから企業、ブランドに関連した情報を徹底的に調査、補足情報をクローラーで収集、名寄せ位の精度を大幅に向上させる

リストを統合する際に、まず企業名やブランド名をみていきますが、その時、新しいものと判定されたり、特定するためには曖昧部分が残っているものについては、さらに外部情報を追加する動作をいれます。具体的には、インターネット上の様々なホームページ、ニュースサイト、ネットメディアの情報から補足情報をクローリングしていき、その名称の組織、お店などがどういったものかを把握していくわけです。たとえば、飲食チェーンを経営している企業が、新ブランドを立ち上げた場合、このブランド名だけをみても運営企業と紐づけることはできません。リストの名称だけで判断すると、どこかに新しいお店ができたという以上の評価できないわけです。しかし、新しいブランド発表のニュースや、クチコミサイトなどにおける誰かの説明文章、そして企業サイト内に掲載されているプレスリリースなどを分析していくことで、新ブランドと運営会社を紐づけることはそれほど難しいことではありません。もちろん、インターネット上にある情報のすべてが正しいわけではありませんので、クローラーが集めたすべての情報をそのまま使うことはできません。しかし、ニュースサイト、企業サイト、クチコミサイトなど、サイト毎にスコアを変えて、一定以上のスコアに達した場合、真実の可能性が高いというように調整をいれることで、かなりの確率で真偽を特定することができます。

クローラーによる外部情報の収集と複雑な情報の中から関連性を見つけ出すAIが精度向上のポイント

理論上は、外部の様々なサイトの情報を収集して判断するだけなのですが、実際に運用しようと思うと様々な壁が待ち構えています。最初の壁は企業名をブランド名をどうやって抽出するのか、そしてそれに関連した情報をどこから見つけ出すのかということです。日常的にすべての組織やブランドが正式名称で記載されるということはありません、ABC株式会社という正式名称があれば、ABCと略されることがありますし、場合によっては相性として別の呼称が使われることもあります。さらに、飲食店などのようにわかりやすい業種であれば、チェックをしに行くサイトなどの特定はそれほど難しくありませんが、業種判定が難しい場合などは、どこをチェックすべきかを判断するのがとても難しいわけです。どこを見るべきかがわからない場合は、すべてのサイトをみればいいわけですが、そうすると今度は、世界中のすべてのサイトのすべてのページをクロールして、その中から適切な情報を見つけ出す必要があり、その運用コストはほとんどの企業で決済がおりる金額ではなくなってしまいます。では、どうすればいいのでしょうか。

現実的なコストで、しかも、無駄なく確実な判断ができる。それを実現するために活用できるのが”AI”です。まず、主要な業種の中から企業名、ブランド名、新しい住所、電話番号などの表記が掲載される確率が多いサイトを学習させていき、業界ごとの特徴を抽出させていきます。私たち人間も、企業名、ブランド名を見ただけで「製造業っぽい」であったり「飲食店かな」と思ったりすることがあると思いますが。機械学習によってAIも名称を見ただけである程度、業種を特定することもできるようになります。もし、特定できない場合は、人であれば電話帳を探したり、いろいろな方法でヒントを探すことになりますが、その行動も学習させていき、どんどん正解に近づけていく行動を学習させていきます。もちろん100%の精度とはいきませんが、少なくとも人が判断する場合にかなり近い数字までは向上させることが可能です。

企業名の名寄せというと、目の前にあるリストをどうしようかと考えてしまいがちですが、インターネットを活用することで、より人の判断力に近い精度を実現することが可能です。ぜひともクローラー+AIによって営業リストの統合の精度を向上にチャレンジしてみましょう。

Next article SEOに強い競合サイトのcanonical設定やnofollowをはじめとした内部構造を把握して自社サイトを強化するクローラー活用方法
Previous article メールマーケティングのためのメールアドレス収集をクローラーで行う際のポイント

Related posts