HTMLページをクロールして収集し続ける、クローラーというツールはかなり一般的になってきていますが、その一方で集めたデータの使い方はというと、営業リストなどが主流で、まだまだ有用な活用方法は手探りの状態です。今日は、クロールして集めた企業のホームページデータを利用した、少し珍しいクローラーの活用事例をご紹介していきます。その事例というのは、人がやると以外に時間がかかる「企業を紹介する要約文の作成」です。企業を紹介しようとする時、誰でも知っているような有名な企業であれば、簡単に要約を作成することができるはずです。それは調査する必要がないほど、多くの人が情報を事前に持っており、それを文章としてまとめるだけだからです。しかし、あまり知られていない企業の紹介文章を作るとなると、企業ホームページや様々なニュースサイトなどから企業の情報を調べていき、主要な事業や商品、そして現在、注力していることなどを把握し、そこから紹介にふさわしい特徴的なポイントを文章にまとめあげていくことになります。もし、あまり知られていない数千、数万の企業の要約を作るとなると、専任のスタッフをつけたとしても相当な時間がかかり厄介な作業になります。こうした人がやると大変な作業であっても、クローラーで収集したデータを、AIで特徴を抽出させて、文章を作ることによって自動化を実現させることができるのです。
まずは企業のホームページをクロールしてページを収集。注意が必要なのは企業のホームページは1つとは限らないということ
それでは、具体的な内容をご紹介をしていきます。まず最初に行うのは、企業のホームページをクロールして収集する作業です。収集にあたって気を付ける必要があるのは、その企業が複数のホームページを持っていないかという点です。多くの企業は企業ホームページはひとつです。しかし、企業によっては企業ホームページだけでも顧客向け、求職者向け、投資家向けなど目的別にいくつか存在したり、商品やサービス専門のサイトが存在することもあります。こうしたことを踏まえて、どこまでをその企業の情報とするのかをプロジェクトの目的にそってルール化し、クロールしてHTMLデータを収集していきます。
”企業の特徴”としてはどんなものが情報が好ましいのか。ここを機械学習でAIに学ばせていくことが次のステップ
次に収集したデータの中から”企業の特徴”を抽出していきます。この時、大切なのは”企業の特徴”とは、一体何なのかということです。単純に取り扱っている商品、サービスなど、特定の項目をそのまま特徴としてしまうと、独占的な商品、ユニークな商品を販売しているなどする、一部の稀有な企業以外では見るに堪えない文章になってしまいます。たとえば、東京でリスティング広告の運用を代行するサービスを提供している会社が複数あった場合、これらの会社の説明は、ほぼ同じような文章になってしまい、稚拙な印象のものになるためです。これでは十分なクオリティになっているとは到底いえません。人が読んだときに、自然で価値があるものを作るためには、”企業の特徴”というものがどういったものなかをしっかり考えて抽出させる必要があります。単純な抽出ではなく、抽出した結果を比較、検討し、特徴として成立するものだけを利用させるわけです。こうしたことをチェックすべきポイント、項目などを機械学習でAIに学ばせ続けていくことで、適切なレベルの”企業の特徴”を抽出することができるようになります。
企業の特徴を文字数上限などの制約を踏まえて、自然な文章で出力する。でも情報量が少ない企業はどうする?
最後に、企業の基本的な情報と特徴的な情報をあわせて、制約となる文字上限数などを守った上で企業を紹介する文章を生成をしていきます。ここで注意すべきは、情報が足りない企業をどうするかという点です。ホームページというのは、基本的に運営者の方針によって、どういった情報を公開するかが決まります。そのため、運営者が異なる法人である以上、企業によってホームページに掲載している情報量、情報項目は異なってきます。多くの企業では、社名、所在地、事業内容、代表者名、取引先、商品など、主要な項目はホームページにしっかりと掲載されています。しかし、インターネットの活用が盛んでない業界などでは、ホームページに十分な情報項目、情報量が掲載されておらず、クロールしても十分な説明ができる情報が手に入らない場合があります。こうした場合、どのような方法で文章を作るのかなど例外処理をしっかりといれていくことで、より多くの企業に対応できる、要約ツールができあがります。
今回、ここでご紹介したのは企業ホームページをクロールした結果から、企業の紹介となる、要約文章を作るというものです。しかし、この方法は収集するホームページのジャンルや、出力するものを変えることで様々なものに応用が可能です。クローラーは営業リストのような一般的な使い方以外にも、AIなどを組み合わせることで様々な問題を解決することができます。AI+クローラーが切り開く、これまで体験したことのない生産性向上、一度検討されてはいかがでしょうか。