Webクローラーツールを活用した事例などをご紹介していきます

AI+クローラークローラービジネス活用事例クローラー導入の検討ポイント

Webクローラーで画像を大量に収集。その後、AIを使って自動で画像のカテゴリ判定を実施したいと思ったときの基本的な進め方

Webクローラーで画像を大量に収集。その後、AIを使って自動で画像のカテゴリ判定を実施したいと思ったときの基本的な進め方

大量の画像をインターネット上から収集して、その中から特定カテゴリの画像を自動で抽出して利用したいというニーズを持っている方は少なくありません。画像をクローラーを使って集めること自体は、非常に簡単な作業ですが、問題は大量に集まった画像の中から適切な画像を抽出するところです。画像の抽出方法としても最も簡単でシンプルな方法はHTMLソースの記述を利用することですが、これだけですべての画像を的確に判定していくことは不可能です。ソースのミスもありますし記述が存在しない場合もあるためです。そこで最近注目されているのが、画像だけで判定していく方法です。この方法自体はずいぶんと以前からありましたが、大量の判定を行おうとするとハードウェアの導入、運用コストが非常に高額なることもあり、実用レベルでの利用というのはそれほど多くはありませんでした。しかし、近年、高スペックな環境を安価に利用することができるサービスも広がってきており、以前と違って本格的に業務で利用されるレベルにまで浸透してきています。

無作為にWebクローラーで集めた画像の中から抽出したい対象によってアプローチ方法は変わってくる

Webクローラーで集めた画像は、保存してあるだけの状態ではいったいどんな画像なのかが全くわかりません。画像の説明が完璧にHTML上に記載されていれば別ですが、多くのサイトではテキストは雑なものになっています。たとえば白色のセーターを紹介する画像であったとしても、よく見ると「画像はサンプルイメージです。お届けする商品の色は選択されたものとなります」といったように、画像とテキスト必ずしも一致しているとは限りません。画像単体でなんとか判断しない限り、どうやっても画像の意味を把握するのには限界があるのです。これを解決するための方法としては、いくつかの方法がありますがそれぞれ一長一短、特性があります。有名なものとしてはOpenCVやTensorFlowなどを活用するというものがありますが、これらをとっても抽出が得意なものや苦手なもの、調整の難易度などは対象物によって変わってきます。まず最初に考えなければならないのは、抽出したい対象物はどんなもので、どんな画像が該当するのかをしっかりと把握することです。ここを飛ばして、いきなりはじめてしまうと、抽出の精度を上げるためのコストが大幅に上がっていきます。慎重に検討をしていきましょう。

完全自動で勝手に判断してくれるわけではない。ひとつひとつ抽出対象ごとにとても地味な学習の繰り返しが必要であることに要注意

機械学習、AIといったような話を聞くと、勝手に成長していってくれるように考える方がいますが、実態はそんな魔法のようなものではありません。人間の子供を育てるのと同じように、大量に学習させ、少しずつ精度を上げていくという地味な作業の繰り返しが必要です。Webクローラーで収集した画像の中で、抽出したいものがあったとしたならば、ひとつひとつ丁寧に学習をさせていく必要があります。黒いセーターと白いセーター、Vネックのものと、クルーネックのもの、それぞれに学習が必要です。セーターというものを教えただけでは不完全で、もし精度を担保しようとするのであれば、色や柄、形状など細かな違いをひとつひとつ別のものとして学習させていかなければならないのです。そこで重要になってくるのが、細かな対象物のカテゴリの定義と、抽出した画像が正解だったか不正解だったかを教えてあげる仕組みです。この2つをしっかりしたものをしていかないと、自動判定の継続稼働がスタートするまでの期間がとても長くかかり、結果としてコスト高になってしまいます。対象ごとにどうやって短期間で、大量の正解、不正解という結果をフィードバックするか、これを自動的に回す仕組みを考えることが最初の開発といえます。地味なところですが、ここをしっかりとしておかないとクローラーで収集した大量の画像の、精度の高い自動判定は難しいものになってしまいます。頑張っていきましょう。

ここでお話したのは、Webクローラーで収集し続ける大量の画像データを、自動で判定して必要な画像を抽出、タグ付けしていくような仕組みの枠組みになります。実際に運用する場合は、より緻密な計画が必要になりますが、そうした点はまた改めてご紹介できればと思います。

Next article Webクローラーの導入を成功させるためには”データを収集する”ではなく”データを収集した後にこんな結果を達成する”という意識を強く持って検討をすすめること
Previous article Webクローラーの開発、運用を外部に委託しようと考えている時にチェックしたい選考のポイント

Related posts