Webクローラーツールを活用した事例などをご紹介していきます

クローラービジネス活用事例クローラー全般

ビジネスで利用する画像を収集するクローラーを検討する際のチェックポイント

ビジネスで利用する画像を収集するクローラーを検討する際のチェックポイント

画像をインターネット上から収集したい。こうしたニーズは様々な業界でニーズがあり、相談を受けることも少なくありません。しかし、「画像をクロールするだけ」と安易に考えていると、運用を始めてから思わぬ壁にぶつかりがちです。スムーズにクローラーを活用して。事業課題を解決するための画像クローラーの検討をポイントをご紹介していきます。

画像をクロールする目的は何?画像の利用用途から取得と保存の方法を考える

最初に徹底的に考える必要があるのは「目的から取得と保存の方法を設定する」ということです。なんとなく画像のクロールをはじめてしまうと、圧倒的な画像の数とそれを保存するための容量の大きさに驚くことになります。この容量の大きさというのは、そのままサーバの維持管理のコストに大きく影響していきます。また、大量の画像データがたまればたまるほど、その画像の中から適切なものを抽出する難易度はあがりますし、抽出するためのアプリケーションの運営コストも上がることになります。適切なコストで、しっかりと目的を達成するためには、必要のないものは取得しない、もしくは削除する必要があります。

しかし、ここで難しいのが必要のあるものかどうかを、どうやって判定するのかということです。あるサイトの中に掲載されている画像をすべて保存するという単純な仕様であれば特に悩むことはありません。この場合は、そのサイトの画像以外は取得しなければいいわけですから仕様検討はとても簡単です。

難しいのは、サイトの中で「特定の条件を満たす画像」をターゲットとしたり、対象サイトが決まっていない中で「インターネット全体から特定の条件を満たす画像」をターゲットとして収集して利用できる状態にすることです。こうした難しい条件で画像クロールを検討している場合は、しっかりと取得や保存の方法を考える必要があります。

希望している条件に合致している画像かどうかを判断する3つの方法

収集したい画像を判断するための方法は大きく3つあります。1つ目は画像を人間が見ているように判断をして、どういった内容なのかを推測し、そこから該当する画像であった場合、保存をしていくというものです。これは画像単独で判断できるので理想的ではあるものの、精度、コストともに課題があるため、大量に処理する場合に向いている方法ではありません。

2つ目は画像を呼び出す際のHTMLタグ、具体的にタグに設定されてalt属性を使って判断する方法です。これは画像の意味をHTML上に設定するためのもので、これを使うことで画像そのものを厳密に解析することなく、画像がどういったものかを把握することができます。しかし、この方法の課題はalt属性が設定されていない、又は設定されているものの適切なものになっていないということがよくあるということです。設定されていないものを判定に利用することはできないため、大量の抜け漏れが発生するのが課題です。

3つ目は画像が表示されているサイトやページの分析をして、どのような趣旨のページの、どんな場所に掲載されていたかで、画像を判断するという方法です。目的が明確な場合などでは有効に機能する方法ですが、あいまいな趣旨のサイトやページでは、判断することが難しいという課題もあります。この3つの方法のいずれかだけで実施するのはどれもバランスが悪いため、現実的には3つの手法のいくつかをプロジェクトの要件にあわせて調整して使うことになります。

サイトは常に更新されることを踏まえて考える。画像の新規追加や更新、削除はどうする?

必要な画像を収集する仕様が決まって一安心と思いきや、実際にはその先にもうひとつ検討すべきものがあります。それは一度チェックをしたサイトも、再度更新の確認などを行うのかという点です。特定の期間に一度だけ収集するという場合は検討する必要がありませんが、プロジェクトの要件上、継続的にクローラーの稼働が必要な場合は新規追加、更新、削除を考える必要があります。この中で新規追加は非常にシンプルで見つけたことがない画像ファイルを見つけたら保存していくというものです。悩むのは更新と削除です。更新の一般的な方法としては、常に同じ画像は上書きをしてしまう保存の仕方です。同じ画像であっても、システム的にチェックをすると容量やサイズが変わっていたりして、人が見ると変わっていることがあります。そのため、常に最新の画像を上書き保存するということで最新の状態を保つことができます。しかし、上書きをされてしまったら、過去の状態がなくなってしまいます。そうした過去の履歴なども確認が必要になる場合は、定期的にバックアップをとるか、もしくは上書きをせずに、別の画像として保存をしていくのかなど、仕様を検討していくおく必要があります。また、削除も更新と同様で、画像がサイト上からなくなってしまっても、画像そのものは使うということであれば削除は行わない設定にする必要がありますが、運用期間が長くなるごとに保存容量が増えていく、つまりサーバコストがあがっていくという課題があります。ビジネスとして好ましい画像クローラーを考える場合は、こうした点までしっかりと要件を詰めておく必要があるわけです。

画像をインターネットから収集したいと考えたとき、クローラーでただ集めるだけと思いがちですが、実際には検討すべきポイントはたくさんあります。ここでご紹介したのはそのごく一部にすぎません。ビジネス上、許容できるコストで、安定的に目的を達成する画像クローラーを検討する場合は、まずは様々な運用シーンを考えて仕様検討に全力でとりかかる必要があります。

Next article SEOの内部施策がまるわかり。クローラーを使ってSEOに強い競合サイトの工夫を見える化して自社のサイトを強化する方法
Previous article テレアポに使う営業リストで競合と差をつけるための「部署名」「担当者名」をクローラーで収集する方法

Related posts