クローラーというと、多くの方が大量のデータを取得することを期待されがちです。大量のデータを取得し、それを使ってBIツールや、マーケティングデータの作成などを行うためには、過去のデータも含めて大量にあればあるほど良いと考えられることが多いためです。事実、データはたくさんあるほど、魅力的な結果を出すことができます。しかし、そこにはビジネスとしては課題があります。
たとえば1日10万件のデータを収集したとします。そうすると1年間で3650万件ほどのデータがたまります。これを3年分ためて動かそうとすると1億950万件ほどのデータになります。このデータ量で毎日、データ処理を行い、前日比、前年度比などの計算から、リアルタイムの処理までを走らせるとしたら、そのシステムを動かすサーバは、毎月のランニング費用が相当な金額になります。(我々の過去の経験からいえば、サーバ代だけで30万~50万ほどはないと、快適な処理は難しいのではと思います)
クローラーは大量のデータをとること自体は比較的容易にできます。しかし、大量のデータを集めても、それをどう使うかを考えていないと、思わぬところでコスト高になってしまい、ビジネス上の足かせになってしまうこともあります。一番理想的なのは、大量なデータではなく、質の高いデータを適量保持すること。こうすればクローラーのコスとも抑えられますし、データを処理するアプリケーション側のランニングコストも心配する必要がなくなります。
データというと、あればあるほど良いと思いがちですが、ビジネスということを考えて費用対効果から適量に抑える努力も重要です。