Webクローラーツールを活用した事例などをご紹介していきます

クローラービジネス活用事例クローラー全般クローラー導入の検討ポイント

Webページをクローラーで取得しながら画面キャプチャもとりたいという時に検討しておくべきポイント

Webページをクローラーで取得しながら画面キャプチャもとりたいという時に検討しておくべきポイント

Webページを取得するためにクローラーツールをご利用なる方は非常に多くいらっしゃいますが、クローラーのみでは提供できるデータは基本的にCSVデータ、又は画像データとなります。プロジェクトによってはこうしたデータだけでなく、該当するWebページの画面キャプチャを取りたいという場合もあり、そうしたご要望は少なくありません。今回はクローラーに加えて、画面キャプチャも同時に取得して利用したいという時の仕様検討のポイントをご紹介していきます。

画面キャプチャの利用用途は何?撮影した画像のデザイン性はOSやブラウザで微妙に異なることがある。コストも踏まえて具体的な指定が必要です

普段、何気なく業務の中でも行うことがある画面キャプチャですが、多くの方が見ている撮影した後の画像はWindowsのパソコン上で保存されたものになります。利用されるブラウザもInternetExploerやChromeなどであり、そこで撮影したものをイメージされるかと思います。しかし、実際にはWindowsとMac、LinuxなどOSが変わればサイトの表示デザインは微妙に異なりますし、さらにブラウザが変わればもっと変わることあります。普段、毎日見ているものと全く同じものがいいという場合は、利用しているOS、そしてブラウザを指定する必要があります。しかし、ここで注意が必要になるのがWindowsにおいて画面キャプチャを行う挙動を実現しようとすると、ライセンスの関係上、初期コスト、運用コストともに大きく上がることになります。もし、多少のデザインの違いは許容できるのであれば、Linuxの利用を許可することで、コストを抑えることが可能です。質は高いに越したことはありませんが、その分コストに跳ね返るのも事実です。プロジェクトの目的から考えて、求めるデザインクオリティ、画像のクオリティをしっかりと設定していきましょう。

取得+画面キャプチャを行う量はどれくらい?画面キャプチャは稼働も取得したデータも両方とも重いので最初から検討しておく必要があります

通常クローラーで取得するデータのほとんどはテキストデータになるため、提供する際のファイル容量はそれほど大きくはなりません。それに対して画面キャプチャは、撮影対象のページの長さが長いと1ページで数メガバイトになることもあり、撮影量を事前に検討しておく必要があります。もし、撮影対象のページが長く、また、大量にある場合は、撮影に時間がかかるだけでなく、キャプチャ画像の保存容量も非常に大きなものとなり、一定期間、サーバ上に保存する場合は運用コストが大きく上がることになります。また、毎日、撮影した画像をダウンロードする場合、ダウンロードに要する時間もある程度かかり、迅速な利用には適さない状態になります。プロジェクトの目的から考えて、事前に撮影した際の1ファイルの想定ファイル容量、1日の保存総量などを検討しておき、そこからサーバ環境等を検討すると無駄なく進めることができます。

いかがでしたか。画面キャプチャというとただ取るだけと思いがちですが、運用を踏まえると事前に検討しておくべき課題はいくつかあります。すべての課題を解決するためにコストも高くなってしまうため、プロジェクトの目的に応じて最適な方法を選択して、費用対効果の良い仕様にできるといいですね。

Next article 営業やマーケティングで本社だけじゃなくて支店や支社などの単位をしっかりと攻めたいという時に作るアタックリスト作成のためのクローラーの利用方法
Previous article クローラーとAIの組み合わせによって営業やマーケティングを飛躍させる方法

Related posts