Webクローラーツールを活用した事例などをご紹介していきます

クローラービジネス活用事例クローラー導入の検討ポイント

配送状況を確認するために伝票番号を入力フォームに渡して、結果ページをクローラーで収集して配送管理を自動化するポイント

配送状況を確認するために伝票番号を入力フォームに渡して、結果ページをクローラーで収集して配送管理を自動化するポイント

クローラーは基本的にはアンカータグ、いわゆるリンクを辿っていくことでページを収集し続けます。そのため、ボタンや入力フォームなど、リンク形式ではない部分は先に進むことはできません。しかし、リンクを辿る際に、特定のフォームページを見つけた場合は、指定の値を渡してボタンを押して先に進むなど、期待する動作を設定して稼働させることもできます。こうした機能を利用して、物流会社などの配送状況を確認するサイトをクロールし、荷物の状況を把握、管理する業務を自動化することも可能です。伸び続けるEC市場の関連ビジネスを行っている、多くの企業にニーズがあるクローラーの利用方法です。ここでは配送状況確認などを行うための、クローラー導入のポイントを紹介していきます。

通常のクローラーと違って宅配会社ごとに個別カスタマイズが必要

通常のクローラーはリンクという共通の仕組みを利用するため、様々なサイトで共通の稼働をさせることができます。そのため、開発、運用するシステムが少なくて済むということになり、必然的にコストを抑えることができます。しかし、入力フォーム、ボタンなどの動作が必要になってくると、サイト毎に個別にカスタマイズを行う必要があり、対応する宅配会社ごとに配送状況確認クローラーを作りこむ必要がでてきます。そのためリンクを辿る、単純なクローラーと比較しますと、初期費用が少しプラスで必要になります。もし、たくさんの配送業者を利用している状態で、すべての確認作業の自動化を進めようと考えている場合は、こうした点にも留意が必要です。

配送状況を確認するための伝票情報はどうやって更新するのかを決める

通常のクローラーはHTMLページを取得していくだけなので、特別な用意は必要ありません。クロールを開始するURLがあれば、あとは指定の時間になればクローラーが自動でスタートし、見つけたページを収集し続けてくれます。しかし、配送状況などの確認ページをクロールするためには、確認したい荷物の伝票番号などを入力フォームに渡す必要があります。荷物は毎日のように変わり続けますので、伝票番号をどうやって更新し続けるのかを、しっかり検討する必要があります。多くの企業が採用する方法としては、伝票番号をCSVデータにしてサーバに置くというものがあります。最新の出荷した伝票番号の情報を1日1回、又は希望する回数分、CSVにまとめて指定サーバに置き、この伝票番号をクローラーのシステムが定期的に確認して、取り込み、配送状況の確認の際に利用していくといった具合です。

配送状況を確認した結果をどうやって受け取るのかを決める

クローラーが伝票番号を渡して、配送状況の結果を確認するページを収集したら、確認した荷物のステータスなどをファイルにまとめる処理をします。その後、このデータをどうやって受けるのかも重要なポイントです。一番シンプルな方法としてはメールで受け取るという方法がありますが、この方法だとその後に担当者の人がファイルを開き、作業を行う必要があります。自動化を強化していくのであれば、結果ファイルもサーバに設置して自動で取り込むのが一番理想的な方法となります。クローラーが作る結果ファイルを、指定サーバに置かせて、それを社内のシステムが定期的に自動取りこみ。その結果、社内の管理システム上の荷物のステータスが自動更新されると自動化の恩恵が最大化されます。こうしたところは、社内のシステム状況や利用状況によって、ベストな方法も代わるので、目的や環境に応じて検討をしていく必要があります。

伝票の更新ミスなどの対応として再稼働が必要かどうかも考えておくとより実践的

ここまでで一通りの検討は終わっていますが、より実践的な動きを考える場合は、伝票の更新ミスなどへの対応も考えておく必要があります。伝票番号をもとにクローラーは動きますので、この伝票番号が誤っていたり、更新失敗などで古いままの状態だったりしますと、ほしい情報は手に入らなくなります。特に気を付けなければならないのは、1日1回の確認を行う頻度の場合です。確認頻度が1日1回の場合、もし間違った伝票番号で確認をしてしまうと、次は翌日となってしまいます。仮に、月曜日の朝10時に配送状況の確認をして、火曜日の10時の分は確認失敗、水曜日の10時に最新の状態になったとすると、実質、48時間ほど最新のステータスが手に入らないことになります。まず、これが許容できるかどうかがひとつの論点です。48時間程度であれば、さほど問題がないという場合は、ここについては検討する必要はありません。しかし、48時間は許されないという場合は、伝票番号の更新が正しく行えなかった場合の動作、復旧フロー、機能などを検討しておく必要があります。

クローラーは単純なリンク以外に、様々な入力フォーム、ボタンなどへの対応も可能なツールです。カスタマイズをすることでブラウザを通して行う、様々な動作を疑似的に再現し、自動化させることができます。配送状況をはじめとしたフォーム関連の制御が必要な業務で困っている方は、こうしたクローラーの活用法をひとつの参考にしてみてください。

Next article 予算をもっている企業をリストアップした営業リストを作るためのクローラーの活用方法
Previous article ログインした後のマイページなどをクローラーで収集して毎日のルーチン業務を自動化するための活用方法

Related posts