クローラーはネット上から様々なデータを収集するシステムですが、技術的にとれるからなんでも取得をしていいというわけではありません。ここではクローリングツールを使っていく中で気を付けておきたい法律的な考え方をご紹介していきます。
まず、原則としてインターネットは公共の場であるため、見せたくないものはWEB上においておくこと事態が間違っています。その上で、通信手段としてどうしても使いたいという場合は、ログイン等を必要とする、いわゆる「非公開」の状態にする必要があります。しかし、公開しているという状態は、見てもらって構わないということを示しているにすぎません。公開しているけれど、クローラー、つまりロボットで取得していいかどうかは、robots.txtというファイルで宣言をしています。ここで取得の可否を名言するのですが、ここで拒否をしているサイトから取得をしてデータを利用することは著作権法上、問題がある行為となる場合があります。
robots.txtで拒否しているサイトのクロールしたデータを公開することは違法となることが多い
法律というのは判例が基本となるため、あくまで解釈次第でどこまでも変容するため断言が難しいというところから話がはじまりますが、原則としてクロールした情報は著作権法上、著作者が権利を有しているというところから話がはじまります。取得した人は、その権利を侵害していないかどうかというところが論点になってきます。権利の侵害にあたるのは、著作者が著作したことによって本来であれば得ることができたはずの権利を奪っている場合などが該当していくるわけですが、ネットの世界でいうと取得した情報を公開して利用する場合などがこれに該当していきます。社内限りの場合においても、利用用途によってはその権利を侵害する状態になることも、解釈次第ではあり得ますので絶対的な基準とはなりませんが、目安として考えておく必要があります。
robots.txtで取得OKでも取得したデータを編集なしで公開することは好ましくない
仮にrobots.txtで取得OKですよとなっていた場合でも、取得したデータを編集なしで公開することは法的に著作権を侵害する場合が多いため好ましくありません。それを言い出したら検索エンジンや、最近よくみるキュレ―ションサイト、ネイバーまとめやらはどうなるんだという話になりますが、あちらは引用の範囲であるというのが、そういったサービスを運営している人たちの言い分です。著作権は、著作物の権利を認めてはいますが、引用の範囲においては、他者も利用していいという曖昧な基準が存在します。さらに、複数の著作物からの情報を編集することで新しい価値を創造すると編集著作権というものが新たに発生したりしますので、ここは非常に議論が沸き起こる難しいところに入ってきます。
法的な観点からホワイトでしっかりとまわしていきたいとお考えの企業は多いと思います。クローラー活用に際には上記のような点を留意した上で、クローラーの仕様を決めていきましょう。