トップ » 研究開発 » 情報集約

情報集約

(2007/05/08)

クローラが招く問題

頻繁な訪問をはじめとする「行儀の悪い」クローリングは、Webサイトの管理者らに嫌われます。 2003年ごろ、韓国のNaverRobotがDoSまがいの訪問を繰り返すとして話題になり、 日本国内の一部Webサイト管理者らは、韓国割り当てのIPアドレスをまるごとアクセス拒否するという強硬手段に出ました。 <meta>タグやrobots.txtによる制御を受け入れることはもちろんのこと、 抽出したリンクの解釈などにおいても注意が必要です。当社のクローラ開発過程においても、 まずは人手でチェックしながら実装を検証していますが、 何万件ものURLをクロールしてから初めて見つかる不具合もあり、頭の痛い問題です

もうひとつの問題は、キャッシュしたデータを2次利用する際の法的リスクです。 例えばGoogleでは、図書館蔵書の横断検索プロジェクトに関連して出版社から提訴されたもの (参考:CNET Japan:論争を呼ぶ「Google Print Library Project」のグレイエリア",(2005))や、 キャッシュ保存に関連して訴えられた有名税的な訴訟 (参考:同:"キャッシュは著作権侵害にあたらず--グーグルが裁判で勝訴",(2006))、 画像検索に関連して著作権侵害を争うもの (参考:同:"著作権問題でさまざまな業界と対立するグーグル",(2006)) など、多数の訴訟と無縁ではありません。 ライセンス・フィー等を支払うことなく運用されていたGoogle Newsに関しては、 AP通信に対して使用料を支払う契約が結ばれました (参考:同:"グーグル、AP通信へのコンテンツ料金支払いに合意--ニュース記事の利用で",(2006))。

対照的な事例は、辞書の横断検索を行うWeblioです。 Weblioは、無許可のクローリングで情報集約を行うのではなく、 まず権利者に許諾を取るという営業活動を行っています (参考:@IT:"国内の総合辞書検索屋への挑戦、ウェブリオとは?",(2006))。 最初は数件の辞書だけでスタートしたようですが、その後徐々に辞書の種類が増えているようです。

しかし穿った見方をすれば、こうした許諾に関して全ての権利者がはじめから乗り気であったとも思えません。 Weblioが有名になってきたり、ライバルの辞書が検索可能になっているのを見て、あわてて許諾を出したとか、 とりあえず状況を観察していたとか、権利者らの様々な思惑があったのではないかと思われます。 そういう意味では、ソフトウェア開発とは異なるビジネス上の困難があると、考えたほうがいいのかもしれません。

例えば、Googleニュース 日本版でサービス開始時に全国紙へのリンクが無かったというのは有名な話ですが、 2006年10月の現在でもリンクしていない全国紙が残っています。 さすがのリアルタイム・インデキシング技術も、保守的な国内新聞業界を前に出番が無いようです。

前:クロール周期の決定問題 | 次:Webページからの情報抽出

  1. Webクローラとは何か
  2. クロール周期の決定問題
  3. クローラが招く問題
  4. Webページからの情報抽出

【関連ページ】