トップ » 研究開発 » 情報集約

情報集約

(2006/10/09)

Webクローラとは何か

Web検索エンジンで有名になったクローラは、サイトを定期的に訪問し、 その内容を保存(インデキシング)し、さらにリンクをたどって別のページやサイトを訪問する、 という過程を繰り返すコンピュータ・プログラムです (参考:Googlebot: GoogleのWebクローラ)。

そうした作業をユーザの検索と同時に行わない理由は多数考えられますが、 1)収集対象が膨大で時間がかかる、2)収集したそれらをあらかじめ評価・整理しておく必要がある、 3)データが各Webサイトに分散していると実装が不便、などが考えられます。 いずれにしても、キーワード入力直後にすぐさま検索結果を表示するようなユーザ経験の提供には、 そうした地味な前処理が欠かせません。

ジューベーが開発しているインターネット・サービスにおいても、この地味な技術が必要とされています。 今ごろGoogleの2番煎じをしようというのか、と思われるかもしれませんが、 この技術の適用領域は幅広く、まだまだサービス開発の余地がありますし、 それほど大規模でないデータにおいても、情報集約の可能性は大きいと考えられます。 このページでは、情報集約(クローリング)技術に関する一般論、論文、参考文献などを紹介します。

次:クロール周期の決定問題

  1. Webクローラとは何か
  2. クロール周期の決定問題
  3. クローラが招く問題
  4. Webページからの情報抽出

【関連ページ】