情報集約
(2006/10/09)
Webクローラとは何か
Web検索エンジンで有名になったクローラは、サイトを定期的に訪問し、
その内容を保存(インデキシング)し、さらにリンクをたどって別のページやサイトを訪問する、
という過程を繰り返すコンピュータ・プログラムです
(参考:Googlebot: GoogleのWebクローラ)。
そうした作業をユーザの検索と同時に行わない理由は多数考えられますが、
1)収集対象が膨大で時間がかかる、2)収集したそれらをあらかじめ評価・整理しておく必要がある、
3)データが各Webサイトに分散していると実装が不便、などが考えられます。
いずれにしても、キーワード入力直後にすぐさま検索結果を表示するようなユーザ経験の提供には、
そうした地味な前処理が欠かせません。
ジューベーが開発しているインターネット・サービスにおいても、この地味な技術が必要とされています。
今ごろGoogleの2番煎じをしようというのか、と思われるかもしれませんが、
この技術の適用領域は幅広く、まだまだサービス開発の余地がありますし、
それほど大規模でないデータにおいても、情報集約の可能性は大きいと考えられます。
このページでは、情報集約(クローリング)技術に関する一般論、論文、参考文献などを紹介します。
- Webクローラとは何か
- クロール周期の決定問題
- クローラが招く問題
- Webページからの情報抽出
【関連ページ】