情報集約とWebマッピング
イントロダクション
インターネットの良いところのひとつは、あるテーマに関するWebサイトが多数存在し、 その中で自分に適合するものを選択できるという点にあると思われます。 しかし他方では、あるテーマに関して網羅的に調べようと思った場合に不便な場合もあります。
本開発計画は、そうした分散情報を情報集約技術によって集め、 その中に含まれる位置情報を抽出し、さらに地図上にプロットして再提示するという技術テーマが含まれています。 一般ユーザの皆様は、分散した情報を探し回ることなく、 包括的に閲覧することが可能になり、さらに地図上で整理された状態でも見ることができるようになります。
技術上の実現目標
- 情報集約:迅速、正確かつ効率的な情報集約
- 情報の構造化:自由記述テキストから特徴語の自動抽出、特徴語による情報の再整理
- Webマッピング:住所表現の自動抽出、ジオコーディング、2次元地図上への情報提示
適用する問題領域
インターネット上に情報が分散しているテーマで、情報集約を行った場合の社会的意義が大きい問題を選択します。
関連するプロジェクト、Webサイト、論文等
テキスト中から住所表現を抽出し、2次元地図上にプロットするという技術を用いたWebサイトは、 国内でもいくつか存在します。 Knecht ハザードマップは、 事件・事故などの新聞記事中から住所表現を抽出し、 2次元地図上にプロットして情報提示を行うWebサイトです。 Googleマップとのマッシュアップ・サービスでもあります。 株式会社ゼンリンデータコムの地図ログは、 ブログ記事中の住所表現を抽出し、同じく2次元地図上にプロットして情報提示するWebサイトです。
テキスト中から住所表現を抽出する技術自体は、例えば正規表現を用いる、 既定の辞書で地域の固有名詞を識別できる形態素解析エンジンMeCabを利用するなど、 意外に手軽に実装することができます。 しかし、文章中に住所表現が複数あらわれる場合などに困難があります。 また、文章中から住所表現を抽出したとしても、 それが文章の意味を損なわないものであるか判断するのは難しい問題であるといえます。 例えば以下のような文章では、抽出すべき住所は「文京区大塚」であり、「豊島区南大塚」ではない、という場合もあります。
文京区大塚在住・在勤の方はお申し込みいただけます。 申し訳ありませんが、豊島区南大塚の方はお申し込みいただけません。
インターネット上に分散した情報を集める技術については、 情報集約のページで述べたものに準じます。
スケジュール
- 2006年11月: Webページ解析エンジンの開発を完了
- 2006年12月: クローラ試験、アプリケーション外部設計等を予定
- 2007年07月-: 1次プロトタイプ
- 2008年04月: 猫サーチとして公開