2010年 2月 20日 はてなブックマーク -

このガイドでは、Hyper EstraierのWebクローラの詳細な使い方を説明します。ユーザガイドP2Pガイドをまだお読みでない場合は先にそちらに目を通しておいてください。

estcmdだとローカルのファイルシステム上にある文書(ファイル)を対象としたインデクシングしかできません。NFSやSMB等を用いてファイルシステムをリモートマウントすれば別のマシンにある文書をインデクシングすることもできますが、不特定対数のWebサイトの文書を扱おうとするとそうもいきません。wgetなどのクローラで文書を集めて来てローカルに保存してからインデクシングすることも考えられますが、ディスク容量の問題や更新頻度の問題などがあります。

Web上のリンクを辿って文書を収集することをWebクローリングと言い、そのプログラムをWebクローラと言います。Hyper Estraierに付属のWebクローラestwaverを使うと、任意のWebサイトの文書を直接的にインデックスに登録することができます。

estwaverは賢いクローラです。深さ優先探索や幅優先探索のような単純なアルゴリズムでなく、文書の内容を判断して関連するものを優先的に辿って行きます。種文書として指定した文書は、探索の起点になるとともに、類似度判定の材料にもなります。類似検索と同じ要領で種文書のベクトルの和に対する類似度を算出し、それが高い文書のリンク先を優先的に辿ります。

Crawler Guide of Hyper Estraier Version 1 (Japanese)

Webドキュメントを集めて全文検索対象にするのに使えそうです。


2年前 | | 2010年 2月 20日 | このエントリーを含むはてなブックマーク