検索エンジンのしくみ(要約)
- 検索方式
- キーワード検索
- あらかじめ登録したキーワードを検索対象の文章に照合させ、合致した場合にその文章を検索結果として表示する。
- 全文検索
- 文書内のすべての文字が検索対象。つまり、文書本文すべてをキーワードとして登録しているのと同じ。
- キーワード検索
- 全文検索の種類
- 逐次検索(=grep検索)
- 文章の先頭から順番に照合していく方法。
- インデックス検索
- あらかじめ対象文章を解析して索引を作成しておき、
- 索引情報の中に指定された語句があるかを照合していく方法。
- 逐次検索(=grep検索)
- インデックス検索の構造
- データ収集部
- データを集めてくるプログラム(クローラ)の部分。
- 文書フィルタ部
- 文字コードの統一、不要なHTMLタグを削除する部分。
- インデクサ部
- 索引を作成する部分。
- 検索サーバ部
- 索引情報の中に指定された語句があるかを照合していく部分。
- フロントエンド部
- ユーザーインターフェースの部分。
- データ収集部
- 作者: 神崎洋治,西井美鷹
- 出版社/メーカー: 日経BP社
- 発売日: 2004/12/04
- メディア: 単行本
- 購入: 4人 クリック: 195回
- この商品を含むブログ (14件) を見る