あっという間の十年ブログ【Ruby篇】

"詮ずるところ#{プログラミング}は、ただ年月長く倦まずおこたらずして、はげみつとむるぞ肝要にて、学びやうは、いかやうにてもよかるべく、さのみかかはるまじきことなり。いかほど学びかたよくても、おこたりてつとめざれば、功はなし。また、人々の才と不才とによりて、その功いたく異なれども、才不才は、生まれつきたることなれば、力に及びがたし。されど、大抵は、不才なる人といへども、おこたらずつとめだにすれば、それだけの功は有る物なり。" - 本居宣長

検索エンジンのしくみ(要約)

  • 検索方式
    • キーワード検索
      • あらかじめ登録したキーワードを検索対象の文章に照合させ、合致した場合にその文章を検索結果として表示する。
    • 全文検索
      • 文書内のすべての文字が検索対象。つまり、文書本文すべてをキーワードとして登録しているのと同じ。
  • 全文検索の種類
    • 逐次検索(=grep検索)
      • 文章の先頭から順番に照合していく方法。
    • インデックス検索
      1. あらかじめ対象文章を解析して索引を作成しておき、
      2. 索引情報の中に指定された語句があるかを照合していく方法。
  • インデックス検索の構造
    1. データ収集部
      • データを集めてくるプログラム(クローラ)の部分。
    2. 文書フィルタ部
    3. インデクサ部
      • 索引を作成する部分。
    4. 検索サーバ部
      • 索引情報の中に指定された語句があるかを照合していく部分。
    5. フロントエンド部

体系的に学ぶ検索エンジンのしくみ

体系的に学ぶ検索エンジンのしくみ