インデックス作成原理
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2015/10/01 23:25 UTC 版)
「シグネチャ法」の記事における「インデックス作成原理」の解説
文書を単語単位に分割する。 単語からハッシュ値を得、それに対応するビットを反転させた固定長のビット列を作成する。 文書に含まれる全ての単語からビット列を得、その論理和を文書の「シグネチャ」とする。 全ての文書のシグネチャを1つのファイルにまとめて出力する(シグネチャ・ファイル)。 特徴的なのは、ある単語の出現を特定のビットが0であるか1であるかによって表すところである。これにより高速なインデックスの作成が可能となる一方、すべての単語の出現有無を512~1024bit 程度のビット列に配置しなければならないため、複数の単語が同一ハッシュを持つという「ハッシュの衝突」が避けられない。これにより、異なる単語が同一のビット位置を持つこととなるため、多数の誤検出が発生してしまう。そのため、シグネチャ法ではシグネチャによって検索候補として選び出されたファイル群をgrep検索することにより、最終的に目的の単語を含む文書を選び出す手法をとっている。 その構造からわかるとおり、シグネチャ法はあまり大規模な検索システムに利用されることはない。
※この「インデックス作成原理」の解説は、「シグネチャ法」の解説の一部です。
「インデックス作成原理」を含む「シグネチャ法」の記事については、「シグネチャ法」の概要を参照ください。
- インデックス作成原理のページへのリンク