インデックス作成原理とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > インデックス作成原理の意味・解説 

インデックス作成原理

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2015/10/01 23:25 UTC 版)

シグネチャ法」の記事における「インデックス作成原理」の解説

文書単語単位分割する単語からハッシュ値を得、それに対応するビット反転させた固定長ビット列を作成する文書含まれる全ての単語からビット列を得、その論理和文書の「シグネチャ」とする。 全ての文書シグネチャ1つファイルまとめて出力する(シグネチャ・ファイル)。 特徴的なのは、ある単語出現特定のビットが0であるか1であるかによって表すところである。これにより高速インデックス作成が可能となる一方すべての単語出現有無512~1024bit 程度ビット列に配置しなければならないため、複数単語同一ハッシュを持つという「ハッシュ衝突」が避けられない。これにより、異な単語同一ビット位置を持つこととなるため、多数誤検出発生してしまう。そのため、シグネチャ法ではシグネチャによって検索候補として選び出されファイル群をgrep検索することにより、最終的に目的単語を含む文書選び出す手法とっている。 その構造からわかるとおり、シグネチャ法はあまり大規模な検索システム利用されることはない。

※この「インデックス作成原理」の解説は、「シグネチャ法」の解説の一部です。
「インデックス作成原理」を含む「シグネチャ法」の記事については、「シグネチャ法」の概要を参照ください。

ウィキペディア小見出し辞書の「インデックス作成原理」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「インデックス作成原理」の関連用語

インデックス作成原理のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



インデックス作成原理のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのシグネチャ法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS