転置インデックスの有用性とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > 転置インデックスの有用性の意味・解説 

転置インデックスの有用性

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/03/16 14:31 UTC 版)

転置インデックス」の記事における「転置インデックスの有用性」の解説

検索エンジン設計するとき、転置インデックス必要性考えエンジンアルゴリズム、その動作ステップ考慮することは重要なことである。たとえば、コーパス使った手法索引ファイル作成することを考えてみる。アルゴリズムの手始めは、最初文書チェックして単語ごとに分割することである。処理の最後に文書中に現れる全ての単語の一覧とその出現位置リストアップする。むろん、同じ単語複数回にわたって出現する。したがって出現位置情報1つだけとは限らなくなる。位置情報とは単語文書中のどこに位置しているかであり、単語出現先立って現れ文字数カウントすることだといえよう。たとえば、ある文書最初に現れ単語は、文書中の最初文字含んでおり、すなわち位置情報「0」であるといえる2番目の単語は5文字目に出現するとする。したがって位置情報も「5」となる。 表形式にすると、次のようなものになるだろう。 単語ID単語位置情報1 dog 1,20,500,etc 2 cat 10,45,3445,etc 1つ文書だけでなく、コーパス用いているので、各文書現れる全ての単語格納するのに、より大きなリストが必要となってくる。ここが検索エンジン設計者見解異なるところであり、すべての検索エンジンが同じ設計になっていない理由1つである。 一般的な見解としては、各文書連続してアクセスする際に、その都度直接単語一覧を作成して格納していくことが手っ取り早い方法だろう。文書ごとに単語リスト格納していくと出来上がるのは我々がよく知るところの、いわゆる索引」になる。この時点では文書あたりの単語リストであり、単語あたりの文書リストではないので転置索引逆引き索引ではなく正引き索引といえるだろう。以下がその例である。(検索エンジンによっては大きく構造異な場合もある) 文書ID含まれる単語ID位置1 (1 at 1,20,500) (2 at 10,45,3445) 2 (1 at 3, 50, 60) (2 at 100, 120, 130,..) 3 etc 転置インデックス基本的な概念テーブルに対して単語Xはどの文書にあるか」といったクエリ応答速度最適化するということである。 上記テーブル対すクエリだと、一覧中の各項目を逐一チェックして、各項目について単語存在するかどうか確認しなければならないアルゴリズムとなる。転置インデックスとは文書ごとに単語探すではなく単語ごとにそれを含む文書を一覧抽出するために、上記テーブル行列を「転置」させたものである。 同じ例で、転置インデックス次のうになるだろう。 単語ID該当文書ID1 1,3,4,5 2 2,3,4 3 etc こうすることで、単語を含む文書見付けるために、アルゴリズム転置インデックス単語IDジャンプし文書一覧見付けてくることが出来る。これによって検索応答時間大幅な短縮なされることとなる。

※この「転置インデックスの有用性」の解説は、「転置インデックス」の解説の一部です。
「転置インデックスの有用性」を含む「転置インデックス」の記事については、「転置インデックス」の概要を参照ください。

ウィキペディア小見出し辞書の「転置インデックスの有用性」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「転置インデックスの有用性」の関連用語

転置インデックスの有用性のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



転置インデックスの有用性のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの転置インデックス (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS