Okapi BM25 Okapi BM25の概要

Okapi BM25

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/10/13 02:17 UTC 版)

ロンドン大学シティ校が1980年代から1990年代にかけて開発したオカピ情報検索システム (Okapi information retrieval system) に最初に実装されたため、 "Okapi BM25" と呼ばれるが、単に、この手法自体の名称であるBM25とも呼ばれる。

順位付け手法

BM25は、bag-of-wordsを拡張した手法であり、文書内のクエリの単語同士の相互関係ではなく、文書におけるクエリの単語の出現頻度に基づいて、文書集合を順位付けする。

単語を含むクエリQが与えられたとき、文書DのBM25スコアは、

と定義される。このとき、を文書Dにおける単語の出現頻度、を文書Dの単語数、avgdlを文書集合の平均単語数とする。およびbは任意のパラメータであり、とされることが多い[1]。また、単語のidf値は、

と定義される。このとき、Nを全文書数、を含む文書数とする。また、には複数の定義があり、上記の定義式はその1つである。BM25では二項独立モデルに基づいて導出された。

ただし、上記の定義式では、半分以上の文書集合に出現する単語のidf値が負になるため、ほぼ同一の2つの文書について、半分以上の文書集合に出現する単語を含む文書と含まない文書とでは、後者のBM25スコアが大きくなってしまうことがある。そのため、実用上は、

  • idf値の最小値を0とし、一般的な用語を完全に無視する
  • idf値の最小値を定数とし、一般的な用語を完全に無視することを避けつつ、影響を減らす
  • idfが必ず正となる定義式に変える

といった処理がなされる。

idfの情報理論的な解釈

クエリの単語個の文書に出現したとき、無作為に選択した文書に単語が含まれる確率はである(は全文書数)。したがって、「を含む」という事象の情報量は、

である。このとき、2つのクエリの単語, が与えられたとする。2つの単語が完全に独立して文書内に存在するとき、無作為に選択した文書に2つの単語が出現する確率は、

となる。したがって、このときの情報量は、

となり、BM25のidf値の定義式と似た式が現れる。


  1. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.
  2. ^ http://xapian.org/docs/bm25.html
  3. ^ Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004.
  4. ^ Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". 3 (4). Found. Trends Inf. Retr.: 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019 {{cite journal}}: Cite journalテンプレートでは|journal=引数は必須です。 (説明)
  5. ^ Yuanhua Lv and ChengXiang Zhai. Lower-bounding term frequency normalization. In Proceedings of CIKM'2011, pages 7-16.


「Okapi BM25」の続きの解説一覧



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Okapi BM25」の関連用語

Okapi BM25のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Okapi BM25のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのOkapi BM25 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS