Okapi BM25
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/10/13 02:17 UTC 版)
ロンドン大学シティ校が1980年代から1990年代にかけて開発したオカピ情報検索システム (Okapi information retrieval system) に最初に実装されたため、 "Okapi BM25" と呼ばれるが、単に、この手法自体の名称であるBM25とも呼ばれる。
順位付け手法
BM25は、bag-of-wordsを拡張した手法であり、文書内のクエリの単語同士の相互関係ではなく、文書におけるクエリの単語の出現頻度に基づいて、文書集合を順位付けする。
単語を含むクエリQが与えられたとき、文書DのBM25スコアは、
と定義される。このとき、を文書Dにおける単語の出現頻度、を文書Dの単語数、avgdlを文書集合の平均単語数とする。およびbは任意のパラメータであり、、とされることが多い[1]。また、単語のidf値は、
と定義される。このとき、Nを全文書数、をを含む文書数とする。また、には複数の定義があり、上記の定義式はその1つである。BM25では二項独立モデルに基づいて導出された。
ただし、上記の定義式では、半分以上の文書集合に出現する単語のidf値が負になるため、ほぼ同一の2つの文書について、半分以上の文書集合に出現する単語を含む文書と含まない文書とでは、後者のBM25スコアが大きくなってしまうことがある。そのため、実用上は、
- idf値の最小値を0とし、一般的な用語を完全に無視する
- idf値の最小値を定数とし、一般的な用語を完全に無視することを避けつつ、影響を減らす
- idfが必ず正となる定義式に変える
といった処理がなされる。
idfの情報理論的な解釈
クエリの単語が個の文書に出現したとき、無作為に選択した文書に単語が含まれる確率はである(は全文書数)。したがって、「がを含む」という事象の情報量は、
である。このとき、2つのクエリの単語, が与えられたとする。2つの単語が完全に独立して文書内に存在するとき、無作為に選択した文書に2つの単語が出現する確率は、
となる。したがって、このときの情報量は、
となり、BM25のidf値の定義式と似た式が現れる。
- ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.
- ^ http://xapian.org/docs/bm25.html
- ^ Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004.
- ^ Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". 3 (4). Found. Trends Inf. Retr.: 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019。
{{cite journal}}
: Cite journalテンプレートでは|journal=
引数は必須です。 (説明) - ^ Yuanhua Lv and ChengXiang Zhai. Lower-bounding term frequency normalization. In Proceedings of CIKM'2011, pages 7-16.
- 1 Okapi BM25とは
- 2 Okapi BM25の概要
- 3 BM25の改変版
- 4 参考文献
- 5 関連項目
- Okapi BM25のページへのリンク