Okapi BM25 Okapi BM25の概要

ロンドン大学シティ校が1980年代から1990年代にかけて開発したオカピ情報検索システム (Okapi information retrieval system) に最初に実装されたため、 "Okapi BM25" と呼ばれるが、単に、この手法自体の名称であるBM25とも呼ばれる。

順位付け手法

BM25は、bag-of-wordsを拡張した手法であり、文書内のクエリの単語同士の相互関係ではなく、文書におけるクエリの単語の出現頻度に基づいて、文書集合を順位付けする。

単語 $q_{1},...,q_{n}$ を含むクエリ $Q$ が与えられたとき、文書 $D$ のBM25スコアは、

{\text{score}}(D,Q)=\sum _{i=1}^{n}{\text{IDF}}(q_{i})\cdot {\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\text{avgdl}}}\right)}},

と定義される。このとき、 $f(q_{i},D)$ を文書 $D$ における単語の出現頻度、 $|D|$ を文書 $D$ の単語数、 $avgdl$ を文書集合の平均単語数とする。 $k_{1}$ および $b$ は任意のパラメータであり、 $k_{1}\in [1.2,2.0]$ 、 $b=0.75$ とされることが多い^[1]。また、単語 $q_{i}$ のidf値は、

{\text{IDF}}(q_{i})=\log {\frac {N-n(q_{i})+0.5}{n(q_{i})+0.5}},

と定義される。このとき、 $N$ を全文書数、 $n(q_{i})$ を $q_{i}$ を含む文書数とする。また、 ${\text{IDF}}(q_{i})$ には複数の定義があり、上記の定義式はその1つである。BM25では二項独立モデルに基づいて導出された。

ただし、上記の定義式では、半分以上の文書集合に出現する単語のidf値が負になるため、ほぼ同一の2つの文書について、半分以上の文書集合に出現する単語を含む文書と含まない文書とでは、後者のBM25スコアが大きくなってしまうことがある。そのため、実用上は、

idf値の最小値を0とし、一般的な用語を完全に無視する
idf値の最小値を定数 $\epsilon$ とし、一般的な用語を完全に無視することを避けつつ、影響を減らす
idfが必ず正となる定義式に変える

といった処理がなされる。

idfの情報理論的な解釈

クエリの単語 $q$ が $n(q)$ 個の文書に出現したとき、無作為に選択した文書 $D$ に単語 $q$ が含まれる確率は ${\frac {n(q)}{N}}$ である（ $N$ は全文書数）。したがって、「 $D$ が $q$ を含む」という事象の情報量は、

-\log {\frac {n(q)}{N}}=\log {\frac {N}{n(q)}}.

である。このとき、2つのクエリの単語 $q_{1}$ , $q_{2}$ が与えられたとする。2つの単語が完全に独立して文書内に存在するとき、無作為に選択した文書 $D$ に2つの単語が出現する確率は、

{\frac {n(q_{1})}{N}}\cdot {\frac {n(q_{2})}{N}},

となる。したがって、このときの情報量は、

\sum _{i=1}^{2}\log {\frac {N}{n(q_{i})}}.

となり、BM25のidf値の定義式と似た式が現れる。

出典

^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.
^ http://xapian.org/docs/bm25.html
^ Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004.
^ Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". 3 (4). Found. Trends Inf. Retr.: 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019。 {{cite journal}}: Cite journalテンプレートでは|journal=引数は必須です。 (説明)
^ Yuanhua Lv and ChengXiang Zhai. Lower-bounding term frequency normalization. In Proceedings of CIKM'2011, pages 7-16.

[前の解説]

[続きの解説]

「Okapi BM25」の続きの解説一覧

[1] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.

[2] ttp://xapian.org/docs/bm25.html

[3] Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004.

[robertson2009-4] Stephen Robertson & Hugo Zaragoza (2009). "The Probabilistic Relevance Framework: BM25 and Beyond". 3 (4). Found. Trends Inf. Retr.: 333–389. CiteSeerX 10.1.1.156.5282. doi:10.1561/1500000019。 {{cite journal}}: Cite journalテンプレートでは|journal=引数は必須です。 (説明)

[5] Yuanhua Lv and ChengXiang Zhai. Lower-bounding term frequency normalization. In Proceedings of CIKM'2011, pages 7-16.

[1]

Okapi BM25 Okapi BM25の概要

Okapi BM25

順位付け手法

idfの情報理論的な解釈

急上昇のことば

「Okapi BM25」の関連用語