idfの情報理論的な解釈
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/09/13 15:08 UTC 版)
「Okapi BM25」の記事における「idfの情報理論的な解釈」の解説
クエリの単語 q {\displaystyle q} が n ( q ) {\displaystyle n(q)} 個の文書に出現したとき、無作為に選択した文書 D {\displaystyle D} に単語 q {\displaystyle q} が含まれる確率は n ( q ) N {\displaystyle {\frac {n(q)}{N}}} である( N {\displaystyle N} は全文書数)。したがって、「 D {\displaystyle D} が q {\displaystyle q} を含む」という事象の情報量は、 − log n ( q ) N = log N n ( q ) . {\displaystyle -\log {\frac {n(q)}{N}}=\log {\frac {N}{n(q)}}.} である。このとき、2つのクエリの単語 q 1 {\displaystyle q_{1}} , q 2 {\displaystyle q_{2}} が与えられたとする。2つの単語が完全に独立して文書内に存在するとき、無作為に選択した文書 D {\displaystyle D} に2つの単語が出現する確率は、 n ( q 1 ) N ⋅ n ( q 2 ) N , {\displaystyle {\frac {n(q_{1})}{N}}\cdot {\frac {n(q_{2})}{N}},} となる。したがって、このときの情報量は、 ∑ i = 1 2 log N n ( q i ) . {\displaystyle \sum _{i=1}^{2}\log {\frac {N}{n(q_{i})}}.} となり、BM25のidf値の定義式と似た式が現れる。
※この「idfの情報理論的な解釈」の解説は、「Okapi BM25」の解説の一部です。
「idfの情報理論的な解釈」を含む「Okapi BM25」の記事については、「Okapi BM25」の概要を参照ください。
- idfの情報理論的な解釈のページへのリンク