idfの情報理論的な解釈とは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

idfの情報理論的な解釈

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2021/09/13 15:08 UTC 版)

「Okapi BM25」の記事における「idfの情報理論的な解釈」の解説

クエリの単語 q {\displaystyle q} が n ( q ) {\displaystyle n(q)} 個の文書に出現したとき、無作為に選択した文書 D {\displaystyle D} に単語 q {\displaystyle q} が含まれる確率は n ( q ) N {\displaystyle {\frac {n(q)}{N}}} である（ N {\displaystyle N} は全文書数）。したがって、「 D {\displaystyle D} が q {\displaystyle q} を含む」という事象の情報量は、 − log ⁡ n ( q ) N = log ⁡ N n ( q ) . {\displaystyle -\log {\frac {n(q)}{N}}=\log {\frac {N}{n(q)}}.} である。このとき、2つのクエリの単語 q 1 {\displaystyle q_{1}} , q 2 {\displaystyle q_{2}} が与えられたとする。2つの単語が完全に独立して文書内に存在するとき、無作為に選択した文書 D {\displaystyle D} に2つの単語が出現する確率は、 n ( q 1 ) N ⋅ n ( q 2 ) N , {\displaystyle {\frac {n(q_{1})}{N}}\cdot {\frac {n(q_{2})}{N}},} となる。したがって、このときの情報量は、 ∑ i = 1 2 log ⁡ N n ( q i ) . {\displaystyle \sum _{i=1}^{2}\log {\frac {N}{n(q_{i})}}.} となり、BM25のidf値の定義式と似た式が現れる。

※この「idfの情報理論的な解釈」の解説は、「Okapi BM25」の解説の一部です。
「idfの情報理論的な解釈」を含む「Okapi BM25」の記事については、「Okapi BM25」の概要を参照ください。

ウィキペディア小見出し辞書の「idfの情報理論的な解釈」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのOkapi BM25 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。