idfの正当化とは? わかりやすく解説

idfの正当化

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「idfの正当化」の解説

idf1972年Karen Spärck Jones英語版)の論文によって「単語特異性」として導入された。idfヒューリスティクスうまくいくとされてきたにもかかわらず、その論理的な基礎少なくとも30年以上悩みの種となっており、多く研究者情報理論的な正当化試み続けている。 Spärck Jones自身説明の中で、ジップの法則別にして、十分な理論提供していない。与えられ文書dが語tを含む確率を、相対文書頻度として推定することによって、idf確率論的基盤置こうとする試みが行われてきている。 P ( t | D ) = | { d ∈ D : t ∈ d } | N , {\displaystyle P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},} idf次のように定義すると、 i d f = − log ⁡ P ( t | D ) = log1 P ( t | D ) = log ⁡ N | { d ∈ D : t ∈ d } | {\displaystyle {\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}} つまり、逆文書頻度対数取った「逆」相対文書頻度となる。 また、この確率論的解釈自己情報量と同じ形を取る。しかし、そのような情報理論概念情報検索問題応用すると、必要な確率分布適切な確率空間定義する際、文書だけでなく、クエリ単語考慮する必要があるため、問題生ずる。

※この「idfの正当化」の解説は、「tf-idf」の解説の一部です。
「idfの正当化」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。

ウィキペディア小見出し辞書の「idfの正当化」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「idfの正当化」の関連用語

1
8% |||||

idfの正当化のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



idfの正当化のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS