idfの正当化
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
idfは1972年のKaren Spärck Jones(英語版)の論文によって「単語の特異性」として導入された。idfはヒューリスティクスでうまくいくとされてきたにもかかわらず、その論理的な基礎は少なくとも30年以上悩みの種となっており、多くの研究者が情報理論的な正当化を試み続けている。 Spärck Jonesは自身の説明の中で、ジップの法則を別にして、十分な理論を提供していない。与えられた文書dが語tを含む確率を、相対文書頻度として推定することによって、idfを確率論的基盤に置こうとする試みが行われてきている。 P ( t | D ) = | { d ∈ D : t ∈ d } | N , {\displaystyle P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},} idfを次のように定義すると、 i d f = − log P ( t | D ) = log 1 P ( t | D ) = log N | { d ∈ D : t ∈ d } | {\displaystyle {\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}} つまり、逆文書頻度は対数を取った「逆」相対文書頻度となる。 また、この確率論的解釈は自己情報量と同じ形を取る。しかし、そのような情報理論的概念を情報検索の問題に応用すると、必要な確率分布に適切な確率空間を定義する際、文書だけでなく、クエリや単語を考慮する必要があるため、問題が生ずる。
※この「idfの正当化」の解説は、「tf-idf」の解説の一部です。
「idfの正当化」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。
- idfの正当化のページへのリンク