Inverse document frequency (逆文書頻度)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
「tf-idf」の記事における「Inverse document frequency (逆文書頻度)」の解説
"the"という語が非常に普遍であるために、より意味のある単語である"brown"や"cow"に十分な重みを与えず、term frequencyは、"the"という語をより高頻度に含む文書を誤って強調してしまう傾向がある。"the"という語は、普遍的ではない"brown"や"cow"という語とは異なり、文書や単語がクエリに関連している・関連していないと区別するためのキーワードとしてよいものではない。それゆえに、文書集合において非常に出現頻度の高い語の重みを減らし、珍しい語の重みを増加させるため、inverse document frequencyが用いられている。 Karen Spärck Jones(英語版)(1972) はInverse Document Frequency (idf) と呼ばれる単語の特異性の統計的解釈を考案し、その考えは単語の重み付けの基礎概念となっている。 単語の特異性は、その単語が出現した文書数の逆関数によって定量化できる。
※この「Inverse document frequency (逆文書頻度)」の解説は、「tf-idf」の解説の一部です。
「Inverse document frequency (逆文書頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。
Inverse document frequency (逆文書頻度)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
「tf-idf」の記事における「Inverse document frequency (逆文書頻度)」の解説
inverse document frequency (idf) 重みの計算手法重み付け手法idf 重み ( n t = | { d ∈ D : t ∈ d } | {\displaystyle n_{t}=|\{d\in D:t\in d\}|} )idfを使用しない 1 inverse document frequency(標準的なidf) log N n t = − log n t N {\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}} inverse document frequency smooth(+1をしてスムージングを行うidf) log ( N 1 + n t ) + 1 {\displaystyle \log \left({\frac {N}{1+n_{t}}}\right)+1} inverse document frequency max(最大値を取るidf) log ( max { t ′ ∈ d } n t ′ 1 + n t ) {\displaystyle \log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)} probabilistic inverse document frequency(確率論的idf) log N − n t n t {\displaystyle \log {\frac {N-n_{t}}{n_{t}}}} inverse document frequency (idf) はその単語がどのくらい情報を提供するのかという指標である。すなわち、ある単語が、すべての文書の中で普遍的なのか珍しいのかということである。idfは、その単語の文書頻度の逆数を対数スケールにしたものである。(文書の総数をその単語を含む文書の数で除算し、その商の対数を取ったものとして得られる。) i d f ( t , D ) = log N | { d ∈ D : t ∈ d } | {\displaystyle \mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}} この時、 N {\displaystyle N} : コーパスに含まれる文書の総数 N = | D | {\displaystyle N={|D|}} | { d ∈ D : t ∈ d } | {\displaystyle |\{d\in D:t\in d\}|} : 単語 t {\displaystyle t} が出現する文書の数 (すなわち、 t f ( t , d ) ≠ 0 {\displaystyle \mathrm {tf} (t,d)\neq 0} でなくてはならない)。 もしその語がコーパスに存在しない場合、これはゼロ除算を招く。それゆえに、分母を 1 + | { d ∈ D : t ∈ d } | {\displaystyle 1+|\{d\in D:t\in d\}|} と調整するのが一般的である。
※この「Inverse document frequency (逆文書頻度)」の解説は、「tf-idf」の解説の一部です。
「Inverse document frequency (逆文書頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。
- Inverse document frequencyのページへのリンク