Inverse document frequencyとは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

Inverse document frequency (逆文書頻度)

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/03/28 23:00 UTC 版)

「tf-idf」の記事における「Inverse document frequency (逆文書頻度)」の解説

"the"という語が非常に普遍であるために、より意味のある単語である"brown"や"cow"に十分な重みを与えず、term frequencyは、"the"という語をより高頻度に含む文書を誤って強調してしまう傾向がある。"the"という語は、普遍的ではない"brown"や"cow"という語とは異なり、文書や単語がクエリに関連している・関連していないと区別するためのキーワードとしてよいものではない。それゆえに、文書集合において非常に出現頻度の高い語の重みを減らし、珍しい語の重みを増加させるため、inverse document frequencyが用いられている。 Karen Spärck Jones（英語版）(1972) はInverse Document Frequency (idf) と呼ばれる単語の特異性の統計的解釈を考案し、その考えは単語の重み付けの基礎概念となっている。単語の特異性は、その単語が出現した文書数の逆関数によって定量化できる。

※この「Inverse document frequency (逆文書頻度)」の解説は、「tf-idf」の解説の一部です。
「Inverse document frequency (逆文書頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。

Inverse document frequency (逆文書頻度)

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/03/28 23:00 UTC 版)

「tf-idf」の記事における「Inverse document frequency (逆文書頻度)」の解説

inverse document frequency (idf) 重みの計算手法重み付け手法 idf 重み ( n t = | { d ∈ D : t ∈ d } | {\displaystyle n_{t}=|\{d\in D:t\in d\}|} )idfを使用しない 1 inverse document frequency(標準的な idf) log ⁡ N n t = − log ⁡ n t N {\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}} inverse document frequency smooth(+1をしてスムージングを行うidf) log ⁡ ( N 1 + n t ) + 1 {\displaystyle \log \left({\frac {N}{1+n_{t}}}\right)+1} inverse document frequency max(最大値を取るidf) log ⁡ ( max { t ′ ∈ d } n t ′ 1 + n t ) {\displaystyle \log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)} probabilistic inverse document frequency(確率論的 idf) log ⁡ N − n t n t {\displaystyle \log {\frac {N-n_{t}}{n_{t}}}} inverse document frequency (idf) はその単語がどのくらい情報を提供するのかという指標である。すなわち、ある単語が、すべての文書の中で普遍的なのか珍しいのかということである。idfは、その単語の文書頻度の逆数を対数スケールにしたものである。（文書の総数をその単語を含む文書の数で除算し、その商の対数を取ったものとして得られる。） i d f ( t , D ) = log ⁡ N | { d ∈ D : t ∈ d } | {\displaystyle \mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}} この時、 N {\displaystyle N} : コーパスに含まれる文書の総数 N = | D | {\displaystyle N={|D|}} | { d ∈ D : t ∈ d } | {\displaystyle |\{d\in D:t\in d\}|} : 単語 t {\displaystyle t} が出現する文書の数（すなわち、 t f ( t , d ) ≠ 0 {\displaystyle \mathrm {tf} (t,d)\neq 0} でなくてはならない）。もしその語がコーパスに存在しない場合、これはゼロ除算を招く。それゆえに、分母を 1 + | { d ∈ D : t ∈ d } | {\displaystyle 1+|\{d\in D:t\in d\}|} と調整するのが一般的である。

ウィキペディア小見出し辞書の「Inverse document frequency」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

>> 「Inverse document frequency」を含む用語の索引
Inverse document frequencyのページへのリンク

Inverse document frequencyとは？わかりやすく解説

Inverse document frequency (逆文書頻度)

Inverse document frequency (逆文書頻度)

英和和英テキスト翻訳

「Inverse document frequency」の関連用語


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

Inverse document frequencyとは？ わかりやすく解説

Inverse document frequency (逆文書頻度)

Inverse document frequency (逆文書頻度)

急上昇のことば

英和和英テキスト翻訳

「Inverse document frequency」の関連用語

Inverse document frequencyとは？わかりやすく解説