Inverse document frequencyとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > Inverse document frequencyの意味・解説 

Inverse document frequency (逆文書頻度)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「Inverse document frequency (逆文書頻度)」の解説

"the"という語が非常に普遍であるために、より意味のある単語である"brown"や"cow"に十分な重み与えずterm frequencyは、"the"という語をより高頻度に含む文書誤って強調してしまう傾向がある。"the"という語は、普遍的ではない"brown"や"cow"という語とは異なり文書単語クエリ関連している・関連していないと区別するためのキーワードとしてよいものではない。それゆえに、文書集合において非常に出現頻度の高い語重み減らし、珍しい語重み増加させるため、inverse document frequencyが用いられている。 Karen Spärck Jones英語版)(1972) はInverse Document Frequency (idf) と呼ばれる単語特異性統計的解釈考案し、その考え単語重み付け基礎概念となっている。 単語特異性は、その単語出現した文書数の逆関数によって定量化できる

※この「Inverse document frequency (逆文書頻度)」の解説は、「tf-idf」の解説の一部です。
「Inverse document frequency (逆文書頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。


Inverse document frequency (逆文書頻度)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「Inverse document frequency (逆文書頻度)」の解説

inverse document frequency (idf) 重みの計算手法重み付け手法idf 重み ( n t = | { d ∈ D : t ∈ d } | {\displaystyle n_{t}=|\{d\in D:t\in d\}|} )idf使用しない 1 inverse document frequency(標準的なidf) logN n t = − logn t N {\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}} inverse document frequency smooth(+1をしてスムージングを行うidf) log ⁡ ( N 1 + n t ) + 1 {\displaystyle \log \left({\frac {N}{1+n_{t}}}\right)+1} inverse document frequency max(最大値を取るidf) log ⁡ ( max { t ′ ∈ d } n t ′ 1 + n t ) {\displaystyle \log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)} probabilistic inverse document frequency(確率論的idf) log ⁡ N − n t n t {\displaystyle \log {\frac {N-n_{t}}{n_{t}}}} inverse document frequency (idf) はその単語どのくらい情報提供するのかという指標である。すなわち、ある単語が、すべての文書の中で普遍的なのか珍しいのかということである。idfは、その単語文書頻度逆数対数スケールしたものである。(文書総数をその単語を含む文書の数で除算し、その商の対数取ったものとして得られる。) i d f ( t , D ) = log ⁡ N | { d ∈ D : t ∈ d } | {\displaystyle \mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}} この時、 N {\displaystyle N} : コーパス含まれる文書総数 N = | D | {\displaystyle N={|D|}} | { d ∈ D : t ∈ d } | {\displaystyle |\{d\in D:t\in d\}|} : 単語 t {\displaystyle t} が出現する文書の数 (すなわち、 t f ( t , d ) ≠ 0 {\displaystyle \mathrm {tf} (t,d)\neq 0} でなくてはならない)。 もしその語がコーパス存在しない場合、これはゼロ除算を招く。それゆえに、分母を 1 + | { d ∈ D : t ∈ d } | {\displaystyle 1+|\{d\in D:t\in d\}|} と調整するのが一般的である。

※この「Inverse document frequency (逆文書頻度)」の解説は、「tf-idf」の解説の一部です。
「Inverse document frequency (逆文書頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。

ウィキペディア小見出し辞書の「Inverse document frequency」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Inverse document frequency」の関連用語

Inverse document frequencyのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Inverse document frequencyのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS