term frequency–inverse document frequencyとは? わかりやすく解説

Weblio 辞書 > コンピュータ > IT用語辞典 > term frequency–inverse document frequencyの意味・解説 

tf-idf

フルスペル:term frequency–inverse document frequency
読み方てぃーえふあいでぃーえふ

tf-idfとは、情報探索テキストマイニングなどの分野利用される文書中に出現した特定の単語どのくらい特徴的であるかを識別するための指標のことである。

tf-idfの内、「tf(term frequency)」は、その文書の中で特定の単語出現した回数表し、「idf(inverse document frequency)」は、コーパス全体の中でその文書を含む文書数の自然対数表し、「tf×idf」が、その文書中におけるその単語のtf-idf値となる。

tf-idfによる重み付け利用したアルゴリズム広くtf-idf法」と呼ばれ、キーワード抽出全文検索エンジン重み付けなどに応用されるまた、ベクトル空間モデルにおいて、文書間の類似度判定する場合などにも、コサイン類似度計算する際の、単語特徴ベクトルとしてtf-idfの値が利用される

情報と社会のほかの用語一覧
情報工学:  人工生命  人工知能  Tay  tf-idf  適合率  tf-idf法  デコヒーレンス

Term frequency–inverse document frequency (tf-idf)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「Term frequency–inverse document frequency (tf-idf)」の解説

ここで、tf-idf次のように計算されるt f i d f ( t , d , D ) = t f ( t , d ) ⋅ i d f ( t , D ) {\displaystyle \mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)} tf-idf重み高くなるのは、(与えられ文書内で)その単語単語頻度(term frequency, tf)が高く、かつ、文書集全体においてその単語文書頻度(document frequency, df)が低い場合である。それゆえに、重み普遍的な語をフィルタする傾向がある。idf対数内の分数は常に1以上となるため、idf(とtf-idf)の値は常に0以上になる。単語がより多く文書現れる場合対数の中の分数は1に近づきそれゆえidftf-idfは0に近づく推奨されているtf–idf重み付け手法重み付け手法文書における利用クエリにおける利用1 f t , d ⋅ logN n t {\displaystyle f_{t,d}\cdot \log {\frac {N}{n_{t}}}} ( 0.5 + 0.5 f t , q max t f t , q ) ⋅ logN n t {\displaystyle \left(0.5+0.5{\frac {f_{t,q}}{\max _{t}f_{t,q}}}\right)\cdot \log {\frac {N}{n_{t}}}} 2 log ⁡ ( 1 + f t , d ) {\displaystyle \log(1+f_{t,d})} log ⁡ ( 1 + N n t ) {\displaystyle \log \left(1+{\frac {N}{n_{t}}}\right)} 3 ( 1 + logf t , d ) ⋅ logN n t {\displaystyle (1+\log f_{t,d})\cdot \log {\frac {N}{n_{t}}}} ( 1 + logf t , q ) ⋅ logN n t {\displaystyle (1+\log f_{t,q})\cdot \log {\frac {N}{n_{t}}}}

※この「Term frequency–inverse document frequency (tf-idf)」の解説は、「tf-idf」の解説の一部です。
「Term frequency–inverse document frequency (tf-idf)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。

ウィキペディア小見出し辞書の「term frequency–inverse document frequency」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「term frequency–inverse document frequency」の関連用語

term frequency–inverse document frequencyのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



term frequency–inverse document frequencyのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリの【tf-idf】の記事を利用しております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS