tf–idfの例とは? わかりやすく解説

tf–idfの例

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「tf–idfの例」の解説

2つ文書からのみ構成されるコーパス単語カウント表(右に示す)を扱うと仮定する文書2語語カウントthis 1 is 1 another 2 example 3 文書1語語カウントthis 1 is 1 a 2 sample 1 語"this"のtf-idfは以下のように計算される出現頻度そのままtfとして用い場合tfそれぞれの文書の"this"の頻度同じになる標準的な文書長を調整するtfでは、各文書において単語"this"は1度現れるが、文書2はより多く単語を含むため、相対頻度小さくなるt f ( ″ t h i s ″ , d 1 ) = 1 5 = 0.2 {\displaystyle \mathrm {tf} ({\mathsf {''this''}},d_{1})={\frac {1}{5}}=0.2} t f ( ″ t h i s ″ , d 2 ) = 1 7 ≈ 0.14 {\displaystyle \mathrm {tf} ({\mathsf {''this''}},d_{2})={\frac {1}{7}}\approx 0.14} idfコーパス毎の定数であり、"this"という単語を含む文書比率から成り立っている。この事例では、2つ文書からなるコーパス扱い、それらはすべて"this"という語を含んでいる。 i d f ( ″ t h i s ″ , D ) = log ⁡ ( 2 2 ) = 0 {\displaystyle \mathrm {idf} ({\mathsf {''this''}},D)=\log \left({\frac {2}{2}}\right)=0} つまり、"this"という語のtf-idfゼロである。これはこの単語すべての文書現れることから、その単語有益でないでないこと示唆している。 t f i d f ( ″ t h i s ″ , d 1 , D ) = 0.2 × 0 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''this''}},d_{1},D)=0.2\times 0=0} t f i d f ( ″ t h i s ″ , d 2 , D ) = 0.14 × 0 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''this''}},d_{2},D)=0.14\times 0=0} "example"という語はより興味深く――3度現れるが、文書2にしか現れない。 t f ( ″ e x a m p l e ″ , d 1 ) = 0 5 = 0 {\displaystyle \mathrm {tf} ({\mathsf {''example''}},d_{1})={\frac {0}{5}}=0} t f ( ″ e x a m p l e ″ , d 2 ) = 3 7 ≈ 0.429 {\displaystyle \mathrm {tf} ({\mathsf {''example''}},d_{2})={\frac {3}{7}}\approx 0.429} i d f ( ″ e x a m p l e ″ , D ) = log ⁡ ( 2 1 ) = 0.301 {\displaystyle \mathrm {idf} ({\mathsf {''example''}},D)=\log \left({\frac {2}{1}}\right)=0.301} 最終的には, t f i d f ( ″ e x a m p l e ″ , d 1 , D ) = t f ( ″ e x a m p l e ″ , d 1 ) × i d f ( ″ e x a m p l e ″ , D ) = 0 × 0.301 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''example''}},d_{1},D)=\mathrm {tf} ({\mathsf {''example''}},d_{1})\times \mathrm {idf} ({\mathsf {''example''}},D)=0\times 0.301=0} t f i d f ( ″ e x a m p l e ″ , d 2 , D ) = t f ( ″ e x a m p l e ″ , d 2 ) × i d f ( ″ e x a m p l e ″ , D ) = 0.429 × 0.301 ≈ 0.129 {\displaystyle \mathrm {tfidf} ({\mathsf {''example''}},d_{2},D)=\mathrm {tf} ({\mathsf {''example''}},d_{2})\times \mathrm {idf} ({\mathsf {''example''}},D)=0.429\times 0.301\approx 0.129} (対数常用対数用いている。)

※この「tf–idfの例」の解説は、「tf-idf」の解説の一部です。
「tf–idfの例」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。

ウィキペディア小見出し辞書の「tf–idfの例」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  tf–idfの例のページへのリンク

辞書ショートカット

すべての辞書の索引

「tf–idfの例」の関連用語

1
10% |||||

tf–idfの例のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



tf–idfの例のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS