Term frequencyとは? わかりやすく解説

Term frequency (単語頻度)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「Term frequency (単語頻度)」の解説

英語文書集合扱っていると仮定し、それらを"the brown cow"というクエリにより関連する順に並べたいとする問題取り掛かる上でシンプルな方法は、"the"、"brown"、"cow"の3つの単語のすべてを含まない文書を除くことであるが、これではたくさん文書がまだ残ってしまう。さらにそれらを区別するために、もしかすると各文書で各単語何度出現しているかを数えるかもしれない。ある文書内にある単語何回出現したかという数をその単語のterm frequencyと呼ぶ。しかし、文書長さばらつきがある場合調整が必要となることが多い(詳細は定義を参照)。最初の語の重み付け手法Hans Peter Luhn(英語版)(1957)により、その内容は以下のようにまとめられうる。 .mw-parser-output .templatequote{overflow:hidden;margin:1em 0;padding:0 40px}.mw-parser-output .templatequote .templatequotecite{line-height:1.5em;text-align:left;padding-left:1.6em;margin-top:0}文書内の単語重みは、その出現頻度単純に比例する

※この「Term frequency (単語頻度)」の解説は、「tf-idf」の解説の一部です。
「Term frequency (単語頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。


Term frequency (単語頻度)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

tf-idf」の記事における「Term frequency (単語頻度)」の解説

term frequency (tf) は文書dの中での、語tの相対度数である。 t f ( t , d ) = f t , d ∑ t ′ ∈ d f t ′ , d {\displaystyle \mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}} , ft,dは文書含まれるその語の出現頻度(raw count)である。すなわち、語tが文書dに何回出現したかを意味する単純には、分母には文書dに含まれる単語数を用いる(この場合、同じ単語複数出現しても区別して数える)。tf(t,d)の定義は他にも様々なものがある:128ブール代数に基づく「頻度」(binary): tがdに存在すれば、 tf(t,d) = 1、 それ以外場合tf(t,d) = 0; 出現頻度そのまま用いる(raw count): tf(t,d) = ft,d; 文書長さ調整するもの(term frequency, 上式と同じ): tf(t,d) = ft,d ÷ (dに含まれる単語数); 対数スケール頻度(log normalization): tf(t,d) = log (1 + ft,d); 長い文書偏ることを防ぐために、拡張され頻度例えば、ある語の出現回数が、文書内で最も出現頻度が高い語の出現回数除算されるようにされているものなど。 t f ( t , d ) = 0.5 + 0.5f t , d max { f t ′ , d : t ′ ∈ d } {\displaystyle \mathrm {tf} (t,d)=0.5+0.5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\}}}} (double normalization 0.5)

※この「Term frequency (単語頻度)」の解説は、「tf-idf」の解説の一部です。
「Term frequency (単語頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。

ウィキペディア小見出し辞書の「Term frequency」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Term frequency」の関連用語

Term frequencyのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Term frequencyのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS