Term frequency (単語頻度)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
「tf-idf」の記事における「Term frequency (単語頻度)」の解説
英語文書の集合を扱っていると仮定し、それらを"the brown cow"というクエリにより関連する順に並べたいとする。問題に取り掛かる上で、シンプルな方法は、"the"、"brown"、"cow"の3つの単語のすべてを含まない文書を除くことであるが、これではたくさん文書がまだ残ってしまう。さらにそれらを区別するために、もしかすると各文書で各単語が何度出現しているかを数えるかもしれない。ある文書内にある単語が何回出現したかという数をその単語のterm frequencyと呼ぶ。しかし、文書の長さにばらつきがある場合、調整が必要となることが多い(詳細は定義を参照)。最初の語の重み付け手法はHans Peter Luhn(英語版)(1957)により、その内容は以下のようにまとめられうる。 .mw-parser-output .templatequote{overflow:hidden;margin:1em 0;padding:0 40px}.mw-parser-output .templatequote .templatequotecite{line-height:1.5em;text-align:left;padding-left:1.6em;margin-top:0}文書内の単語の重みは、その出現頻度に単純に比例する。
※この「Term frequency (単語頻度)」の解説は、「tf-idf」の解説の一部です。
「Term frequency (単語頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。
Term frequency (単語頻度)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
「tf-idf」の記事における「Term frequency (単語頻度)」の解説
term frequency (tf) は文書dの中での、語tの相対度数である。 t f ( t , d ) = f t , d ∑ t ′ ∈ d f t ′ , d {\displaystyle \mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}} , ft,dは文書に含まれるその語の出現頻度(raw count)である。すなわち、語tが文書dに何回出現したかを意味する。単純には、分母には文書dに含まれる単語数を用いる(この場合、同じ単語が複数出現しても区別して数える)。tf(t,d)の定義は他にも様々なものがある:128。 ブール代数に基づく「頻度」(binary): tがdに存在すれば、 tf(t,d) = 1、 それ以外の場合はtf(t,d) = 0; 出現頻度をそのまま用いる(raw count): tf(t,d) = ft,d; 文書の長さを調整するもの(term frequency, 上式と同じ): tf(t,d) = ft,d ÷ (dに含まれる単語数); 対数スケールの頻度(log normalization): tf(t,d) = log (1 + ft,d); 長い文書に偏ることを防ぐために、拡張された頻度。例えば、ある語の出現回数が、文書内で最も出現頻度が高い語の出現回数で除算されるようにされているものなど。 t f ( t , d ) = 0.5 + 0.5 ⋅ f t , d max { f t ′ , d : t ′ ∈ d } {\displaystyle \mathrm {tf} (t,d)=0.5+0.5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\}}}} (double normalization 0.5)
※この「Term frequency (単語頻度)」の解説は、「tf-idf」の解説の一部です。
「Term frequency (単語頻度)」を含む「tf-idf」の記事については、「tf-idf」の概要を参照ください。
- Term frequencyのページへのリンク