tf-idf tf-idfの概要

tf-idf

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)

ナビゲーションに移動 検索に移動

tf-idfの重み付け手法を変形したものは、ユーザーのクエリ(検索ワード)から文書の適合性を得点化し、順位づけする際の中心的なツールとして、よく検索エンジンで用いられている。tf-idfは、自動要約文書分類といった様々な分野において、ストップワード英語版によるフィルタリングを行うことでうまく動作できる。

最もシンプルな順位付け関数(ranking function)英語版の一つは、クエリに含まれる語ごとのtf-idfの和を計算することで実装される。たくさんのより洗練された順位付け関数はこのシンプルなモデルの変形となっている。

動機

Term frequency (単語頻度)

英語文書の集合を扱っていると仮定し、それらを"the brown cow"というクエリにより関連する順に並べたいとする。問題に取り掛かる上で、シンプルな方法は、"the"、"brown"、"cow"の3つの単語のすべてを含まない文書を除くことであるが、これではたくさん文書がまだ残ってしまう。さらにそれらを区別するために、もしかすると各文書で各単語が何度出現しているかを数えるかもしれない。ある文書内にある単語が何回出現したかという数をその単語のterm frequencyと呼ぶ。しかし、文書の長さにばらつきがある場合、調整が必要となることが多い(詳細は定義を参照)。最初の語の重み付け手法はHans Peter Luhn英語版(1957)により、その内容は以下のようにまとめられうる[3]

文書内の単語の重みは、その出現頻度に単純に比例する。

Inverse document frequency (逆文書頻度)

"the"という語が非常に普遍であるために、より意味のある単語である"brown"や"cow"に十分な重みを与えず、term frequencyは、"the"という語をより高頻度に含む文書を誤って強調してしまう傾向がある。"the"という語は、普遍的ではない"brown"や"cow"という語とは異なり、文書や単語がクエリに関連している・関連していないと区別するためのキーワードとしてよいものではない。それゆえに、文書集合において非常に出現頻度の高い語の重みを減らし、珍しい語の重みを増加させるため、inverse document frequencyが用いられている。

Karen Spärck Jones英語版(1972) はInverse Document Frequency (idf) と呼ばれる単語の特異性の統計的解釈を考案し、その考えは単語の重み付けの基礎概念となっている[4]

単語の特異性は、その単語が出現した文書数の逆関数によって定量化できる。

定義

  1. tf-idfは2つの統計量、term frequency (tf)と、inverse document frequency (idf) の積である。双方の統計量には、厳密な値を決定するために様々な手法が存在している。
  2. 式は、文書やWebページにおけるキーワードやフレーズの重要性を定義することを目的とする。
term frequency (tf) 重みの計算手法
重み付け手法 tf 重み
binary

(2値)

異なるidf関数(標準、スムージングあり、確率論的idf)グラフのプロット

Term frequency–inverse document frequency (tf-idf)

ここで、tf-idfは次のように計算される。

tf-idfの重みが高くなるのは、(与えられた文書内で)その単語の単語頻度(term frequency, tf)が高く、かつ、文書集合全体においてその単語の文書頻度(document frequency, df)が低い場合である。それゆえに、重みは普遍的な語をフィルタする傾向がある。idfの対数内の分数は常に1以上となるため、idf(とtf-idf)の値は常に0以上になる。単語がより多くの文書に現れる場合、対数の中の分数は1に近づき、それゆえにidfとtf-idfは0に近づく。

推奨されているtf–idf重み付け手法
重み付け手法 文書における利用 クエリにおける利用
1
2
3

  1. ^ Rajaraman, A.; Ullman, J.D. (2011). “Data Mining”. Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2. http://i.stanford.edu/~ullman/mmds/ch1.pdf 
  2. ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). “Research-paper recommender systems: a literature survey” (英語). International Journal on Digital Libraries 17 (4): 305–338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012. http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312. 
  3. ^ Luhn, Hans Peter (1957). “A Statistical Approach to Mechanized Encoding and Searching of Literary Information”. IBM Journal of Research and Development 1 (4): 309–317. doi:10.1147/rd.14.0309. https://web.stanford.edu/class/linguist289/luhn57.pdf 2015年3月2日閲覧. "There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea." 
  4. ^ Spärck Jones, K. (1972). “A Statistical Interpretation of Term Specificity and Its Application in Retrieval”. Journal of Documentation 28: 11–21. doi:10.1108/eb026526. 
  5. ^ Manning, C.D.; Raghavan, P.; Schutze, H. (2008). “Scoring, term weighting, and the vector space model”. Introduction to Information Retrieval. pp. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1. http://nlp.stanford.edu/IR-book/pdf/06vect.pdf 
  6. ^ TFIDF statistics | SAX-VSM”. 2022年3月29日閲覧。
  7. ^ a b c Robertson, S. (2004). “Understanding inverse document frequency: On theoretical arguments for IDF”. Journal of Documentation 60 (5): 503–520. doi:10.1108/00220410410560582. 
  8. ^ See also Probability estimates in practice in Introduction to Information Retrieval.
  9. ^ a b Aizawa, Akiko (2003). “An information-theoretic perspective of tf–idf measures” (英語). Information Processing and Management 39 (1): 45–65. doi:10.1016/S0306-4573(02)00021-3. 
  10. ^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1998-01-01). CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications. AGENTS '98. 116–123. doi:10.1145/280765.280786. ISBN 978-0-89791-983-8. https://www.semanticscholar.org/paper/b23a5a62b7cb5278ceb5a6cc021c28a92041d792 
  11. ^ Sivic, Josef; Zisserman, Andrew (2003-01-01). Video Google: A Text Retrieval Approach to Object Matching in Videos. ICCV '03. 1470–. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0. http://dl.acm.org/citation.cfm?id=946247.946751 
  12. ^ Seki, Yohei. “Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles”. National Institute of Informatics. 2022年3月29日閲覧。
  13. ^ Beel, Joeran; Breitinger, Corinna (2017). “Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?”. Proceedings of the 12th IConference. http://beel.org/publications/2017%20iConference%20--%20Evaluating%20the%20CC-IDF%20citation-weighting%20scheme%20--%20preprint.pdf. 
  14. ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001) (英語). Emerging Topic Tracking System. 2. doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2 
  15. ^ Langer, Stefan; Gipp, Bela (2017). “TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections”. IConference. https://www.gipp.com/wp-content/papercite-data/pdf/beel17.pdf. 





英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「tf-idf」の関連用語

tf-idfのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



tf-idfのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS