tf-idf
読み方:てぃーえふあいでぃーえふ
tf-idfとは、情報探索やテキストマイニングなどの分野で利用される、文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標のことである。
tf-idfの内、「tf(term frequency)」は、その文書の中で特定の単語が出現した回数を表し、「idf(inverse document frequency)」は、コーパス全体の中でその文書を含む文書数の自然対数を表し、「tf×idf」が、その文書中におけるその単語のtf-idf値となる。
tf-idfによる重み付けを利用したアルゴリズムは広く「tf-idf法」と呼ばれ、キーワード抽出や全文検索エンジンの重み付けなどに応用される。また、ベクトル空間モデルにおいて、文書間の類似度を判定する場合などにも、コサイン類似度を計算する際の、単語の特徴ベクトルとしてtf-idfの値が利用される。
tf-idf
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリングにおける重み係数にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究では、電子図書館におけるテキストベースのレコメンダシステムのうち83%がtf-idfを利用していたことがわかった[2]。
- ^ Rajaraman, A.; Ullman, J.D. (2011). “Data Mining”. Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2
- ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). “Research-paper recommender systems: a literature survey” (英語). International Journal on Digital Libraries 17 (4): 305–338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012 .
- ^ Luhn, Hans Peter (1957). “A Statistical Approach to Mechanized Encoding and Searching of Literary Information”. IBM Journal of Research and Development 1 (4): 309–317. doi:10.1147/rd.14.0309 2015年3月2日閲覧. "There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea."
- ^ Spärck Jones, K. (1972). “A Statistical Interpretation of Term Specificity and Its Application in Retrieval”. Journal of Documentation 28: 11–21. doi:10.1108/eb026526.
- ^ Manning, C.D.; Raghavan, P.; Schutze, H. (2008). “Scoring, term weighting, and the vector space model”. Introduction to Information Retrieval. pp. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1
- ^ “TFIDF statistics | SAX-VSM”. 2022年3月29日閲覧。
- ^ a b c Robertson, S. (2004). “Understanding inverse document frequency: On theoretical arguments for IDF”. Journal of Documentation 60 (5): 503–520. doi:10.1108/00220410410560582.
- ^ See also Probability estimates in practice in Introduction to Information Retrieval.
- ^ a b Aizawa, Akiko (2003). “An information-theoretic perspective of tf–idf measures” (英語). Information Processing and Management 39 (1): 45–65. doi:10.1016/S0306-4573(02)00021-3.
- ^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1998-01-01). CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications. AGENTS '98. 116–123. doi:10.1145/280765.280786. ISBN 978-0-89791-983-8
- ^ Sivic, Josef; Zisserman, Andrew (2003-01-01). Video Google: A Text Retrieval Approach to Object Matching in Videos. ICCV '03. 1470–. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0
- ^ Seki, Yohei. “Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles”. National Institute of Informatics. 2022年3月29日閲覧。
- ^ Beel, Joeran; Breitinger, Corinna (2017). “Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?”. Proceedings of the 12th IConference .
- ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001) (英語). Emerging Topic Tracking System. 2. doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2
- ^ Langer, Stefan; Gipp, Bela (2017). “TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections”. IConference .
- tf-idfのページへのリンク