tf-idf
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/28 23:00 UTC 版)
単語以外への応用
tf-idfの背後にある考えは、単語以外の存在にも応用される。1998年にはidfのコンセプトが引用分析に応用された[10]。筆者は「もし非常に珍しい引用が2つの文書によって共有されたならば、その引用された文書はたくさんの文書によって引用されている文書よりもより高く重み付けされるべきである。」と主張した。加えて、動画や内における物体マッチングを行うための「visual words」や[11]全文検索にも[12]tf-idfは応用されている。しかし、tf-idfのコンセプトは、すべての手法において、単純な(idf成分を除いた)tfのみの手法よりも効果的であるという証明はされていない。tf-idfを引用分析に応用する際には、研究者はidf重みをもたない単純な引用回数重みを超える精度向上を確認することができなかった[13]。
tf-idfの派生
多数の単語重み付け手法はtf-idfからの派生である。そのうちの一つはTF-PDF (term frequency * proportional document frequency) である[14]。TF-PDFは2001年にメディアにおける新たなトピックを特定するという文脈で導入された。PDF成分は異なるドメインの中でどのくらいの頻度である単語が出現したかの差を測定する。他の派生にはTF-IDuFがある。TF-IDuFでは[15]、idfは文書コーパスに基づき計算されず、検索または推薦される。例えば、idfはユーザの個人的な文書コレクションに基づいて計算される。その著者らはTF-IDuFはtf-idfと等しく効果的であるが、例えば、ユーザーモデリングシステムにおいて、外部の文書コーパスにアクセスできない時などに、応用可能であると報告している。
関連項目
- 自然言語処理
- 単語の埋め込み
- カルバック・ライブラー情報量
- 潜在的ディリクレ配分法 (LDA)
- 潜在意味解析
- 相互情報量
- 名詞句
- Okapi BM25
- ページランク
- ベクトル空間モデル
- 単語カウント
- SMART Information Retrieval System
- ^ Rajaraman, A.; Ullman, J.D. (2011). “Data Mining”. Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2
- ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). “Research-paper recommender systems: a literature survey” (英語). International Journal on Digital Libraries 17 (4): 305–338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012 .
- ^ Luhn, Hans Peter (1957). “A Statistical Approach to Mechanized Encoding and Searching of Literary Information”. IBM Journal of Research and Development 1 (4): 309–317. doi:10.1147/rd.14.0309 2015年3月2日閲覧. "There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea."
- ^ Spärck Jones, K. (1972). “A Statistical Interpretation of Term Specificity and Its Application in Retrieval”. Journal of Documentation 28: 11–21. doi:10.1108/eb026526.
- ^ Manning, C.D.; Raghavan, P.; Schutze, H. (2008). “Scoring, term weighting, and the vector space model”. Introduction to Information Retrieval. pp. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1
- ^ “TFIDF statistics | SAX-VSM”. 2022年3月29日閲覧。
- ^ a b c Robertson, S. (2004). “Understanding inverse document frequency: On theoretical arguments for IDF”. Journal of Documentation 60 (5): 503–520. doi:10.1108/00220410410560582.
- ^ See also Probability estimates in practice in Introduction to Information Retrieval.
- ^ a b Aizawa, Akiko (2003). “An information-theoretic perspective of tf–idf measures” (英語). Information Processing and Management 39 (1): 45–65. doi:10.1016/S0306-4573(02)00021-3.
- ^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1998-01-01). CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications. AGENTS '98. 116–123. doi:10.1145/280765.280786. ISBN 978-0-89791-983-8
- ^ Sivic, Josef; Zisserman, Andrew (2003-01-01). Video Google: A Text Retrieval Approach to Object Matching in Videos. ICCV '03. 1470–. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0
- ^ Seki, Yohei. “Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles”. National Institute of Informatics. 2022年3月29日閲覧。
- ^ Beel, Joeran; Breitinger, Corinna (2017). “Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?”. Proceedings of the 12th IConference .
- ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001) (英語). Emerging Topic Tracking System. 2. doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2
- ^ Langer, Stefan; Gipp, Bela (2017). “TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections”. IConference .
- tf-idfのページへのリンク