文書分類
(Document classification から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2010/04/18 00:03 UTC 版)
文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。
目次 |
技法
文書分類に使われる技法としては、以下のものがある。
- 単純ベイズ分類器
- tf-idf
- 潜在意味解析
- サポートベクターマシン
- ニューラルネットワーク
- k近傍法
- 決定木(例えばID3)
- コンセプトマイニング
他にも、自然言語処理に基づく手法がある。
応用
電子メールのスパムを分離するスパムフィルタに応用されている。
関連項目
参考文献
- Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 [1]
- Introduction to document classification
- Bibliography on Automated Text Categorization
- Bibliography on Query Classification
- TechTC - Technion Repository of Text Categorization Datasets
- David D. Lewis's Datasets
- 文書分類のページへのリンク