情報抽出
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/05/20 03:42 UTC 版)
![]() |
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2022年12月)
|
![]() |
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2022年7月)
翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
情報抽出(じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE)は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。
多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (英: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。
その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報
情報抽出と同じ種類の言葉
- 情報抽出のページへのリンク