情報抽出とは？わかりやすく解説

情報抽出（じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE）は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。

多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (英: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。

その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報

\mathrm {MergerBetween} (company_{1},company_{2},date)

カテゴリ

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

情報抽出とは？ わかりやすく解説

情報抽出

急上昇のことば

「情報抽出」の関連用語

情報抽出とは？わかりやすく解説