Text corpusとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > Text corpusの意味・解説 

コーパス

(Text corpus から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/01/25 16:30 UTC 版)

コーパス: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]コンピュータ利用が進み、電子化データとして提供されている[2]

概要

「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。

大規模なコーパスの作成には、相当の費用時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。

構造化した言語データを「一般利用する」という観点からは、三省堂ウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。

日本でコーパスを一般に広く知らしめたのは、英語学者投野由紀夫である。2003年NHK教育テレビジョン100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。

生コーパス

人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス(英: raw corpus)とよぶ[3]

Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス(英: balanced corpus)とよぶ[3]

翻訳関係にある二文書対を収集したコーパスを対訳コーパス(英: bilingual corpus)またはパラレルコーパス(英: parallel corpus)、特定のトピックに関する対訳コーパスを 比較可能コーパス(英: comparable corpus)とよぶ[4]

タグ付きコーパス

言語的な注釈を付与したコーパスを注釈付与コーパス(英: annotated corpus)またはタグ付きコーパス(英: tagged corpus)と呼ぶ[5]

脚注

参考文献

  • 池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦 編『日本語語彙大系』 全5巻、NTTコミュニケーション科学研究所 監修、岩波書店、1997年9月。ISBN 4-00-009884-5 
  • 『日本語語彙大系』(CD-ROM版)岩波書店、1999年9月。ISBN 978-4001301014 
  • 黒橋禎夫「4 コーパスに基づく自然言語処理」『自然言語処理』(改訂版)放送大学教育振興会〈放送大学教材〉、2019年3月20日。ISBN 978-4-595-31958-7 

関連項目

外部リンク




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Text corpus」の関連用語

Text corpusのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Text corpusのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのコーパス (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS