コーパスとは? わかりやすく解説

Weblio 辞書 > 同じ種類の言葉 > 生物 > 生物学 > > コーパスの意味・解説 

corpus

別表記:コーパス

「corpus」とは・「corpus」の意味

「corpus」は、一定の条件目的基づいて収集された言語データ集まりを指す言葉である。言語学自然言語処理研究において、言語パターン特徴分析するために用いられる。コーパスは、書籍雑誌ウェブサイト会話記録などさまざまな媒体から収集されることがある

「corpus」の発音・読み方

「corpus」の発音は、IPA表記では /ˈkɔːrpəs/ であり、カタカナ表記では「コーパス」となる。日本人発音する際のカタカナ英語読み方は「コーパス」である。

「corpus」の定義を英語で解説

A corpus is a collection of linguistic data gathered based on certain criteria or purposes, often used in the fields of linguistics and natural language processing to analyze patterns and characteristics of a language. Corpora can be collected from various sources, such as books, magazines, websites, and conversation records.

「corpus」の類語

「corpus」の類語には、以下のような言葉がある。 1. collection: 一般的な集まり収集物を指す言葉で、言語データ限定されない。 2. database: データ集まり管理検索するためのシステムを含む言葉であり、言語データ以外のデータも含むことがある。 3. archive: 古文書歴史的資料集まりを指す言葉で、言語データだけでなく、物理的な資料も含むことがある

「corpus」に関連する用語・表現

「corpus」に関連する用語表現には、以下のようなものがある。 1. concordance: コーパス内の特定の単語表現どのように使われているかを調べるためのツールで、文脈含めた一覧を提供する。 2. frequency list: コーパス内での単語表現出現頻度を一覧にしたもので、言語の特徴傾向把握するために用いられる。 3. annotation: コーパス内のデータに対して品詞構文情報などの付加情報付与する作業アノテーションされたコーパスは、自然言語処理研究アプリケーション開発に役立つ。

「corpus」の例文

1. The researchers compiled a large corpus of spoken language to study regional dialects.(研究者たちは、地域方言研究するために、大量話し言葉のコーパスをまとめた。) 2. The corpus contains texts from various genres, such as novels, newspapers, and academic articles.(コーパスには、小説新聞学術論文など、さまざまなジャンルテキスト含まれている。) 3. The linguist analyzed the corpus to identify common patterns in the use of idiomatic expressions.(言語学者は、慣用表現使用における共通のパターン特定するために、コーパスを分析した。) 4. The annotated corpus provides valuable information for developing natural language processing applications.(アノテーションされたコーパスは、自然言語処理アプリケーション開発貴重な情報提供する。) 5. The corpus includes both written and spoken language data, allowing for a comprehensive analysis of the language.(コーパスには、書き言葉話し言葉両方データ含まれており、言語包括的な分析が可能である。) 6. The researchers used a balanced corpus to ensure that their findings were representative of the language as a whole.(研究者たちは、言語全体代表する結果を得るために、バランス取れたコーパスを使用した。) 7. The size of the corpus is an important factor in determining the reliability of the analysis results.(コーパスのサイズは、分析結果信頼性決定する上で重要な要素である。) 8. The corpus was divided into several subcorpora based on the source of the data.(コーパスは、データ出典基づいていくつかのサブコーパスに分割された。) 9. The researchers compared the frequency lists of different corpora to identify the unique features of each language variety.(研究者たちは、異なるコーパスの頻度リスト比較して各言語バリエーション独自の特徴特定した。) 10. The concordance tool allowed the linguists to examine the use of specific words in context within the corpus.(コンコーダンスツールにより、言語学者たちは、コーパス内での特定の単語文脈での使用調べることができた。)

コーパス【corpus】

読み方:こーぱす

語彙索引など、言語研究のための資料。特に、コンピューター利用してデータベース化された大規模な言語資料


コーパス

【英】corpus

コーパスとは、日本語や英語などをはじめとした自然言語文書大量に集めたもののことである。

コーパスは、言語学情報処理において自然言語処理研究機械学習学習データとして利用される。単に文書集めるだけではなく品詞統語構造など付与してあるものは、特に「タグ付きコーパス」などと呼ばれるまた、英語と日本語文同士を、互いに対訳の形で収集したものは対訳コーパス呼ばれる

情報と社会のほかの用語一覧
自然言語処理:  言語モデル  機械翻訳  機械学習  コーパス  語義の曖昧性解消  固有表現抽出  固有表現

コーパス

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/08/14 05:43 UTC 版)

コーパス: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]コンピュータ利用が進み、電子化データとして提供されている[2]

概要

「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。

大規模なコーパスの作成には、相当の費用時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。

構造化した言語データを「一般利用する」という観点からは、三省堂ウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。

日本でコーパスを一般に広く知らしめたのは、英語学者投野由紀夫である。2003年NHK教育テレビジョン100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。

生コーパス

人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス(英: raw corpus)とよぶ[3]

Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス(英: balanced corpus)とよぶ[3]

翻訳関係にある二文書対を収集したコーパスを対訳コーパス(英: bilingual corpus)またはパラレルコーパス(英: parallel corpus)、特定のトピックに関する対訳コーパスを 比較可能コーパス(英: comparable corpus)とよぶ[4]

タグ付きコーパス

言語的な注釈を付与したコーパスを注釈付与コーパス(英: annotated corpus)またはタグ付きコーパス(英: tagged corpus)と呼ぶ[5]

脚注

参考文献

  • 池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦 編『日本語語彙大系』 全5巻、NTTコミュニケーション科学研究所 監修、岩波書店、1997年9月。ISBN 4-00-009884-5 
  • 『日本語語彙大系』(CD-ROM版)岩波書店、1999年9月。 ISBN 978-4001301014 
  • 黒橋禎夫「4 コーパスに基づく自然言語処理」『自然言語処理』(改訂版)放送大学教育振興会〈放送大学教材〉、2019年3月20日。 ISBN 978-4-595-31958-7 

関連項目

外部リンク


コーパス(CORPUS)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/28 22:51 UTC 版)

Warframe」の記事における「コーパス(CORPUS)」の解説

クレジット古代オロキン文明崇拝する企業創始者は『Parvos Granum』。

※この「コーパス(CORPUS)」の解説は、「Warframe」の解説の一部です。
「コーパス(CORPUS)」を含む「Warframe」の記事については、「Warframe」の概要を参照ください。

ウィキペディア小見出し辞書の「コーパス」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ

「コーパス」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。



コーパスと同じ種類の言葉


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「コーパス」の関連用語

コーパスのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



コーパスのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
実用日本語表現辞典実用日本語表現辞典
Copyright © 2025実用日本語表現辞典 All Rights Reserved.
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリの【コーパス】の記事を利用しております。
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのコーパス (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのWarframe (改訂履歴)、英辞郎 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS