コーパス言語学とは? わかりやすく解説

Weblio 辞書 > 固有名詞の種類 > 方式・規則 > 主義・方式 > 学問 > 学問 > コーパス言語学の意味・解説 

コーパス言語学

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/08/18 23:30 UTC 版)

コーパス言語学(こーぱすげんごがく、英:Corpus linguistics)は、コーパス(複数形:コーポラ)を用いた実証的な言語学の一分野。[1]コーパスとは、特定の言語変種を代表することを目指して収集された、実在の話し言葉および書き言葉のテキストから成るバランスのとれた(しばしば層化された)集合である。[2]今日では、コーパスは一般に機械可読のデータ集合である。

概要

コーパス言語学は、その言語の自然な文脈(レアリア)で収集されたコーパスを用い、実験的干渉を最小限に抑えることで、言語の信頼できる分析を実現しようとする。大規模なテキスト集合は、質的なやり方では検証しにくい言語概念について、言語学者が定量的研究を実施することを可能にする。[3]

テキスト・コーパス法は、自然言語におけるテキスト群を用いて、その言語を支配する抽象的規則の集合を導出する。その成果は、当該言語と同様の分析が施された他の言語との関係を探るためにも用いられる。この種の最初のコーパスは原テキストから手作業で作成されたが、現在ではその作業は自動化されている。

コーパスは言語学研究に用いられてきただけでなく、辞書の編纂(1969年刊のアメリカンヘリテージ英語辞典英語版に始まる)や参照文法の編纂にも次第に用いられており、その先駆的な例としては1985年刊の「英語総合文法英語版」が挙げられる。

この分野の専門家の間では、コーパスへのアノテーションについて見解が分かれている。見解は幅広く、テキストそれ自体に語らせるためアノテーションを最小限にすべきだとするジョン・マクラーディ・シンクラー英語版から[4]、厳密な記録付与によってより高度な言語理解が可能になるとしてアノテーションを擁護する英語使用調査英語版コーパスチーム(ユニヴァーシティ・カレッジ・ロンドン)に至るまでさまざまである。[5]

歴史

文法記述の最初期の試みのいくつかは、宗教的または文化的に特別な意義をもつコーパスに依拠していた。たとえば、プラーティシャーキャ英語版は、ヴェーダに見られるサンスクリットの音声パターンを記述し、古典サンスクリットの文法であるパーニニの著作も、一部は同じコーパスの分析に基づいていた。同様に、初期のアラビア語文法家たちはクルアーンの言語に特別の注意を払った。西欧の伝統では、学者たちは聖書やその他の正典的テクストの言語を精査できるよう、コンコルダンスを作成した。

英語コーパス

現代コーパス言語学の画期となったのは、1967年に刊行されたヘンリー・クチェラ英語版とW・ネルソン・フランシス英語版による「現代アメリカ英語の計算機分析」である。この研究は、1961年のアメリカ英語100万語から成る、構造化されバランスのとれたブラウン・コーパスの分析に基づいていた。コーパスは多様なジャンルからの2,000のテキスト標本で構成されている。[6]ブラウン・コーパスは、言語学研究のために設計された初のコンピュータ化コーパスであった。[7]クチェラとフランシスはブラウン・コーパスに様々な計算分析を施し、その成果を言語学言語教育心理学統計学社会学の要素と結びつけて、多面的で豊かな大著を生み出した。さらに重要な出版物としては、ランドルフ・クワークによる1960年の 「英語使用の記述に向けて」があり[8]、そこで彼は英語用法調査コーパスを導入した。クワークのコーパスは、言語全体を代表させることを目的に構築された、最初の近代的コーパスであった。[9]

その直後、ボストンの出版社ホートン・ミフリン・ハーコート英語版社は、新しい「アメリカンヘリテージ英語辞典」のために、100万語規模の三行用例データベースの提供をクチェラに依頼した。コーパス言語学を用いて編纂された最初の辞書であるアメリカンヘリテージ英語辞典は、規範的要素(言語はどうあるべきか)と記述的情報(実際にはどう使われているか)を組み合わせるという革新的な一歩を踏み出した。

他の出版社もこれに続いた。英国の出版社コリンズのコビルド英英学習辞典は、バンク・オブ・イングリッシュを用いて編纂された。英語用法調査コーパスは、クワークらによって執筆され、1985年に刊行されたコーパスに基づく文法書「英語総合文法」に用いられた。[10]

ブラウン・コーパスは、同様の構造をもつ多数のコーパスを生み出した。たとえば、LOB コーパス英語版(1960年代のイギリス英語)、Kolhapur(インド英語)、Wellington(ニュージーランド英語)、Australian Corpus of English(オーストラリア英語)、Frown コーパス(1990年代初頭のアメリカ英語)、FLOB コーパス(1990年代のイギリス英語)などである。その他のコーパスは多くの言語・変種・様式(モード)を代表し、国際英語コーパス英語版 や、1990年代に出版社、オックスフォード大学ランカスター大学大英図書館の共同事業として作成された、話し言葉および書き言葉の多様なテキストから成る1億語規模のコレクション英国国立コーパス英語版などが含まれる。現代アメリカ英語については、アメリカ国立コーパス英語版の作業は停滞しているが、4億語超の現代アメリカ英語コーパス英語版(COCA、1990年–現在)は現在ウェブインターフェース経由で利用可能である。

転写された話し言葉の最初のコンピュータ化コーパスは、1971年にモントリオール・フレンチ・プロジェクトによって構築された。[11]これは100万語を収めており、オタワ=ハル地域におけるシャナ・ポプラック英語版による、より大規模なフランス語話し言葉コーパスに着想を与えた。[12]

多言語コーパス

1990年代、自然言語処理における統計的手法の顕著な初期成果の多くは、主として IBMリサーチの研究によって、機械翻訳の分野で生まれた。これらのシステムは、カナダ議会欧州連合において、政府のすべての議事を全公用語へ翻訳することを法が要求した結果として作成された、既存の多言語テキスト・コーパスを活用することができた。

非ヨーロッパ諸語にもコーパスは存在する。たとえば日本では、国立国語研究所が、日本語の話し言葉・書き言葉のコーパスを多数構築している。手話のコーパスも、ビデオデータを用いて作成されている。[13]

古代言語のコーパス

現存する言語のコーパスに加えて、古代言語のテキスト集から成るコンピュータ化コーパスも作成されている。一例として、1970年代以降に開発されてきたヘブライ語聖書の アンダーセン・フォーブス・データベースがある。そこでは、あらゆる節が、統語の最大七層を表現するグラフを用いて構文解析され、あらゆるセグメントに七つの情報フィールドのタグ付けが施されている。[14][15]クルアーンアラビア語コーパス英語版は、クルアーン古典アラビア語のためのアノテーション付きコーパスである。これは近年のプロジェクトで、形態素分割、品詞タグ付け、依存文法を用いた統語解析など、複数層のアノテーションを含んでいる。[16]サンスクリットデジタルコーパスは、「サンディ分割(Sandhi‑split)されたサンスクリット文献のコーパスで、完全な形態論的・語彙的分析を備え……サンスクリット言語学および文献学におけるテキスト史的研究のために設計されている」ものである。[17]

特定分野のコーパス

純粋な言語学的探究にとどまらず、研究者たちはコーパス言語学を他の学術・実務領域にも応用し始めている。例えば、新たに興りつつある下位分野である法とコーパス言語学英語版は、コーパスのデータやツールを用いて法的テキストを理解しようとする試みである。DBLPディスカバリー・データセットは計算機科学に特化し、著者所属、引用、研究分野などの関連メタデータを備えた計算機科学分野の出版物を収録している。[18]さらに焦点を絞ったデータセットとして、計算言語学会アンソロジーの論文群と Google Scholarのメタデータを組み合わせた NLP Scholar が導入された。[19]また、コーパスは翻訳の取り組み[20]や外国語教育にも資する。[21]

方法

コーパス言語学は、データから理論への道筋をたどるための、いくつもの研究方法を生み出してきた。ワリスとネルソン(2001)[22]は、彼らが「3A 視点」と呼ぶ、アノテーション付与抽象化分析を最初に提唱した。

  • アノテーション付与は、テキストにスキーム(注釈体系)を適用する作業から成る。アノテーションには、構造マークアップ、品詞タグ付け、構文解析、その他多数の形式が含まれる。
  • 抽象化は、スキーム内の諸項目を、理論的に動機づけられたモデルやデータセットの項目へと対応付けすることから成る。抽象化には通常、言語学者による指向的検索が含まれるが、例えばパーサのためのルール学習などを含む場合もある。
  • 分析は、データセットに対して統計的な検証・操作・一般化を行うことから成る。分析には、統計的評価、ルールベースの最適化、知識発見手法などが含まれ得る。

今日の多くの語彙コーパスは品詞タグ付き(POS‑tagged)である。しかし「無注釈のプレーンテキスト」を扱うコーパス言語学者であっても、顕著な語を抽出するために必然的に何らかの方法を適用する。こうした状況では、語彙検索の過程でアノテーションと抽象化が結合される。

アノテーション付きコーパスを公開する利点は、他の利用者が(コーパス管理ツール英語版を通じて)そのコーパス上で実験を行える点にある。構築者とは異なる関心や視点をもつ言語学者も、この成果を活用できる。データを共有することで、コーパス言語学者はコーパスを言語学的議論とさらなる研究の場として扱うことが可能になる。[23]

関連項目

脚注

  1. ^ Meyer, Charles F. (2023). English Corpus Linguistics (2nd ed.). Cambridge: Cambridge University Press. p. 4.
  2. ^ Meyer, Charles F. (2023). English Corpus Linguistics (2nd ed.). Cambridge: Cambridge University Press. p. 4.
  3. ^ Hunston, S. (1 January 2006), "Corpus Linguistics", in Brown, Keith (ed.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, pp. 234–248, doi:10.1016/b0-08-044854-2/00944-5, ISBN 978-0-08-044854-1, retrieved 31 October 2023
  4. ^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
  5. ^ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
  6. ^ Francis, W. Nelson; Kučera, Henry (1 June 1967). Computational Analysis of Present-Day American English. Providence: Brown University Press. ISBN 978-0870571053.
  7. ^ Kennedy, G. (1 January 2001), "Corpus Linguistics", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Oxford: Pergamon, pp. 2816–2820, ISBN 978-0-08-043076-8, retrieved 31 October 2023
  8. ^ Quirk, Randolph (November 1960). "Towards a description of English Usage". Transactions of the Philological Society. 59 (1): 40–61. doi:10.1111/j.1467-968X.1960.tb00308.x.
  9. ^ Kennedy, G. (1 January 2001), "Corpus Linguistics", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Oxford: Pergamon, pp. 2816–2820, doi:10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, retrieved 31 October 2023
  10. ^ Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). A Comprehensive Grammar of the English Language. London: Longman. ISBN 978-0582517349.
  11. ^ Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Sample survey methods and computer-assisted analysis in the study of grammatical variation". Canadian Languages in Their Social Context. Edmonton: Linguistic Research Incorporated: 7–63.
  12. ^ Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). "The care and handling of a mega-corpus". Language Change and Variation. Current Issues in Linguistic Theory. 52. Amsterdam: Benjamins: 411–451. doi:10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
  13. ^ "National Center for Sign Language and Gesture Resources at B.U." www.bu.edu. Retrieved 31 October 2023.
  14. ^ Andersen, Francis I.; Forbes, A. Dean (2003), "Hebrew Grammar Visualized: I. Syntax", Ancient Near Eastern Studies, vol. 40, pp. 43–61 [45]
  15. ^ Eyland, E. Ann (1987), "Revelations from Word Counts", in Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake, IN: Eisenbrauns, p. 51, ISBN 0-931464-26-9
  16. ^ Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
  17. ^ "Digital Corpus of Sanskrit (DCS)". Retrieved 28 June 2022.
  18. ^ Wahle, Jan Philip; Ruas, Terry; Mohammad, Saif; Gipp, Bela (2022). "D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 2642–2651. arXiv:2204.13384.
  19. ^ Mohammad, Saif M. (2020). "NLP Scholar: A Dataset for Examining the State of NLP Research". Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 868–877. ISBN 979-10-95546-34-4.
  20. ^ Bernardini, S. (1 January 2006), "Machine Readable Corpora", in Brown, Keith (ed.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, pp. 358–375, doi:10.1016/b0-08-044854-2/00476-4, ISBN 978-0-08-044854-1, retrieved 31 October 2023
  21. ^ Mainz, Johannes Gutenberg-Universität. "Corpus Linguistics | ENGLISH LINGUISTICS". Johannes Gutenberg-Universität Mainz (in German). Retrieved 31 October 2023.
  22. ^ Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
  23. ^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulating Methodological Approaches in Corpus-Linguistic Research. New York: Routledge.

コーパス言語学

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/12 07:39 UTC 版)

ジェフリー・リーチ」の記事における「コーパス言語学」の解説

リーチUCLでのランドルフ・クヮークのコーパス構築作業触発されランカスター赴任間もなく、コンピュータ・コーパス開発先駆的取り組んだ。彼はイギリス英語最初電子コーパス立ち上げ、Lancaster-Oslo-Bergen CorpusLOB Corpus)として1978年完成させている。その後1990年代には、the British National Corpus (BNC)の作成において主導的な役割果たした。彼が共同設立したランカスター研究グループは、コーパス注記を行うためのプログラム開発したツリーバンクという用語は、現在コーパス解析一般的に用いられているが、1980年代リーチによって造られた用語である。 LGSWE文法1999)は体系的なコーパス分析基づいて作成された。リーチのより最近コーパス研究は、近年現代英語における文法変化集中している。

※この「コーパス言語学」の解説は、「ジェフリー・リーチ」の解説の一部です。
「コーパス言語学」を含む「ジェフリー・リーチ」の記事については、「ジェフリー・リーチ」の概要を参照ください。

ウィキペディア小見出し辞書の「コーパス言語学」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



固有名詞の分類


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「コーパス言語学」の関連用語

コーパス言語学のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



コーパス言語学のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのコーパス言語学 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのジェフリー・リーチ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS