コーパス言語学とは？わかりやすく解説

コーパス言語学（こーぱすげんごがく、英：Corpus linguistics）は、コーパス（複数形：コーポラ）を用いた実証的な言語学の一分野。^[1]コーパスとは、特定の言語変種を代表することを目指して収集された、実在の話し言葉および書き言葉のテキストから成るバランスのとれた（しばしば層化された）集合である。^[2]今日では、コーパスは一般に機械可読のデータ集合である。

概要

コーパス言語学は、その言語の自然な文脈（レアリア）で収集されたコーパスを用い、実験的干渉を最小限に抑えることで、言語の信頼できる分析を実現しようとする。大規模なテキスト集合は、質的なやり方では検証しにくい言語概念について、言語学者が定量的研究を実施することを可能にする。^[3]

テキスト・コーパス法は、自然言語におけるテキスト群を用いて、その言語を支配する抽象的規則の集合を導出する。その成果は、当該言語と同様の分析が施された他の言語との関係を探るためにも用いられる。この種の最初のコーパスは原テキストから手作業で作成されたが、現在ではその作業は自動化されている。

コーパスは言語学研究に用いられてきただけでなく、辞書の編纂（1969年刊のアメリカンヘリテージ英語辞典（英語版）に始まる）や参照文法の編纂にも次第に用いられており、その先駆的な例としては1985年刊の「英語総合文法（英語版）」が挙げられる。

この分野の専門家の間では、コーパスへのアノテーションについて見解が分かれている。見解は幅広く、テキストそれ自体に語らせるためアノテーションを最小限にすべきだとするジョン・マクラーディ・シンクラー（英語版）から^[4]、厳密な記録付与によってより高度な言語理解が可能になるとしてアノテーションを擁護する英語使用調査（英語版）コーパスチーム（ユニヴァーシティ・カレッジ・ロンドン）に至るまでさまざまである。^[5]

歴史

文法記述の最初期の試みのいくつかは、宗教的または文化的に特別な意義をもつコーパスに依拠していた。たとえば、プラーティシャーキャ（英語版）は、ヴェーダに見られるサンスクリットの音声パターンを記述し、古典サンスクリットの文法であるパーニニの著作も、一部は同じコーパスの分析に基づいていた。同様に、初期のアラビア語文法家たちはクルアーンの言語に特別の注意を払った。西欧の伝統では、学者たちは聖書やその他の正典的テクストの言語を精査できるよう、コンコルダンスを作成した。

英語コーパス

現代コーパス言語学の画期となったのは、1967年に刊行されたヘンリー・クチェラ（英語版）とＷ・ネルソン・フランシス（英語版）による「現代アメリカ英語の計算機分析」である。この研究は、1961年のアメリカ英語100万語から成る、構造化されバランスのとれたブラウン・コーパスの分析に基づいていた。コーパスは多様なジャンルからの2,000のテキスト標本で構成されている。^[6]ブラウン・コーパスは、言語学研究のために設計された初のコンピュータ化コーパスであった。^[7]クチェラとフランシスはブラウン・コーパスに様々な計算分析を施し、その成果を言語学・言語教育・心理学・統計学・社会学の要素と結びつけて、多面的で豊かな大著を生み出した。さらに重要な出版物としては、ランドルフ・クワークによる1960年の「英語使用の記述に向けて」があり^[8]、そこで彼は英語用法調査コーパスを導入した。クワークのコーパスは、言語全体を代表させることを目的に構築された、最初の近代的コーパスであった。^[9]

その直後、ボストンの出版社ホートン・ミフリン・ハーコート（英語版）社は、新しい「アメリカンヘリテージ英語辞典」のために、100万語規模の三行用例データベースの提供をクチェラに依頼した。コーパス言語学を用いて編纂された最初の辞書であるアメリカンヘリテージ英語辞典は、規範的要素（言語はどうあるべきか）と記述的情報（実際にはどう使われているか）を組み合わせるという革新的な一歩を踏み出した。

他の出版社もこれに続いた。英国の出版社コリンズのコビルド英英学習辞典は、バンク・オブ・イングリッシュを用いて編纂された。英語用法調査コーパスは、クワークらによって執筆され、1985年に刊行されたコーパスに基づく文法書「英語総合文法」に用いられた。^[10]

ブラウン・コーパスは、同様の構造をもつ多数のコーパスを生み出した。たとえば、LOB コーパス（英語版）（1960年代のイギリス英語）、Kolhapur（インド英語）、Wellington（ニュージーランド英語）、Australian Corpus of English（オーストラリア英語）、Frown コーパス（1990年代初頭のアメリカ英語）、FLOB コーパス（1990年代のイギリス英語）などである。その他のコーパスは多くの言語・変種・様式（モード）を代表し、国際英語コーパス（英語版）や、1990年代に出版社、オックスフォード大学、ランカスター大学、大英図書館の共同事業として作成された、話し言葉および書き言葉の多様なテキストから成る1億語規模のコレクション英国国立コーパス（英語版）などが含まれる。現代アメリカ英語については、アメリカ国立コーパス（英語版）の作業は停滞しているが、4億語超の現代アメリカ英語コーパス（英語版）（COCA、1990年–現在）は現在ウェブインターフェース経由で利用可能である。

転写された話し言葉の最初のコンピュータ化コーパスは、1971年にモントリオール・フレンチ・プロジェクトによって構築された。^[11]これは100万語を収めており、オタワ＝ハル地域におけるシャナ・ポプラック（英語版）による、より大規模なフランス語話し言葉コーパスに着想を与えた。^[12]

多言語コーパス

1990年代、自然言語処理における統計的手法の顕著な初期成果の多くは、主として IBMリサーチの研究によって、機械翻訳の分野で生まれた。これらのシステムは、カナダ議会や欧州連合において、政府のすべての議事を全公用語へ翻訳することを法が要求した結果として作成された、既存の多言語テキスト・コーパスを活用することができた。

非ヨーロッパ諸語にもコーパスは存在する。たとえば日本では、国立国語研究所が、日本語の話し言葉・書き言葉のコーパスを多数構築している。手話のコーパスも、ビデオデータを用いて作成されている。^[13]

古代言語のコーパス

現存する言語のコーパスに加えて、古代言語のテキスト集から成るコンピュータ化コーパスも作成されている。一例として、1970年代以降に開発されてきたヘブライ語聖書のアンダーセン・フォーブス・データベースがある。そこでは、あらゆる節が、統語の最大七層を表現するグラフを用いて構文解析され、あらゆるセグメントに七つの情報フィールドのタグ付けが施されている。^[14]^[15]クルアーンアラビア語コーパス（英語版）は、クルアーンの古典アラビア語のためのアノテーション付きコーパスである。これは近年のプロジェクトで、形態素分割、品詞タグ付け、依存文法を用いた統語解析など、複数層のアノテーションを含んでいる。^[16]サンスクリットデジタルコーパスは、「サンディ分割（Sandhi‑split）されたサンスクリット文献のコーパスで、完全な形態論的・語彙的分析を備え……サンスクリット言語学および文献学におけるテキスト史的研究のために設計されている」ものである。^[17]

特定分野のコーパス

純粋な言語学的探究にとどまらず、研究者たちはコーパス言語学を他の学術・実務領域にも応用し始めている。例えば、新たに興りつつある下位分野である法とコーパス言語学（英語版）は、コーパスのデータやツールを用いて法的テキストを理解しようとする試みである。DBLPディスカバリー・データセットは計算機科学に特化し、著者所属、引用、研究分野などの関連メタデータを備えた計算機科学分野の出版物を収録している。^[18]さらに焦点を絞ったデータセットとして、計算言語学会アンソロジーの論文群と Google Scholarのメタデータを組み合わせた NLP Scholar が導入された。^[19]また、コーパスは翻訳の取り組み^[20]や外国語教育にも資する。^[21]

方法

コーパス言語学は、データから理論への道筋をたどるための、いくつもの研究方法を生み出してきた。ワリスとネルソン(2001)^[22]は、彼らが「3A 視点」と呼ぶ、アノテーション付与、抽象化、分析を最初に提唱した。

アノテーション付与は、テキストにスキーム（注釈体系）を適用する作業から成る。アノテーションには、構造マークアップ、品詞タグ付け、構文解析、その他多数の形式が含まれる。

抽象化は、スキーム内の諸項目を、理論的に動機づけられたモデルやデータセットの項目へと対応付けすることから成る。抽象化には通常、言語学者による指向的検索が含まれるが、例えばパーサのためのルール学習などを含む場合もある。

分析は、データセットに対して統計的な検証・操作・一般化を行うことから成る。分析には、統計的評価、ルールベースの最適化、知識発見手法などが含まれ得る。

今日の多くの語彙コーパスは品詞タグ付き（POS‑tagged）である。しかし「無注釈のプレーンテキスト」を扱うコーパス言語学者であっても、顕著な語を抽出するために必然的に何らかの方法を適用する。こうした状況では、語彙検索の過程でアノテーションと抽象化が結合される。

アノテーション付きコーパスを公開する利点は、他の利用者が（コーパス管理ツール（英語版）を通じて）そのコーパス上で実験を行える点にある。構築者とは異なる関心や視点をもつ言語学者も、この成果を活用できる。データを共有することで、コーパス言語学者はコーパスを言語学的議論とさらなる研究の場として扱うことが可能になる。^[23]

脚注

[脚注の使い方]

^ Meyer, Charles F. (2023). English Corpus Linguistics (2nd ed.). Cambridge: Cambridge University Press. p. 4.
^ Meyer, Charles F. (2023). English Corpus Linguistics (2nd ed.). Cambridge: Cambridge University Press. p. 4.
^ Hunston, S. (1 January 2006), "Corpus Linguistics", in Brown, Keith (ed.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, pp. 234–248, doi:10.1016/b0-08-044854-2/00944-5, ISBN 978-0-08-044854-1, retrieved 31 October 2023
^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
^ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
^ Francis, W. Nelson; Kučera, Henry (1 June 1967). Computational Analysis of Present-Day American English. Providence: Brown University Press. ISBN 978-0870571053.
^ Kennedy, G. (1 January 2001), "Corpus Linguistics", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Oxford: Pergamon, pp. 2816–2820, ISBN 978-0-08-043076-8, retrieved 31 October 2023
^ Quirk, Randolph (November 1960). "Towards a description of English Usage". Transactions of the Philological Society. 59 (1): 40–61. doi:10.1111/j.1467-968X.1960.tb00308.x.
^ Kennedy, G. (1 January 2001), "Corpus Linguistics", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Oxford: Pergamon, pp. 2816–2820, doi:10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, retrieved 31 October 2023
^ Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). A Comprehensive Grammar of the English Language. London: Longman. ISBN 978-0582517349.
^ Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Sample survey methods and computer-assisted analysis in the study of grammatical variation". Canadian Languages in Their Social Context. Edmonton: Linguistic Research Incorporated: 7–63.
^ Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). "The care and handling of a mega-corpus". Language Change and Variation. Current Issues in Linguistic Theory. 52. Amsterdam: Benjamins: 411–451. doi:10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
^ "National Center for Sign Language and Gesture Resources at B.U." www.bu.edu. Retrieved 31 October 2023.
^ Andersen, Francis I.; Forbes, A. Dean (2003), "Hebrew Grammar Visualized: I. Syntax", Ancient Near Eastern Studies, vol. 40, pp. 43–61 [45]
^ Eyland, E. Ann (1987), "Revelations from Word Counts", in Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake, IN: Eisenbrauns, p. 51, ISBN 0-931464-26-9
^ Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
^ "Digital Corpus of Sanskrit (DCS)". Retrieved 28 June 2022.
^ Wahle, Jan Philip; Ruas, Terry; Mohammad, Saif; Gipp, Bela (2022). "D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 2642–2651. arXiv:2204.13384.
^ Mohammad, Saif M. (2020). "NLP Scholar: A Dataset for Examining the State of NLP Research". Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 868–877. ISBN 979-10-95546-34-4.
^ Bernardini, S. (1 January 2006), "Machine Readable Corpora", in Brown, Keith (ed.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, pp. 358–375, doi:10.1016/b0-08-044854-2/00476-4, ISBN 978-0-08-044854-1, retrieved 31 October 2023
^ Mainz, Johannes Gutenberg-Universität. "Corpus Linguistics | ENGLISH LINGUISTICS". Johannes Gutenberg-Universität Mainz (in German). Retrieved 31 October 2023.
^ Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulating Methodological Approaches in Corpus-Linguistic Research. New York: Routledge.

この項目は、言語学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（ウィキポータル言語学）。

この項目は、学問に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています。

[1] Meyer, Charles F. (2023). English Corpus Linguistics (2nd ed.). Cambridge: Cambridge University Press. p. 4.

[2] Meyer, Charles F. (2023). English Corpus Linguistics (2nd ed.). Cambridge: Cambridge University Press. p. 4.

[3] Hunston, S. (1 January 2006), "Corpus Linguistics", in Brown, Keith (ed.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, pp. 234–248, doi:10.1016/b0-08-044854-2/00944-5, ISBN 978-0-08-044854-1, retrieved 31 October 2023

[4] Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.

[5] Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published

[6] Francis, W. Nelson; Kučera, Henry (1 June 1967). Computational Analysis of Present-Day American English. Providence: Brown University Press. ISBN 978-0870571053.

[7] Kennedy, G. (1 January 2001), "Corpus Linguistics", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Oxford: Pergamon, pp. 2816–2820, ISBN 978-0-08-043076-8, retrieved 31 October 2023

[8] Quirk, Randolph (November 1960). "Towards a description of English Usage". Transactions of the Philological Society. 59 (1): 40–61. doi:10.1111/j.1467-968X.1960.tb00308.x.

[9] Kennedy, G. (1 January 2001), "Corpus Linguistics", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Oxford: Pergamon, pp. 2816–2820, doi:10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, retrieved 31 October 2023

[10] Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). A Comprehensive Grammar of the English Language. London: Longman. ISBN 978-0582517349.

[11] Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Sample survey methods and computer-assisted analysis in the study of grammatical variation". Canadian Languages in Their Social Context. Edmonton: Linguistic Research Incorporated: 7–63.

[12] Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). "The care and handling of a mega-corpus". Language Change and Variation. Current Issues in Linguistic Theory. 52. Amsterdam: Benjamins: 411–451. doi:10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.

[13] "National Center for Sign Language and Gesture Resources at B.U." www.bu.edu. Retrieved 31 October 2023.

[14] Andersen, Francis I.; Forbes, A. Dean (2003), "Hebrew Grammar Visualized: I. Syntax", Ancient Near Eastern Studies, vol. 40, pp. 43–61 [45]

[15] Eyland, E. Ann (1987), "Revelations from Word Counts", in Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake, IN: Eisenbrauns, p. 51, ISBN 0-931464-26-9

[16] Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.

[17] "Digital Corpus of Sanskrit (DCS)". Retrieved 28 June 2022.

[18] Wahle, Jan Philip; Ruas, Terry; Mohammad, Saif; Gipp, Bela (2022). "D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 2642–2651. arXiv:2204.13384.

[19] Mohammad, Saif M. (2020). "NLP Scholar: A Dataset for Examining the State of NLP Research". Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 868–877. ISBN 979-10-95546-34-4.

[20] Bernardini, S. (1 January 2006), "Machine Readable Corpora", in Brown, Keith (ed.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, pp. 358–375, doi:10.1016/b0-08-044854-2/00476-4, ISBN 978-0-08-044854-1, retrieved 31 October 2023

[21] Mainz, Johannes Gutenberg-Universität. "Corpus Linguistics | ENGLISH LINGUISTICS". Johannes Gutenberg-Universität Mainz (in German). Retrieved 31 October 2023.

[22] Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.

[23] Baker, Paul; Egbert, Jesse, eds. (2016). Triangulating Methodological Approaches in Corpus-Linguistic Research. New York: Routledge.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

コーパス言語学とは？わかりやすく解説

コーパス言語学

概要