低資源言語
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/09/25 19:48 UTC 版)

低資源言語(ていしげんげんご、英語: low resource language )は、自然言語処理のために利用可能なリソース(言語資源)が限られる言語のことである[1]。少資源言語(しょうしげんげんご)[2]、少数資源言語(しょうすうしげんげんご)[3]、低リソース言語(ていリソースげんご)などとも訳される[4]。
自然言語処理においては1990年代以降、ルールベースから統計ベースへのアプローチの転換が進んだ[5]。自然言語処理の研究・開発の基盤となるデータを言語資源(言語リソース)と呼称するが、自然言語処理のデータ駆動的アプローチは大規模な言語資源の構築・公開が必要となる[6]。しかし、世界の多くの言語はこうした言語資源の整備が進んでおらず、自然言語処理研究の大半は、世界に7,000近くある言語のうち、20言語ほどを対象とするものである[5]。
英語・日本語・ヒンディー語といった言語資源が十分に整備されている言語においては、高い精度の自然言語処理が可能である一方、アッサム語・ボド語といった低資源言語においては、既存の技術を十全に用いることが難しい[7]。近世日本語以前の日本語や古代エジプト語のような古典語も低資源言語となるほか[2][3]、一般に「高資源言語」と呼ばれる言語でも、特定の場合においては十分な資源を用意できないことがある[8]。たとえば、現代日本語においてもたとえば文章要約のようなタスクにおいては、英語ほど十分な資源が用意されているわけではない[4]。
教師あり学習にもとづく自然言語処理には、構文解析器に学習させるためのアノテーション付きコーパスが必要であったが、Duong (2017)によればUniversal Dependenciesが対応するツリーバンクは40言語しか存在しない。また、その中でもタミル語・カザフ語のような言語は1,000文未満というごく少数のアノテーションしか付与されていない[9]。Duong (2017)は低資源言語を少量のアノテーション付きデータしか利用不能な少資源言語(scarce-resource languages)、アノテーション付きデータは利用不能であるものの、辞書やパラレルコーパスは利用可能な極少資源言語(very scarce-resource languages)、フィールド言語学者による資料しか利用不能な超極少資源言語(extremely scarce-resource languages)に分類した[9]。
Transformerや大規模言語モデルといったニューラル言語モデルは、自然言語処理技術を飛躍的に進歩させたが、言語モデルの能力はコーパスに依存するため、潤沢なリソースを用意できる高資源言語と低資源言語ではその性能に大きな差異が生まれる[10]。Joshi et.al. (2020)はデータリポジトリ(LDCカタログとELRAマップ)に収録されるラベル付きデータの数と、各言語版Wikipediaの記事数をもとに各言語を6つのクラスタに分類し、ラベル付きデータは少ない一方でラベルなしデータは潤沢な一部の言語はゼロショット学習の恩恵を受ける一方、ラベル付きデータ・ラベルなしデータがいずれもほとんど存在しない15%の言語においては自然言語処理の格差がより大きくなるであろうと論じた。また、十分なラベル付きデータを有する言語には類型論的特徴に偏りがあり、ゼロショット学習において支障が生まれる可能性についても指摘した。
出典
- ^ 坂井 2024, p. 234.
- ^ a b 宮川創 (2025年7月5日). “AI を活用した低資源言語のコーパス構築:古代エジプト語・コプト語を中心に”. 科学技術・学術政策研究所. 2025年9月25日閲覧。
- ^ a b 菅原 2024, p. 1.
- ^ a b 桑原ほか 2020, p. 752.
- ^ a b Magueresse et al. 2020, p. 1.
- ^ 黒橋 2023, p. 35.
- ^ Pakray et al. 2025.
- ^ Duong 2017, p. 13.
- ^ a b Duong 2017, p. 12.
- ^ “The First Workshop on Language Models for Low-Resource Languages”. loreslm.github.io. 2025年9月25日閲覧。
参考文献
- Duong, Long (2017). Low-resource languages processing with deep learning and transfer learning (PhD thesis) (英語). The University of Melbourne.
{{cite thesis}}
: CS1メンテナンス: デフォルトと同じref (カテゴリ) - Joshi, Pratik; Santy, Sebastin; Budhiraja, Amar; Bali, Kalika; Choudhury, Monojit (2020). “The State and Fate of Linguistic Diversity and Inclusion in the NLP World”. arXiv:2004.09095 [cs.CL].
-
Magueresse, Alexandre; Carles, Vincent; Heetderks, Evan (12 June 2020). “Low-resource Languages: A Review of Past Work and Future Challenges”. arXiv:2006.07264.
{{cite arXiv}}
: CS1メンテナンス: classが不足 (カテゴリ) - Pakray, P.; Gelbukh, A.; Bandyopadhyay, S. (2025). “Natural language processing applications for low-resource languages” (英語). Natural Language Processing 31 (2): 183–197. doi:10.1017/nlp.2024.33.
- 桑原亮介, 斉藤いつみ, 西田京介, 富田準二, 中山英樹「抽出型自動要約における低リソース環境下での他言語データ活用方法の検証」『言語処理学会年次大会発表論文集』2020年、752–755頁。
- 黒橋禎夫『自然言語処理』(3訂版)放送大学教育振興会〈放送大学教材. 情報コース/専門科目〉、2023年3月。 ISBN 978-4-595-32415-4。
- 坂井美日「生成AI を用いた鹿児島方言生成―日琉諸語の低資源言語・方言の生成に向けた試み―」『言語処理学会年次大会発表論文集』2024年、234–238頁。
- 菅原太樹「少数資源言語に対する大規模言語モデルを用いた解析支援」『法政大学大学院紀要. 理工学研究科編』第65巻、法政大学大学院理工学研究科、2024年、1–4頁、doi:10.15002/00030745、 ISSN 24368083。
- 低資源言語のページへのリンク