低資源言語とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > 低資源言語の意味・解説 

低資源言語

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/09/25 19:48 UTC 版)

Joshi et.al. (2020)による言語資源の分布図。ラベル付きデータの量(縦軸)、ラベルなしデータの量(横軸)をもとに、各言語を6つのクラスタに分類している。

低資源言語(ていしげんげんご、英語: low resource language )は、自然言語処理のために利用可能なリソース(言語資源)が限られる言語のことである[1]少資源言語(しょうしげんげんご)[2]少数資源言語(しょうすうしげんげんご)[3]低リソース言語(ていリソースげんご)などとも訳される[4]

自然言語処理においては1990年代以降、ルールベースから統計ベースへのアプローチの転換が進んだ[5]。自然言語処理の研究・開発の基盤となるデータを言語資源(言語リソース)と呼称するが、自然言語処理のデータ駆動的アプローチは大規模な言語資源の構築・公開が必要となる[6]。しかし、世界の多くの言語はこうした言語資源の整備が進んでおらず、自然言語処理研究の大半は、世界に7,000近くある言語のうち、20言語ほどを対象とするものである[5]

英語・日本語ヒンディー語といった言語資源が十分に整備されている言語においては、高い精度の自然言語処理が可能である一方、アッサム語ボド語といった低資源言語においては、既存の技術を十全に用いることが難しい[7]近世日本語以前の日本語や古代エジプト語のような古典語も低資源言語となるほか[2][3]、一般に「高資源言語」と呼ばれる言語でも、特定の場合においては十分な資源を用意できないことがある[8]。たとえば、現代日本語においてもたとえば文章要約のようなタスクにおいては、英語ほど十分な資源が用意されているわけではない[4]

教師あり学習にもとづく自然言語処理には、構文解析器に学習させるためのアノテーション付きコーパスが必要であったが、Duong (2017)によればUniversal Dependenciesが対応するツリーバンクは40言語しか存在しない。また、その中でもタミル語カザフ語のような言語は1,000文未満というごく少数のアノテーションしか付与されていない[9]Duong (2017)は低資源言語を少量のアノテーション付きデータしか利用不能な少資源言語(scarce-resource languages)、アノテーション付きデータは利用不能であるものの、辞書やパラレルコーパスは利用可能な極少資源言語(very scarce-resource languages)、フィールド言語学者による資料しか利用不能な超極少資源言語(extremely scarce-resource languages)に分類した[9]

Transformer大規模言語モデルといったニューラル言語モデルは、自然言語処理技術を飛躍的に進歩させたが、言語モデルの能力はコーパスに依存するため、潤沢なリソースを用意できる高資源言語と低資源言語ではその性能に大きな差異が生まれる[10]Joshi et.al. (2020)はデータリポジトリ(LDCカタログとELRAマップ)に収録されるラベル付きデータの数と、各言語版Wikipediaの記事数をもとに各言語を6つのクラスタに分類し、ラベル付きデータは少ない一方でラベルなしデータは潤沢な一部の言語はゼロショット学習英語版の恩恵を受ける一方、ラベル付きデータ・ラベルなしデータがいずれもほとんど存在しない15%の言語においては自然言語処理の格差がより大きくなるであろうと論じた。また、十分なラベル付きデータを有する言語には類型論的特徴に偏りがあり、ゼロショット学習において支障が生まれる可能性についても指摘した。

出典

参考文献




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  低資源言語のページへのリンク

辞書ショートカット

すべての辞書の索引

低資源言語のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



低資源言語のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの低資源言語 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS