言語資源とは? わかりやすく解説

Weblio 辞書 > 同じ種類の言葉 > 経済 > 資産 > 資源 > 言語資源の意味・解説 

言語資源

(言語リソース から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/09/25 19:57 UTC 版)

言語資源(げんごしげん、: language resource)ないし言語リソース(げんごリソース)とは[1]自然言語の研究に用いる各種のリソースのことである[2]自然言語処理の研究・開発の基盤となる[1]。狭義には辞書コーパスといった静的な言語データのみを指すが、広義にはこれらを解析するツールも含む[3]

定義

狭義の言語資源には、自然言語処理に用いられる辞書やデータセット、コーパスといったものが含まれる[4][3]。自然言語処理研究者の黒橋禎夫は、コーパスおよびコーパスにつけられた注釈(アノテーション)に加え、知識グラフ英語版や、自然言語処理タスクの問題と解答のペアの集合といったものも言語資源として例示している[1]

言語工学の標準に関して諮問にあたる専門家グループ/言語工学国際規格(Expert Advisory Group on Language Engineering Standards/International Standards for Language Engineering、EAGLES/ISLE)のペーター・ヴィッテンベルク(Peter Wittenburg)らは、言語資源を「人間のコミュニケーション行為を、何らかの形で記録または記述したデータベース」と定義している[5]。また、ヨーロッパ言語資源協会(European Language Resource Association、ELRA)は、言語資源を「自然言語および音声アルゴリズムまたはシステムの構築・改善・評価に使用される、機械で読み取り可能な形式の音声または言語データと記述のセット」と定義している[6]

言語資源は、必ずしも電子的記録であるとは限らない。たとえば、オープン言語アーカイブコミュニティ英語版(OLAC)は、出版されたモノグラフや、情報カードが収められた箱のようなものも言語資源の一部であるとしている[7]文化庁文化審議会国語分科会は、言語資料は「電子化されているものもされていないものも含む、書き言葉や話し言葉など多様な言語資料の総体」と定義し、「言語資源のうち電子化されたもの」であるところの「デジタル言語資料」と区別している[8]。さらに、より広義には、こうした静的な資料を解析するツールも言語資源の一部とみなされる[3]。OLACは言語データに加え、言語データの作成・表示・検索に用いるデジタル資源および、これらの資源の利用にあたっての助言も言語資源であると定義している[7]

また、これらとやや異なる用法として、社会資源としての言語自体及びその社会的・文化的な価値のことをこのように呼び表すこともある[4][9]。小田格は「言語資源」のこの用法は、先述したような言語資源の定義を拡張したものであると論じ、広義の言語資源保護のため、狭義の言語資源整備を行う、中華人民共和国の「中国言語資源保護プロジェクト」を紹介している[4]

構築と利用

辞典や全集、録音・録画資料といった、言語に関するあらゆる記録は言語資源の一部であるが、言語研究言語政策言語教育などにおいては、デジタル化された言語資源が有用となる[8]。自然言語処理において言語資源は、たとえば言語モデルの構築や、品詞タグ付け英語版といった分類問題の学習に応用することができる[10]。ELRAは、言語資源はおもにテキスト検索機械翻訳といったシステムの開発、あるいは既存のシステムの評価に用いられるとまとめている[6]

黎明期の自然言語処理においては、研究者は言語の仕組みを内省することにより解析手法を考案し、小さな評価データでその有効性を議論していた。しかし、大規模な言語資源にもとづくデータ駆動的なアプローチは、こうした研究手法よりも客観的かつ再現性のある形で言語および言語表現の多様性を扱うことができた[1]。こうした趨勢を背景に、ヨーロッパではELRA、北米では言語データコンソーシアム英語版(LDC)、日本では言語資源協会(GSK)といった組織が、言語資源の整備を推し進めた[3]。日本においてはこうした基幹的言語資源整備の一環として、2011年に国立国語研究所により現代日本語書き言葉均衡コーパスが公開された[11][12]。OLACは、言語資源のカタログを作成することを目標としている[13]。言語資源の記述内容・形式に関しては、国際標準化機構(ISO)の部会であるTC37/SC4が議論をおこなっており、複数の規格が制定・検討されている[13][14]

出典

  1. ^ a b c d 黒橋 2023, p. 35.
  2. ^ 山崎 2019, p. 222.
  3. ^ a b c d 言語文化学事典 | 大阪大学大学院言語文化研究科言語文化専攻”. 2025年9月25日閲覧。
  4. ^ a b c 小田 2020, p. 181.
  5. ^ Wittenburg et al. 2000, p. 4.
  6. ^ a b What is a Language Resource? | ELRA” (英語). 2025年9月25日閲覧。
  7. ^ a b OLAC Overview”. www.language-archives.org. 2025年9月25日閲覧。
  8. ^ a b 文化審議会国語分科会 2025, p. 2.
  9. ^ 山崎 2019, p. 232.
  10. ^ 黒橋 2023, pp. 50–56.
  11. ^ 特集 : BCCWJ(現代日本語書き言葉均衡コーパス)開発秘話 - ことばの波止場”. ことば研究館 | 国立国語研究所. 2025年9月25日閲覧。
  12. ^ 文化審議会国語分科会 2025, p. 3.
  13. ^ a b 言語資源”. 電子情報通信学会「知識ベース」. 電子情報通信学会 (2019年). 2025年9月25日閲覧。
  14. ^ ISO/TC37国内委員会について”. www.infosta.or.jp. 2025年9月25日閲覧。

参考文献

関連項目





言語資源と同じ種類の言葉


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「言語資源」の関連用語

言語資源のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



言語資源のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの言語資源 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS