言語資源
(言語リソース から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/09/25 19:57 UTC 版)
言語資源(げんごしげん、英: language resource)ないし言語リソース(げんごリソース)とは[1]、自然言語の研究に用いる各種のリソースのことである[2]。自然言語処理の研究・開発の基盤となる[1]。狭義には辞書やコーパスといった静的な言語データのみを指すが、広義にはこれらを解析するツールも含む[3]。
定義
狭義の言語資源には、自然言語処理に用いられる辞書やデータセット、コーパスといったものが含まれる[4][3]。自然言語処理研究者の黒橋禎夫は、コーパスおよびコーパスにつけられた注釈(アノテーション)に加え、知識グラフや、自然言語処理タスクの問題と解答のペアの集合といったものも言語資源として例示している[1]。
言語工学の標準に関して諮問にあたる専門家グループ/言語工学国際規格(Expert Advisory Group on Language Engineering Standards/International Standards for Language Engineering、EAGLES/ISLE)のペーター・ヴィッテンベルク(Peter Wittenburg)らは、言語資源を「人間のコミュニケーション行為を、何らかの形で記録または記述したデータベース」と定義している[5]。また、ヨーロッパ言語資源協会(European Language Resource Association、ELRA)は、言語資源を「自然言語および音声アルゴリズムまたはシステムの構築・改善・評価に使用される、機械で読み取り可能な形式の音声または言語データと記述のセット」と定義している[6]。
言語資源は、必ずしも電子的記録であるとは限らない。たとえば、オープン言語アーカイブコミュニティ(OLAC)は、出版されたモノグラフや、情報カードが収められた箱のようなものも言語資源の一部であるとしている[7]。文化庁・文化審議会国語分科会は、言語資料は「電子化されているものもされていないものも含む、書き言葉や話し言葉など多様な言語資料の総体」と定義し、「言語資源のうち電子化されたもの」であるところの「デジタル言語資料」と区別している[8]。さらに、より広義には、こうした静的な資料を解析するツールも言語資源の一部とみなされる[3]。OLACは言語データに加え、言語データの作成・表示・検索に用いるデジタル資源および、これらの資源の利用にあたっての助言も言語資源であると定義している[7]。
また、これらとやや異なる用法として、社会資源としての言語自体及びその社会的・文化的な価値のことをこのように呼び表すこともある[4][9]。小田格は「言語資源」のこの用法は、先述したような言語資源の定義を拡張したものであると論じ、広義の言語資源保護のため、狭義の言語資源整備を行う、中華人民共和国の「中国言語資源保護プロジェクト」を紹介している[4]。
構築と利用
辞典や全集、録音・録画資料といった、言語に関するあらゆる記録は言語資源の一部であるが、言語研究・言語政策・言語教育などにおいては、デジタル化された言語資源が有用となる[8]。自然言語処理において言語資源は、たとえば言語モデルの構築や、品詞タグ付けといった分類問題の学習に応用することができる[10]。ELRAは、言語資源はおもにテキスト検索や機械翻訳といったシステムの開発、あるいは既存のシステムの評価に用いられるとまとめている[6]。
黎明期の自然言語処理においては、研究者は言語の仕組みを内省することにより解析手法を考案し、小さな評価データでその有効性を議論していた。しかし、大規模な言語資源にもとづくデータ駆動的なアプローチは、こうした研究手法よりも客観的かつ再現性のある形で言語および言語表現の多様性を扱うことができた[1]。こうした趨勢を背景に、ヨーロッパではELRA、北米では言語データコンソーシアム(LDC)、日本では言語資源協会(GSK)といった組織が、言語資源の整備を推し進めた[3]。日本においてはこうした基幹的言語資源整備の一環として、2011年に国立国語研究所により現代日本語書き言葉均衡コーパスが公開された[11][12]。OLACは、言語資源のカタログを作成することを目標としている[13]。言語資源の記述内容・形式に関しては、国際標準化機構(ISO)の部会であるTC37/SC4が議論をおこなっており、複数の規格が制定・検討されている[13][14]。
出典
- ^ a b c d 黒橋 2023, p. 35.
- ^ 山崎 2019, p. 222.
- ^ a b c d “言語文化学事典 | 大阪大学大学院言語文化研究科言語文化専攻”. 2025年9月25日閲覧。
- ^ a b c 小田 2020, p. 181.
- ^ Wittenburg et al. 2000, p. 4.
- ^ a b “What is a Language Resource? | ELRA” (英語). 2025年9月25日閲覧。
- ^ a b “OLAC Overview”. www.language-archives.org. 2025年9月25日閲覧。
- ^ a b 文化審議会国語分科会 2025, p. 2.
- ^ 山崎 2019, p. 232.
- ^ 黒橋 2023, pp. 50–56.
- ^ “特集 : BCCWJ(現代日本語書き言葉均衡コーパス)開発秘話 - ことばの波止場”. ことば研究館 | 国立国語研究所. 2025年9月25日閲覧。
- ^ 文化審議会国語分科会 2025, p. 3.
- ^ a b “言語資源”. 電子情報通信学会「知識ベース」. 電子情報通信学会 (2019年). 2025年9月25日閲覧。
- ^ “ISO/TC37国内委員会について”. www.infosta.or.jp. 2025年9月25日閲覧。
参考文献
- Wittenburg, P.; Broeder, D.; Sloman, B. (2000). EAGLES/ISLE: A Proposal for a Meta Description Standard for Language Resources (PDF) (Report) (英語). Athens: LREC 2000 Workshop.
{{cite report}}
: CS1メンテナンス: 複数の名前/author (カテゴリ) - 小田格「ユネスコ「岳麓宣言」と「方言」に関する一考察―中華人民共和国の事例を手掛かりとして―」『人文研紀要』第95巻、中央大学人文科学研究所、2020年9月30日、177–205頁、 ISSN 0287-3877。
- 黒橋禎夫『自然言語処理』(3訂版)放送大学教育振興会〈放送大学教材. 情報コース/専門科目〉、2023年3月。 ISBN 978-4-595-32415-4。
- 『今後における日本語のデジタル言語資源の整備・活用の在り方(報告)』(レポート)文化審議会国語分科会、2025年3月17日 。
- 山崎誠「日本語コーパスの紹介とその利用」『ヨーロッパ日本語教育』第23巻、ヨーロッパ日本語教師会、2019年10月5日、222–232頁、doi:10.15084/00003009、 ISSN 1745-7165。
関連項目
言語資源と同じ種類の言葉
- 言語資源のページへのリンク