言語同定とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > 言語同定の意味・解説 

言語同定

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/20 09:10 UTC 版)

言語同定(げんごどうてい、言語推測、: language identification, language guessing)とは、自然言語処理において与えられた文章の自然言語を特定する問題である。言語同定の計算的なアプローチではテキスト分類の特別なケースとみなすことができ、様々な統計的モデルを使用することで問題解決を図る。

背景

統計的手法による言語同定では複数のデータ分類に対する技術を用いたアプローチが挙げられる。例として、言語を識別したいあるテキストにおける圧縮容易性[注釈 1]を既知の言語のテキストにおける圧縮容易性と比較する手法である。これは圧縮容易性を相互情報量に基づく距離尺度[注釈 2]として表すことで実現している。この手法による言語の分類は歴史的に用いられてきた手法によって構築された言語の系図とある程度一致することが知られており、言語の系図を構築するためにも用いることができる[要出典]。相互情報量に基づく距離尺度は伝統的に用いられてきたモデルによる手法と同等のアプローチであるとされており、一般にはこの手法の新規性や優位性があるとは見なされていない。

別の手法としてはカヴナーとトレンクレ(1994年)およびダニング(1994年)によって提案された方法が挙げられる。これは各言語ごとに訓練用テキストを用意し、それらのデータからn-gram英語版モデルを作成するといった手法である。これらのモデルでは(カヴナーとトレンクレによる)文字ベースおよび(ダニングによる)エンコード化されたバイトベースの二種類のモデルが存在しており、バイトベースのモデルでは言語同定と文字エンコーディングの検出が統合されたモデルとなっている。モデル作成後の流れとして、識別対象となるテキストに対しても同様のモデルを作成し、そのモデルを訓練用テキストにより作成された各言語モデルと比較する。言語同定の対象のテキストと最も類似性の高い言語はモデルもまた類似したものとなる。この手法では入力されたテキストの言語に対応するモデルが存在しない場合に問題となり得る。その場合、この手法ではその言語に最も類似した別の言語を結果として返すことがある。加えて、Web上に多く見られるような複数の言語で構成されたテキストに対する言語同定は非常に難度の高いものとなる。

より近代的な手法としてはジェフーレクとコルクス(2009年)によって提案された手法が挙げられる。これは構造化されていないテキスト中に複数の言語が混在している場合でも対応可能であり、n-gram英語版のような手法が苦手とするわずか数語の短いテキストに対しても頑健に動作する手法である[要出典]

グレフェンステットによって提案された古典的な統計的手法として、(英語における "the"など)特定の機能語出現頻度英語版が存在している。

また(言語同定の正確性は低いが)最も普遍的に行われる非統計的かつ直感的なアプローチとして出現頻度の高い文字の組合せや、ダイアクリティカルマークなどの特徴的な発音記号や句読点を探すといったものが挙げられる[1][2]

類似言語のおける同定

言語同定用のシステムにおける大きなボトルネックの一つは互いに密接に関連するような言語を区別することが挙げられる。ブルガリア語マケドニア語、またインドネシア語マレー語のような非常に類似する言語では語彙的あるいは言語構造など共通点が多いことから、システムによって言語を特定することが難しいとされる。

ソフトウェア

  • Apache OpenNLP - n-gram英語版に基づく統計的検出が可能で103言語を区別することができるモデルも付属している。
  • Apache Tika英語版 - 18言語を検出可能な言語同定ソフトウェア

脚注

注釈

  1. ^ : compressibility
  2. ^ : mutual information based distance measure

出典

  1. ^ Stock, Wolfgang G.; Stock, Mechtild (2013-07-31) (英語). Handbook of Information Science. Walter de Gruyter. pp. 180–181. ISBN 978-3-11-023500-5. https://books.google.com/books?id=d1PnBQAAQBAJ&pg=PA180 
  2. ^ Hagiwara, Masato (2021-12-14) (英語). Real-World Natural Language Processing: Practical Applications with Deep Learning. Simon and Schuster. pp. 105–106. ISBN 978-1-61729-642-0. https://books.google.com/books?id=Ok5NEAAAQBAJ&pg=PA105 

参考文献

関連項目




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  言語同定のページへのリンク

辞書ショートカット

すべての辞書の索引

「言語同定」の関連用語

1
文字の出現頻度 百科事典
0% |||||

言語同定のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



言語同定のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの言語同定 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS