形態素解析 日本語の形態素解析における諸問題

Weblio 辞書 > 同じ種類の言葉 > 学問 > 学術 > 解析 > 形態素解析の解説 > 日本語の形態素解析における諸問題 

形態素解析

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/03/10 16:06 UTC 版)

日本語の形態素解析における諸問題

日本語を形態素解析する際においては、以下の4つが大きな問題となる:

単語の境界判別の問題

単語の境界を判別することはかな漢字変換の基礎となる技術である。しかし、単語の境界判別を正しく行うためには与えられた文以外の様々な知識、情報が必要となる場合があり、そのため解決が困難である。

たとえば「うらにわにはにわとりがいる」という文には、以下の様に(意味的には解釈に失敗しようとも)文法的に正しい異なる読み方が存在する(本当はもっとある):

  • 裏庭 / には / 鶏 / が / いる
  • 裏庭 / には / 二 / 羽 / トリ / が / いる
  • 裏 / に / ワニ / は / 鶏 / が / いる
  • 裏庭 / に / 埴輪 / 取り / が / いる

上記最後の文の意味解釈は、"埴輪取り"と呼ばれる人あるいは物が存在したという特殊な状況下では意味的にも解釈に成功するだろうが、一般にそんな例は全くといっていいほど無い。しかしそれは"埴輪取り"なるものが実際には存在しないという経験的な知識による人間らしい判断であって、コンピューターなどの計算機を用いた解析では、文法や単語の辞書的データを超えるようなそういった知識も導入したとすると必要な知識が膨大に用意される必要があり、現実的ではない。この文の様に、完璧な正解を得るにはその文がおかれている文脈や書き手の意図等の背景をくみとらねばならないため非常に難しい。

品詞判別の問題

文中の品詞が常に一意に確定できるわけではない。

たとえば名詞と形容動詞の間には「別」「イロイロ」など、形容動詞と形容詞の間にも「アタタカ」「ヤワラカ」という連続領域があるという指摘がある。[5] より具体的には「それとこれは話が別だよ」という文章の場合、「別だ」という形容動詞に「よ」という終助詞がついたもの、「別」という名詞に「だよ」という終助詞がついたものという2通りに解釈することができる。しかもこの場合にどちらで分けても、文章の意味は変わらない上に、形態素の区切りの位置も一定ということが保証されない。

このような品詞分類の曖昧さは他の言語にも存在するが、冠詞や複数形、文法的性がない、主語を必須としないなど、手掛かりとなる規則が少ない。

未知語の問題

形態素解析は普通、その言語の単語を収めた辞書を用いておこなわれる。解析対象の文中の辞書に含まれない単語を未知語と呼ぶ。日本語では漢字の列やカタカナの列はたとえ未知語であってもある程度単語として認識することができる。しかしそれが使えない場合、代表的な方法は「知っている単語が現れるまで読み飛ばす」というものだが、これは後の解析を狂わせてしまい、結果として頑健な解析(より多くの文を解析可能であること)ができなくなってしまう恐れがある。

ルーズな文法の問題

話し言葉電子メールなどで使われる言葉は、(たとえば小中学校で習うような)ある特定のモデル化された文法による日本語からはかけ離れたものが多い。たとえば「そんなことは知らないでしょう」が「んなこた知らんしょ」に変化しうる。また電子メールなどでは形態素解析に用いられる辞書には載っていない略語フェイスマークが使われていることも多い(しかもそれらは一般に常用されるがために日々増えている)。

また、こういった文は校正が不十分なため、書き手の誤りが入っている場合が多くある。しかも、こういった誤りが繰り返されれば正用とみなされる場合すらある。このような文に対応した解析手法を頑健な解析と呼ぶ。このような文に対応するためには、正しい文が入力されるという前提の設計に基づく現在の形態素解析の手法を、誤りが含まれる様な文にも対処可能なように根本から見直す必要があるが、言語資源の不足のためあまり研究はされていない。


  1. ^ 長尾真(1979年)「計算機による日本語文章の解析に関する研究」、昭和53年度文部省科学研究費特定研究(1)研究報告書
  2. ^ 長尾真・辻井潤一(1978年)「国語辞書の記憶と日本語の自動分割」、情報処理 Vol.19 No.6
  3. ^ 首藤公昭・楢原登志子・吉田将(1979年)「日本語の機械処理のための文節構造モデル」、電子通信学会誌 Vol.62-D No.12
  4. ^ 首藤公昭(1980年)「文節構造モデルによる日本語の機械処理に関する研究」福岡大学研究所報 No.45
  5. ^ Teramura, Hideo (2011). Nihongo no shintakusu to imi. dai 1 kan (dai 18 satsu [18. Druck] ed.). Tōkyō: Kuroshio Shuppan. ISBN 978-4-87424-002-1 
  6. ^ How to build kegome v2 on web?” (英語). github.com. 2021年12月22日閲覧。
  7. ^ IBM Knowledge Center”. www.ibm.com. 2019年6月20日閲覧。






形態素解析と同じ種類の言葉


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「形態素解析」の関連用語

形態素解析のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



形態素解析のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの形態素解析 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS