日本語形態素解析
【英】Morphological analysis
日本語形態素解析とは、言語学においてある言葉が変化・活用しない部分を最小単位の「素」と捉え、その素ごとに言葉を分解してゆく手法のことである。言語学者のチョムスキーによって考案されたもので、かな漢字変換を初めとする自然言語処理機能などに応用されている。
言語処理においては、体言や活用する言葉の活用語幹を語幹として、また、助詞や助動詞などを付属語として抽出される。語幹のうち表記ゆれのあるものに関しては、語幹の標準形としてある1つの表記に標準化される。
日本語には 単語の品詞と品詞とのつながりが明確・厳密であるため、他の自然言語処理に比べても解析が容易であるとされる。例えば、「来られないようだ」をという一文を形態素によって解析するならば、以下のように分析される。
来 | コ | 動詞・自立 | カ行変格活用 | 未然形 |
られ | ラレ | られる | 動詞・接尾辞 | 未然形 |
ない | ナイ | ない | 助動詞 | 基本形 |
よう | ヨウ | よう | 非自立名詞 | - |
だ | ダ | だ | 接続助詞 | 基本形 |
例えば「うらにわにはにわにわにはにわにわとりがいる」という構文では、多くの場合は「裏庭には二羽、庭には二羽、鶏がいる」という漢字変換が考えられるが、「裏庭に埴輪、庭に埴輪、鶏がいる」という変換でも間違いではないし、さらに「裏にワニ、葉にワニ、環に埴輪、鶏がいる」としても誤りではない。
変換に生じる揺れのうちどれが妥当であるかは、その文の意味によって、もしくは文脈や相手の意図によって変動する。それらのすべてが考慮に入れられなければ正しい意味を把握する事はできない。正解となるかもしれない複数の解答があり、そのどちらとも決定できないといった状況は、言語処理においては「曖昧である」「曖昧性がある」などと呼ばれ、それを解決するための過程は「語義の曖昧性解消」と呼ばれる。曖昧性の存在は構文解析でも同様であるといえる。
日本語形態素解析と同じ種類の言葉
解析に関連する言葉 | 統語解析 ボトムアップ構文解析 日本語形態素解析(にほんごけいたいそかいせき) エスケープ解析 主成分解析 |
解析に関連する言葉 | 統語解析 ボトムアップ構文解析 日本語形態素解析(にほんごけいたいそかいせき) エスケープ解析 主成分解析 |
- 日本語形態素解析のページへのリンク