けいたいそ‐かいせき【形態素解析】
形態素解析
【英】Morphological analysis
形態素解析とは、言語学においてある言葉が変化・活用しない部分を最小単位の「素」と捉え、その素ごとに言葉を分解してゆく手法のことである。言語学者のチョムスキーによって考案されたもので、かな漢字変換を初めとする自然言語処理機能などに応用されている。
言語処理においては、体言や活用する言葉の活用語幹を語幹として、また、助詞や助動詞などを付属語として抽出される。語幹のうち表記ゆれのあるものに関しては、語幹の標準形としてある1つの表記に標準化される。
日本語には 単語の品詞と品詞とのつながりが明確・厳密であるため、他の自然言語処理に比べても解析が容易であるとされる。例えば、「来られないようだ」をという一文を形態素によって解析するならば、以下のように分析される。
来 | コ | 動詞・自立 | カ行変格活用 | 未然形 |
られ | ラレ | られる | 動詞・接尾辞 | 未然形 |
ない | ナイ | ない | 助動詞 | 基本形 |
よう | ヨウ | よう | 非自立名詞 | - |
だ | ダ | だ | 接続助詞 | 基本形 |
例えば「うらにわにはにわにわにはにわにわとりがいる」という構文では、多くの場合は「裏庭には二羽、庭には二羽、鶏がいる」という漢字変換が考えられるが、「裏庭に埴輪、庭に埴輪、鶏がいる」という変換でも間違いではないし、さらに「裏にワニ、葉にワニ、環に埴輪、鶏がいる」としても誤りではない。
変換に生じる揺れのうちどれが妥当であるかは、その文の意味によって、もしくは文脈や相手の意図によって変動する。それらのすべてが考慮に入れられなければ正しい意味を把握する事はできない。正解となるかもしれない複数の解答があり、そのどちらとも決定できないといった状況は、言語処理においては「曖昧である」「曖昧性がある」などと呼ばれる。曖昧性の存在は構文解析でも同様であるといえる。
形態素解析
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/03/10 16:06 UTC 版)
形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。
- ^ 長尾真(1979年)「計算機による日本語文章の解析に関する研究」、昭和53年度文部省科学研究費特定研究(1)研究報告書
- ^ 長尾真・辻井潤一(1978年)「国語辞書の記憶と日本語の自動分割」、情報処理 Vol.19 No.6
- ^ 首藤公昭・楢原登志子・吉田将(1979年)「日本語の機械処理のための文節構造モデル」、電子通信学会誌 Vol.62-D No.12
- ^ 首藤公昭(1980年)「文節構造モデルによる日本語の機械処理に関する研究」福岡大学研究所報 No.45
- ^ Teramura, Hideo (2011). Nihongo no shintakusu to imi. dai 1 kan (dai 18 satsu [18. Druck] ed.). Tōkyō: Kuroshio Shuppan. ISBN 978-4-87424-002-1
- ^ “How to build kegome v2 on web?” (英語). github.com. 2021年12月22日閲覧。
- ^ “IBM Knowledge Center”. www.ibm.com. 2019年6月20日閲覧。
形態素解析
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/08 10:23 UTC 版)
中国語、日本語、タイ語といった言語は単語のわかち書きをしない。そのため、単語の区切りを特定するのにテキストの解析が必要となり、それは非常に複雑な作業となる。
※この「形態素解析」の解説は、「自然言語処理」の解説の一部です。
「形態素解析」を含む「自然言語処理」の記事については、「自然言語処理」の概要を参照ください。
形態素解析と同じ種類の言葉
- 形態素解析のページへのリンク