とうけいてき‐きかいほんやく【統計的機械翻訳】
統計的機械翻訳
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/07 08:19 UTC 版)
詳細は「en:Statistical machine translation」を参照 計算機の発達によって1990年代以降研究が盛んになっているのは、統計的な手法を用いた機械翻訳である。 ルールベースの翻訳では、ルールを作成した人間が想定しなかった入力文には対応できない問題がある。また、翻訳ルールの記述や見直しには膨大な手間がかかるため、効率が悪い。そこで統計的機械翻訳では、パラレルコーパスと呼ばれる複数の言語で文同士の対応が付いたコーパスを利用し、翻訳のルールを自動的に獲得し、各ルールの重要度を統計的に推定する。パラレルコーパスには自前のデータを利用することもあるが、最近では各言語に翻訳された特許や、Webページのクローリングデータなどを利用することもある。 統計的機械翻訳は、従来音声認識の分野で用いられていた雑音チャネルモデルを応用したもので、原言語(翻訳元の言語) f {\displaystyle f} は目的言語(翻訳後の言語) e {\displaystyle e} が雑音のある通信路を通る間に変化してしまったものであると捉え、翻訳作業を元言語から目的言語への復号であると考える。雑音チャネルモデルでは、復号誤りが最も小さくなる翻訳結果 e ^ {\displaystyle {\hat {e}}} は以下の式を満たす。 e ^ = a r g m a x e P ( e | f ) = a r g m a x e P ( e ) P ( f | e ) P ( f ) = a r g m a x e P ( e ) P ( f | e ) {\displaystyle {\begin{aligned}{\hat {e}}&=\operatorname {arg\,max} _{e}P(e|f)\\&=\operatorname {arg\,max} _{e}{\frac {P(e)P(f|e)}{P(f)}}\\&=\operatorname {arg\,max} _{e}P(e)P(f|e)\end{aligned}}} 2番目の変形はベイズの定理による。ここで P ( e ) {\displaystyle P(e)} をモデル化したものを言語モデル、 P ( f | e ) {\displaystyle P(f|e)} をモデル化したものを翻訳モデルと呼び、言語モデルは翻訳結果の言語としての流暢さを、翻訳モデルは翻訳の確からしさをモデル化していると言える。翻訳モデルのみでは目的言語として正しくない文となってしまうため、言語モデルによって目的言語として正しくない文を取り除けると考えられる。また、言語モデルについての研究は音声認識などの分野において既に研究が行われており、その知見を生かすこともできる。 統計的機械翻訳の処理系はこれらのモデルの組み合わせが高い値を与える翻訳結果を探索することになる。このような処理系は暗号理論からの類推でデコーダ(復号器)と呼ばれる。 2000年代から盛んに研究されている句に基づく統計的機械翻訳を始め、近年では直接雑音チャネルモデルを用いるのではなく、最大エントロピー法(対数線形モデル)に基づく下記の最適化問題として考えることが多い。 a r g m a x e P ( e | f ) = a r g m a x e exp ( w T h ( e , ϕ , f ) ) ∑ e ′ , ϕ ′ exp ( w T h ( e ′ , ϕ ′ , f ) ) {\displaystyle \operatorname {arg\,max} _{e}P(e|f)=\operatorname {arg\,max} _{e}{\frac {\exp({\boldsymbol {w}}^{T}{\boldsymbol {h}}(e,{\boldsymbol {\phi }},f))}{\sum _{e',{\boldsymbol {\phi }}'}\exp({\boldsymbol {w}}^{T}{\boldsymbol {h}}(e',{\boldsymbol {\phi }}',f))}}} 統計翻訳においても、翻訳の精度を高めるために、人手により追加されたルールを利用する場合がある。また、近年ではパラレルでないコーパスから翻訳ルールを獲得する研究も為されている。
※この「統計的機械翻訳」の解説は、「機械翻訳」の解説の一部です。
「統計的機械翻訳」を含む「機械翻訳」の記事については、「機械翻訳」の概要を参照ください。
- 統計的機械翻訳のページへのリンク