三省堂 大辞林 |
IT用語辞典バイナリ |
機械翻訳
【英】mechanical translation system
機械翻訳とは、コンピュータを使って翻訳作業を自動化したり、支援したりするシステムのことである。
機械翻訳のプロセスには、構文解析、意味解析、訳文生成操作などがあり、訳文を生成するまでに必要な変換操作の複雑度により、ピボット方式とトランスファ方式がある。
ピボット方式には、特定の言語に依存しない記号表現によって、あらゆる言語に対応可能な柔軟性がある。また、トランスファ方式では、原文の表現をある程度保ちつつ、中間的な変換操作を介して、最終的な訳文を生成する。現在の機械翻訳の多くは、後者の方式を採用している。
なお、市販されている専用機やパソコン用翻訳ソフトによる翻訳結果には、語訳のぎこちなさや、不適正さがつきものなので、人間が読みやすいように手直しをする作業が不可欠となっている。
参照リンク
Tsujii Lab Enshu3 - (Tsujii Laboratory)
ウィキペディア |
機械翻訳
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2012/01/17 22:37 UTC 版)
| 言語学 |
|---|
| 理論言語学 |
| 歴史言語学 |
| 応用言語学 |
| 個別言語学 |
| 研究の手法 |
| 言語学者の一覧 Portal:言語学 |
機械翻訳(きかいほんやく)とは、ある自然言語を別の自然言語へ機械的に変換する技術をいう。機械翻訳の概念自体はコンピュータの存在以前より存在するため、機械翻訳と翻訳ソフトは同義ではないが、現在ではほとんど翻訳ソフトとして実装される。例として、英語の文章を入力するとそれを翻訳した日本語の文章を出力する英和翻訳ソフトウエアなどがある。自動翻訳ともいう。近年は統計、人工知能、コンピュータ処理能力、データベース、記憶容量の進歩により急速に成長している分野である。
尚、翻訳方法のもう一つとして、「人力翻訳(人の手による翻訳)」がある。
目次 |
歴史
アプローチ
現在広く使われている機械翻訳の原理は次のとおりである。 言語 X で書かれている文を言語 Y に翻訳する場合:
例として、英語から日本語への翻訳を考える。 以下のような原文が与えられたとしよう。
"I have a pen."
この文を解析して得られる構文木は次のようになる:
ここで、以下のような辞書を使って英語の単語を日本語の単語に置き換える:
| 英語 | 日本語 |
|---|---|
| I | 私 |
| have | 持っている |
| a | - (空白) |
| pen | ペン |
構文木は次のようになる:
(S (NP (pron 私)) (VP (verb 持っている) (NP (det -) (noun ペン))))
しかしまだ語順が正しくないし、助詞もない。 ここで構文木に対して以下のような規則を適用して変換をおこなう:
- "S → NP VP" というノードがあれば、それを "S → NP は VP" に変換せよ。
- "VP → verb NP" というノードがあれば、それを "VP → NP を verb" に変換せよ。
すると変換された木はこのようになっている:
(S (NP (pron 私)) は (VP (NP (det -) (noun ペン)) を (verb 持っている)))
ここから、以下のような翻訳文を生成できる:
"私はペンを持っている。"
これは非常に単純な例である。 実際には英語の have は複数の語義をもつので、語義の曖昧性解消をしなければ単純に「have → 持っている」という変換をすることはできない。 また、モダリティの考慮や、照応の解決、敬語の扱い、自然な言いまわしの文の生成など実用的な翻訳ソフトウエアをつくるためには多くのことを考慮に入れる必要がある。
統計翻訳
詳細は「統計翻訳」を参照
計算機の発達によって1990年代以降研究が盛んになっているのは統計的な手法を用いた機械翻訳である。 これは音声認識の分野で用いられていた雑音チャネルモデルを応用したもので、元言語(翻訳元の言語) f は目的言語(翻訳後の言語) e が雑音のある通信路を通る間に変化してしまったものであると捉え、翻訳とは元言語から目的言語への復号であると考える。 この時、復号誤りが最も小さくなる翻訳結果
は以下の式を満たすことによって得られる。
しかし、このままではモデル化が難しいため、ベイズの定理を用いて以下のように変形する。
よって
ここで P(e) をモデル化したものを言語モデル、P(f | e) をモデル化したものを翻訳モデルと呼び、言語モデルは言語としての確からしさを、翻訳モデルは翻訳の確からしさをモデル化していると言える。そして、これらのモデルから翻訳候補を生成し、最も確率の高い翻訳結果を探索する処理系をデコーダと呼ぶ。
翻訳モデルのみでは目的言語として正しくない文となってしまうため、言語モデルによって目的言語として正しくない文を取り除けると考えられる。また、言語モデルについての研究は音声認識などの分野において既に研究が行われており、その知見を生かすこともできる。
実際にはパラレルコーパスと呼ばれる文同士の対応がついた2言語間のコーパスを用いてこの確率を推定することになる。
問題
語義の多義性
常識
機械による翻訳の困難さのひとつは、それが文法や単語の意味の解析といった論理的処理だけでは解決しない点にもある。たとえば次の英語の文は、
Time flies like an arrow.
普通はこれを「時は矢のように飛び去る」(光陰矢のごとし)と解釈するが、これを「時間蠅は矢を好む」と訳することも可能で、文法的にも破綻がない。当然、普通は後者は間違いなのであるが、後者を捨て去る判断ができるためには、人には時が素早く過ぎると感じられることがあること、矢は速く飛ぶこと、時間蠅という生き物は存在しなさそうなこと、虫が矢を好むことなどありそうにないこと等の知識が必要である。極論すれば、正しい翻訳を行うためにはその文がかかわる世界そのものに関するあらゆる知識や感覚が必要になる。また、ありそうにない時間蠅も、たとえばルイス・キャロルなら存在させるかもしれず、問題はより複雑になる。
- ^ 成田一『パソコン翻訳の世界』
機械翻訳に関係した商品
- 【送料無料】 こうすれば使える機械翻訳 / 成田一 【単行本】HMV ローソンホットステーション R
- 【送料無料】 アナロジーによる機械翻訳 認知科学モノグラフ / 佐藤理史 【全集・双書】HMV ローソンホットステーション R
- 【送料無料】アナロジーによる機械翻訳楽天ブックス



