日本語入力システム

索引トップ用語の索引ランキングカテゴリー

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2023/12/28 04:16 UTC 版)

概要

パソコンにおいて、英文の入力は一般のキーボードでタイプライター同様にタイプすれば入力可能であるが、日本語のように使用文字数が数千を超える言語の文章を入力する際には全ての文字に一つのキーを当てはめるキーボードは非現実的であるため、複数のキーの操作で一文字を入力するなどの仕組みが必要となる。

日本語の入力方法で現在主流なのは、読みとしてかなを何らかの形で入力しておいて、漢字・かな・英字などの変換候補から選択して入力するかな漢字変換である。これは、「JW-10」（東芝・1978年）によって実現された。日本語入力システムは、MS-DOS時代はもっぱらフロントエンドプロセッサとして実装されたため、日本語入力フロントエンドプロセッサ（日本語入力FEP、さらに略してFEP）などと呼ばれることが多かった。Windowsの普及後はインプットメソッドエディタ（IME）と呼ばれることが多くなった。

ワープロ・パソコンだけでなく、携帯電話やビデオレコーダー・ゲーム機といったデジタル家電、カーナビ、情報キオスク端末など日本語の入力を必要とする様々な機器に日本語入力システムが組み込まれている。

入力・変換方法

全文字配列: 使用する文字数だけキーを備え、直接入力するシステム。

文字盤をペンでタッチすると、文字コードがコンピューターに入力される単漢字入力装置。和文タイプライターに由来する入力装置、電算写植に見られる方式がある^[1]。

漢字直接入力: 漢字に特定のキーストロークを割り当て、かなを経ずに直接漢字を得ることができるもの。
- 多段シフト: 1つのキーに複数の文字が割り当てられ、対応するシフトキーを押しながら入力することで目的の文字を入力していく方式。漢字テレックスなどで利用された。
漢和辞典における漢字の引き方を元に漢字を検索していく方式。部首（部首変換）、総画数など。

かな漢字変換: 読みとしてかなを何らかの形で入力しておいて、漢字・かな・英字などの変換候補から選択することで漢字の文字を得る。
- かな入力: JIS配列、親指シフト、トグル入力、フリック入力などの配列のキーボードを用いて直接かな文字を得る。
- ローマ字入力: QWERTY配列のキーボードでローマ字を入力し、かな文字に変換する。
- 2タッチ入力: ポケベルでの入力方法。数字入力。
- 手書き入力: ポインティングデバイスや指の軌跡を文字として認識し、もっとも近い文字を入力する。
- 音声認識: マイクで入力された音を言葉として認識し、漢字かな交じりの文章を返す。

変換の単位としては、単漢字・熟語・文節・連文節・文章一括変換などがあるが、現在のIMEの多くはユーザーの好みにあわせてオールマイティに対応しているものが多い。

かな漢字変換の主な機能

入力

この際、大きく分けてローマ字でかなを入力する方式と直接かなを入力する方式の2パターンがある。ローマ字をかなに置き換える場合、ローマ字をかなに変換するのも日本語入力システムの機能のひとつである。

変換

ひらがなである程度まとまった文章の読みをかなで入力し（未変換文字列）、変換キーを押すことで漢字仮名交じり文に変換される。

IMEは文節の区切りを判別して文節ごとに漢字変換を行う。文節を自動判別することを形態素解析と呼び、多くのIMEはこの形態素解析を利用して変換を行う。文節ごとに分けられた単語は辞書を用いて変換される。辞書には単純な名詞や動詞のほか、慣用句など複数文節にわたる用例のデータベースを持ち、前後の文節を参照して適切な変換がなされる。一部のIMEには未変換文字列が溜まると自動的に逐次変換したり、句読点の入力で変換を行う機能がある。

変換された結果が適切な場合は、確定キーを押して変換後の文字列がアプリケーションに渡される。意図しない変換結果になった場合、ユーザーが文節ごとに適切な変換候補を選んだり、文節の区切りを修正したりできる。そういった作業をせずに「一発変換」できるのが理想的であり、変換精度の優劣はIMEの性能において決定的な要素の一つになっている。

辞書

各IMEはかな漢字変換用の語彙データベース（システム辞書）を内蔵している。それに加えて記号/特殊文字・英単語・顔文字・方言・インターネットスラングなど様々な語彙に対応したり、郵便番号と地名の相互変換・翻訳・計算など、変換システムを利用した便利な機能を持つ場合がある。

ユーザーが好みの単語・用例を登録できるユーザー辞書機能がある。学習機能が優れていたり、IMEが用意する辞書そのものが充実していれば登録作業は少なくて済む。また特定の不要な変換候補が頻繁に表示されて困るような場合、その語句が変換結果に現れないように登録する「抑制単語」という仕組みもある。

IME用の変換用語彙データベースを一般に変換辞書と言う。

学習

ユーザーの変換・確定結果を記憶し変換精度を上げる仕組み。学習が蓄積されることにより、IMEは自動的に各ユーザー個人に最適化されていく。誤った変換結果が保存されるものもあり、誤りが次回以降に再現される場合もある。そのため、ATOKなどでは変換履歴を直接編集して不要な学習のみを削除することができる。

学習が多く蓄積されると逆に変換精度が落ちたと感じたり、学習機能に異常をきたす場合があると主張されていたこともあったが、一般的には使用頻度が高い（と推測される）言葉が優先されるため、同様の悪影響は少なくなっている。

入力支援機能

変換の手間がかかるため入力予測などによって打鍵数を減らすことが試みられている。かな入力の量を減らすことができる入力予測は、キーボードに比べて入力が遅い携帯電話向けに発展した。その後（2000年代後半）、ATOKやGoogle 日本語入力などパソコン向けIMEにも取り入れられたが、Google 日本語入力の場合はGoogle検索のシステムを流用したものであるなど、携帯電話のそれとは仕組みが異なる場合もある。

紛らわしい同音異義語をユーザーが正しく選択するのを支援するため、一部のIMEには同音異義語の意味・用法を解説するサブウィンドウを表示する機能がある。

出典