かなかんじ‐へんかん〔‐ヘンクワン〕【仮名漢字変換】
かな漢字変換
別名:かな漢字変換プログラム,仮名漢字変換,日本語入力ソフトウェア,日本語入力ソフト
【英】Kana-Kanji translation, Kana-Kanji processor, Japanese input software
かな漢字変換とは、コンピュータに漢字を入力する日本語入力法の一つである。
コンピュータへのデータ入力補助を行うFEP(Front End Processor)の一種で、入力した文字列を形態素解析で分解し、読みと漢字をマッピングテーブルで照らし合わせる方法で実現することが多い。
この入力法をソフトウェアとして実装したものが日本語入力ソフトウェアであり、商用版としてMicrosoftのMS-IME、ジャストシステムのATOKが広く知られている。
日本語入力システム
![]() | この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。(2019年12月) |
日本語入力システム(にほんごにゅうりょくシステム)は、日本語処理システムのひとつ。インプットメソッドのうち、特にパソコンやワープロ、携帯電話などに日本語を入力するためのものを指す。キー入力をソフトウェアで制御して実現するものが一般的であるが、ポインティングデバイスを利用して手書き入力した漢字混じりの文を変換するものも存在する。特にキーボードでかなを入力した後に漢字交じり文へ変換するものをかな漢字変換と呼ぶ。
概要
パソコンにおいて、英文の入力は一般のキーボードでタイプライター同様にタイプすれば入力可能であるが、日本語のように使用文字数が数千を超える言語の文章を入力する際には全ての文字に一つのキーを当てはめるキーボードは非現実的であるため、複数のキーの操作で一文字を入力するなどの仕組みが必要となる。
日本語の入力方法で現在主流なのは、読みとしてかなを何らかの形で入力しておいて、漢字・かな・英字などの変換候補から選択して入力するかな漢字変換である。これは、「JW-10」(東芝・1978年)によって実現された。日本語入力システムは、MS-DOS時代はもっぱらフロントエンドプロセッサとして実装されたため、日本語入力フロントエンドプロセッサ(日本語入力FEP、さらに略してFEP)などと呼ばれることが多かった。Windowsの普及後はインプット メソッド エディタ(IME)と呼ばれることが多くなった。
ワープロ・パソコンだけでなく、携帯電話やビデオレコーダー・ゲーム機といったデジタル家電、カーナビ、情報キオスク端末など日本語の入力を必要とする様々な機器に日本語入力システムが組み込まれている。
入力・変換方法
- 全文字配列 - 使用する文字数だけキーを備え、直接入力するシステム。
- 漢字直接入力 - 漢字に特定のキーストロークを割り当て、かなを経ずに直接漢字を得ることができるもの。
- 漢和辞典における漢字の引き方を元に漢字を検索していく方式。部首(部首変換)、総画数など。
- かな漢字変換 - 読みとしてかなを何らかの形で入力しておいて、漢字・かな・英字などの変換候補から選択することで漢字の文字を得る。
変換の単位としては、単漢字・熟語・文節・連文節・文章一括変換などがあるが、現在のIMEの多くはユーザーの好みにあわせてオールマイティに対応しているものが多い。
かな漢字変換の主な機能
入力
この際、大きく分けてローマ字でかなを入力する方式と直接かなを入力する方式の2パターンがある。ローマ字をかなに置き換える場合、ローマ字をかなに変換するのも日本語入力システムの機能のひとつである。
変換
ひらがなである程度まとまった文章の読みをかなで入力し(未変換文字列)、変換キーを押すことで漢字仮名交じり文に変換される。
IMEは文節の区切りを判別して文節ごとに漢字変換を行う。文節を自動判別することを形態素解析と呼び、多くのIMEはこの形態素解析を利用して変換を行う。文節ごとに分けられた単語は辞書を用いて変換される。辞書には単純な名詞や動詞のほか、慣用句など複数文節にわたる用例のデータベースを持ち、前後の文節を参照して適切な変換がなされる。一部のIMEには未変換文字列が溜まると自動的に逐次変換したり、句読点の入力で変換を行う機能がある。
変換された結果が適切な場合は、確定キーを押して変換後の文字列がアプリケーションに渡される。意図しない変換結果になった場合、ユーザーが文節ごとに適切な変換候補を選んだり、文節の区切りを修正したりできる。そういった作業をせずに「一発変換」できるのが理想的であり、変換精度の優劣はIMEの性能において決定的な要素の一つになっている。
辞書
各IMEはかな漢字変換用の語彙データベース(システム辞書)を内蔵している。それに加えて記号/特殊文字・英単語・顔文字・方言・インターネットスラングなど様々な語彙に対応したり、郵便番号と地名の相互変換・翻訳・計算など、変換システムを利用した便利な機能を持つ場合がある。
ユーザーが好みの単語・用例を登録できるユーザー辞書機能がある。学習機能が優れていたり、IMEが用意する辞書そのものが充実していれば登録作業は少なくて済む。また特定の不要な変換候補が頻繁に表示されて困るような場合、その語句が変換結果に現れないように登録する「抑制単語」という仕組みもある。
IME用の変換用語彙データベースを一般に変換辞書と言う。
学習
ユーザーの変換・確定結果を記憶し変換精度を上げる仕組み。学習が蓄積されることにより、IMEは自動的に各ユーザー個人に最適化されていく。誤った変換結果が保存されるものもあり、誤りが次回以降に再現される場合もある。そのため、ATOKなどでは変換履歴を直接編集して不要な学習のみを削除することができる。
学習が多く蓄積されると逆に変換精度が落ちたと感じたり、学習機能に異常をきたす場合があると主張されていたこともあったが、一般的には使用頻度が高い(と推測される)言葉が優先されるため、同様の悪影響は少なくなっている。
入力支援機能
変換の手間がかかるため入力予測などによって打鍵数を減らすことが試みられている。かな入力の量を減らすことができる入力予測は、キーボードに比べて入力が遅い携帯電話向けに発展した。その後(2000年代後半)、ATOKやGoogle 日本語入力などパソコン向けIMEにも取り入れられたが、Google 日本語入力の場合はGoogle検索のシステムを流用したものであるなど、携帯電話のそれとは仕組みが異なる場合もある。
紛らわしい同音異義語をユーザーが正しく選択するのを支援するため、一部のIMEには同音異義語の意味・用法を解説するサブウィンドウを表示する機能がある。
その他
- 日本のインターネットスラングの中には、IMEの誤変換から生まれて定着したものが数多くある。
- 歴史的仮名遣い(旧仮名遣い)による入出力を行う変換辞書も存在する。
脚注
- ^ 渡辺定久「特集:漢字情報の処理_漢字入力装置の操作性」『オペレーションズ・リサーチ』Vol.23_06、日本オペレーションズ・リサーチ学会、1978年、p.344 - 345。
関連項目
外部リンク
- 日本語入力プログラムについて考える
- Ajax IME: Web-based Japanese Input Method - 海外などで日本語入力ができる。
- InputKingオンライン入力システム - 日本語入力に加えて、世界各国の言語にも対応。
かな漢字変換
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/14 02:36 UTC 版)
JW-10のかな漢字変換部は2層になっている。基本的には、ごくオーソドックスな現代日本語文法のベースである学校文法(橋本文法)が規定しているような、「自立語 + 付属語の0個以上の繰返し」という文節のつらなったものとして入力を扱おうとするわけであるが(入力途中では文の全体があるわけではないから、通常の文から構文木を構築するいわゆる構文解析は、かな漢字変換では不可能である)、それだけでは「第32回情報処理学会全国大会で」のような、特に固有名詞の場合に深刻であるが、「語」として辞書に登録するのは非現実的な自立語が現実の文章には続出する。そこで、その下の第1層と考えられる部分として、そのような語(言語学では複合語と呼んでいる)の合成を扱うことで実用的な、かな漢字変換を実現した。以上の手法の基本的な部分はその後の多くのかな漢字変換システムが踏襲したところであるが、JW-10の第1層では「局所意味処理」と呼んでいる手法を考案・実装し精度を上げている。 漢字変換における最大の課題は同音異義語の選択であった。この解決には文章の前後関係を利用して変換文字を決定する方法と、使用頻度を元に判定する方法がとられた。使用頻度の判定には、全体の使用頻度と、最も直前に使用された漢字の頻度分布の2種類を使用した。森は「この着想が得られなかったら日本語ワードプロセッサは実用にならなかったかも知れない」とまで後に語っている。 かな漢字変換で使用する辞書には、当時にしては大容量の10メガバイトのハードディスクを搭載した。最大で8万語まで単語の登録が可能であり、頻度情報は使用者別に管理を行っていた。辞書に登録されていた普通単語は 5万4千語、固有名詞が8千語であった。またこの標準登録語以外にも、ユーザが自分で単語を登録することができた。 JW-10の変換方法は、現在[いつ?]のような文章から文節を自動で判別する方法ではなく、文節を手動で入力する方法である。JW-10 のかな漢字変換には2種類の方式があり、一つは「文節指定入力」もう一つは「漢字指定入力」である。このモードはキーボードの右上にあるトグルスイッチで切り替えることが可能である。 文節指定入力は、各文節ごとにユーザーが文節ボタンを押すことで、日本語の文節を決定する方法である。一方漢字指定入力は、漢字変換したい部分の前に漢字キーを押し、漢字変換しない部分の直前にかなキーを押して変換箇所を選択する方法である。例として「今日は良い天気です」という文章を変換する場合 (文節指定入力): キョウハ [文節] ヨイ [文節] テンキデス (漢字指定入力): [漢字] キョウ [かな] ハ [漢字] ヨ [かな] イ [漢字] テンキ [かな] デス というふうに入力する。 変換方式にも2種類あり、文節入力あるいは漢字入力ごとに逐次変換する「逐次選択」モードと、文章を打ち終わってから一気に変換する「一括選択」モードがあった。また同音異義語等で機械では確定できないような場合は、その箇所が点滅し、正しい文字を選択・決定するという方法がとられた。
※この「かな漢字変換」の解説は、「JW-10」の解説の一部です。
「かな漢字変換」を含む「JW-10」の記事については、「JW-10」の概要を参照ください。
「かな漢字変換」の例文・使い方・用例・文例
固有名詞の分類
- かな漢字変換のページへのリンク