日本語処理における問題点
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/04 15:52 UTC 版)
「CJK互換漢字」の記事における「日本語処理における問題点」の解説
CJK互換漢字はその名前にもかかわらずCJK統合漢字と互換等価ではなく正準等価であり、互いに区別されることを期待してはならない。このため4種類の正規化のいずれを採用してもCJK統合漢字に分解(変換)されてしまい、日本の人名処理などにおいて要求されることのある一部の人名用漢字などの区別が、Unicodeのプレーンテキスト上で保証されるとは限らない。 一部にCJK互換漢字の等価性を正準等価から互換等価に変えるべきであるという主張があるが、UnicodeではJIS X 0213用の互換漢字の一部は新たに収録せず、既存のKS X 1001互換文字用の領域などに収録されていた文字を流用している。このため日本語だけの都合で等価性を変えることはできない。またUnicodeには正規化の安定性の原則があり、その意味でも等価性の変更は現実的ではない。 一方濁点・半濁点を合成済みの仮名文字(たとえば「が」)は、仮名文字に合成用濁点・半濁点を続けた文字の組み合わせ(たとえば「か」+「 ゙」)と同一視する需要がある。このため単純に正規化を行わなければ済む問題でもない。 アップルはこのジレンマを解決するため、CJK互換漢字を正規化から除外した新しい正規化形式の追加をUTC(Unicode Technical Committee, Unicode技術委員会)に提案したが、否決された。そこでアップルはCJK互換漢字を含む一部の文字が分解されない独自の正規化形式を定め、自社のオペレーティングシステムに導入している。 アドビは日本語の組版処理において必要とされる可能性がある字体の区別をCJK互換漢字に頼らずUnicodeのプレーンテキスト上で維持するために、Adobe-Japan1-6の異体字集合をUnicodeの漢字字形データベース (Ideographic Variation Database) に登録申請し、2007年12月14日に登録された(詳細は異体字セレクタを参照)。 2013年9月制定のUnicode6.3ではこれとは別に基本多言語面の異体字セレクタを使用するStandardized Variantsとして、互換漢字用の異体字セレクタが登録された。互換漢字ブロックおよびその補助集合にある統合漢字扱いする12字を除く1002文字全てを含んでいる。字形でなくKS X 1001の読みの違いによる重複収録やBig5の誤って重複収録されたものに対応する互換漢字も登録されている。
※この「日本語処理における問題点」の解説は、「CJK互換漢字」の解説の一部です。
「日本語処理における問題点」を含む「CJK互換漢字」の記事については、「CJK互換漢字」の概要を参照ください。
- 日本語処理における問題点のページへのリンク