CJK互換漢字の正規化
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/19 08:57 UTC 版)
「JIS X 0213」の記事における「CJK互換漢字の正規化」の解説
「CJK互換漢字#日本語処理における問題点」も参照 JIS X 0213とUnicodeでは包摂規準が異なる。そこで JIS X 0213 での人名用漢字の字形(字体)を区別するために、一部の文字をUnicodeではCJK互換漢字として収録している。CJK互換漢字は、Unicode正規化によりCJK統合漢字に分解(変換)される。この対応として互換漢字用の異体字セレクタ(SVS)を使用して変換前の情報を維持する必要がある。また、CJK統合漢字と字形選択子(英語版)の組み合わせを1文字として処理する必要もある。SVS対応フォントとしてはIPAexフォント、モリサワのAP版書体などがある。例えば、KS X 1001由来のCJK互換漢字が誤って入力された場合に、入力エラーとせずUnicode正規化処理で対処する方式(CJK統合漢字のみに変換)を採用すると、CJK互換漢字に収録されている人名用漢字が入力された場合に意図せず変換されてしまう。 例えば、神(U+FA19)をUnicode正規化すると神(U+795E)となる。これをSVSを使って 神︀(U+795E U+FE00)とすることで元のCJK互換漢字(の情報、字形)を維持する(SVSの数値文字参照に対応しない閲覧環境では表示が異なることに注意が必要)。
※この「CJK互換漢字の正規化」の解説は、「JIS X 0213」の解説の一部です。
「CJK互換漢字の正規化」を含む「JIS X 0213」の記事については、「JIS X 0213」の概要を参照ください。
- CJK互換漢字の正規化のページへのリンク