CJK互換漢字との関係
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/08/26 10:16 UTC 版)
「異体字セレクタ」の記事における「CJK互換漢字との関係」の解説
JIS X 0213やCNS 11643などの各国の文字コードでは区別されているが、Unicodeでは統合されている文字を区別するため、UnicodeではこれまでCJK互換漢字を使ってきた。しかし技術的な制約により、漢字の異体字セレクタはCJK統合漢字 (正確にはUnified_Ideographプロパティを持つ文字) にしか付けることができない。これはUnicode正規化に対する安定性の問題 (CJK互換漢字#日本語処理における問題点を参照) を改善するが、同じ字形を意図していても異体字セレクタに対応した実装と対応していない実装との間で異なる符号化表現が採用され、混乱を招く可能性も指摘されている。 また、2006年1月にIVDへの字形コレクションの登録手続きが制定され、登録が可能になった後にもARIB外字や汎用電子情報交換環境整備プログラムで収集された漢字の一部をCJK互換漢字として収録することが要望されるなど、足並みは必ずしもそろっていなかった。 2013年9月30日制定のUnicode 6.3では、CJK互換漢字がUnicode正規化でCJK統合漢字に置き換えられ、字形等の情報を失ってしまう問題を解消するために、CJK互換漢字と等価なCJK統合漢字と異体字セレクタの組合せがIVDとは別にStandardized Variantsに登録され、SVSにより利用できるようになった。IVSとは異なり基本多言語面にあるU+FE00 (VS1) ~U+FE02 (VS3) を使う。IVDにある字形と同じものでも登録されている。CJK互換漢字ブロックおよびその補助集合のうち、CJK統合漢字として扱うものを除いた1,002字全てが登録された。例えば、「侮」の康煕別掲の字体でありCJK互換漢字であるU+FA30の「侮」は、U+4FAEとU+FE00 (VS1) の組合せで登録された。また、字体の違いでなく韓国KS X 1001の読みの違いで分離されているものや台湾Big5の誤って重複収録されたものに対応するCJK互換漢字にも異体字セレクタが与えられている。例えば、U+F90Aの「금」(Geum、クム) と読む「金」には、U+91D1 (KS X 1001では「김」(Gim、キム) と読む「金」に対応) と字体が全く同じであるが、これにU+FE00 (VS1) を付け加える組合せが与えられた。
※この「CJK互換漢字との関係」の解説は、「異体字セレクタ」の解説の一部です。
「CJK互換漢字との関係」を含む「異体字セレクタ」の記事については、「異体字セレクタ」の概要を参照ください。
- CJK互換漢字との関係のページへのリンク