CJK統合漢字

索引トップ用語の索引ランキングカテゴリー

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2024/01/25 03:18 UTC 版)

歴史

1978年、日本によって世界で最初のISO 2022に基づく漢字コード規格JIS C 6226が制定された。1980年代には中国・台湾・韓国で次々と各国・地域用の漢字コード規格が制定されていったが、これらは互いに関連性がなく、混在させて使用するにはISO 2022のエスケープ・シーケンスで漢字コード表を切り替えるしかなかった。

1980年、国立国会図書館の高橋徳太郎が主に書誌学の観点から、東アジアの統一漢字コードの必要性を指摘した。同年、台湾で制定された3バイト漢字コード規格CCCIIは、恐らく日本・中国・台湾の漢字を統一的に扱うことを目的とした最初の規格の一つである。この規格は東アジアの文献情報用にアメリカでもANSI Z 39.64として採用された。

1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し^[要出典]、1989年、各国の漢字コードを統合した漢字集合HCC^[3]のアイデアを提案した。

1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。

一方、1987年頃から、ゼロックスのジョー・ベッカー^[4]とリー・コリンズ^[5]は世界中の文字を統一して扱える文字コードUnicodeを開発していた。1989年に発表されたUnicodeの概要では、その基本ポリシーとして、16ビットで全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することとしていた。1990年にはこの方針に基づいた最終ドラフトが完成、それに賛同する企業によって、翌1991年1月にはUnicodeコンソーシアムが設立された。このドラフトでは、日本・中国・韓国の漢字の類似する漢字を統合することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。

1991年、ISO/IEC 10646の初版ドラフトはUnicodeとの一本化を求める各国により否決され、また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646とUnicode用の統合漢字コード表を作成した。1991年末、この文字表はUnified Repertoire and Ordering (URO) として完成した。

1992年、UROを取り込んだISO 10646の二版ドラフトが完成し、賛成多数で国際規格化された。ただしUROには若干の間違いが発見されており、それらの修正が行われている。

1993年5月、U+4E00〜U+9FFFのブロックに最初のCJK統合漢字、20,902字が割り当てられたISO/IEC 10646が正式に制定され、その1カ月後には内容を同じくするUnicode 1.1が制定された。

1999年、Unicode 3.0で、ISO/IEC 10646の修正案17において、CJK統合漢字拡張Aとして、U+3400〜U+4DFFのブロックに6,582字が追加された^[6]。当初は6,584文字の予定であったが、そのうち2文字が互換漢字領域にあったため、互換領域の2文字を拡張Aとして扱うことにして、この2文字は追加集合からは削除された^[7]。同時期に発行された修正案13において、URO漢字のうち中国に原規格がない文字に対して、GB 16500に基づく新規に原規格の割り当てが行われ^[8]、ベトナムの文字欄が追加されCTJKVの5欄併記となった^[9]。

2001年、Unicode 3.1で、ISO/IEC 10646-2として、CJK統合漢字拡張Bに42,711字が、U+20000〜U+2A6FFのブロックに追加された。しかしながら、非常に膨大な漢字集合を極めて短期間のうちに定めたため、漢字の重複や字形の誤りが多数発生した。

2005年、Unicode 4.1で、ISO/IEC 10646:2003修正案1として、基本多言語面 (BMP) のU+9FA6〜U+9FBBに22文字の漢字が追加されて20,924文字になった。

2008年、Unicode 5.1で、基本多言語面のU+9FBC〜U+9FC3に8文字が追加されて20,932文字になった。

2009年、Unicode 5.2で、拡張Cの4,149文字がU+2A700〜U+2B734に、基本多言語面でもU+9FC4〜U+9FCBに8文字が追加されて20,940文字になった。

2010年、Unicode 6.0で、拡張Dの222文字がU+2B740〜U+2B81Fに追加された。

2012年、Unicode 6.1で、基本多言語面のU+9FCCに1文字が追加されて20,941文字になった。

2015年、Unicode 8.0で、拡張Eの5,762文字がU+2B820〜U+2CEAFに追加された。基本多言語面でもU+9FCD〜U+9FD5に9文字が追加されて20,950文字になった。

2017年、Unicode 10.0で、拡張Fの7,473文字がU+2CEB0〜U+2EBE0に追加された。基本多言語面でもU+9FD6〜U+9FEAに21文字が追加されて20,971文字になった。

2018年、Unicode 11.0で、基本多言語面のU+9FEB〜U+9FEFに5文字が追加されて20,976文字になった。

2020年、Unicode 13.0で、拡張Gの4,939文字がU+30000〜U+3134Aに追加された。基本多言語面のU+9FF0〜U+9FFCに13文字が追加されて20,989文字になった。拡張AのU+4DB6〜U+4DBFに10文字が追加されて6,592文字になった。拡張BのU+2A6D7〜U+2A6DDに7文字が追加されて42,718文字になった

2021年、Unicode 14.0で、基本多言語面のU+9FFD〜U+9FFFに3文字が追加されて20,992文字になった。拡張BのU+2A6DE〜U+2A6DFに2文字が追加されて42,720文字になった。拡張CのU+2A735〜U+2A738に4文字が追加されて4,153文字になった。

2022年、Unicode 15.0で、拡張Hの4,193文字がU+31350〜U+323AF, 拡張CのU+2A739に1文字が追加されて4,194文字になった。

2023年、Unicode 15.1で、拡張Iの622文字がU+2EBF0〜U+2EE5Fが追加されて622文字になった。

Unicode 15.1 段階での文字数は以下の通りである（互換漢字ブロックにあり、統合漢字として扱われる12字を加えると97,680文字になる）。

範囲	名称	字数
U+4E00 - U+9FFF	CJK Unified Ideographs	20,992
U+3400 - U+4DBF	CJK Unified Ideographs Extension A	6,592
U+20000 - U+2A6DF	CJK Unified Ideographs Extension B	42,720
U+2A700 - U+2B738	CJK Unified Ideographs Extension C	4,154
U+2B740 - U+2B81D	CJK Unified Ideographs Extension D	222
U+2B820 - U+2CEA1	CJK Unified Ideographs Extension E	5,762
U+2CEB0 - U+2EBE0	CJK Unified Ideographs Extension F	7,473
U+30000 - U+3134A	CJK Unified Ideographs Extension G	4,939
U+31350 - U+323AF	CJK Unified Ideographs Extension H	4,192
U+2EBF0 - U+2EE5F	CJK Unified Ideographs Extension I	622
合計		97,668