他の文字コードとの関係
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/08/10 23:05 UTC 版)
前節にGBK/1およびGBK/2として示された領域は、単にGB 2312-80を通常の方法で符号化したものである。GB 2312(より正確にはそのEUC-CNによる符号化)は、ISO/IEC 2022 でGRに呼び出された他のあらゆる94²文字集合と同様、A1–FE の範囲からバイトの対を取る。これは上図において右下の区画に相当する。しかし、GB 2312はAA–AFとF8–FE にある区には手を付けず、いかなるコードポイントも割り当てていない。 GBKはこの領域に拡張を追加した。この二者の違う部分は利用者定義領域によって埋められている。 より重要なこととして、GBKはバイトの範囲を拡張した。ISO/IEC 2022 のGR領域に持てる文字の数には94² = 8,836字の制限がある。図形文字用と制御文字用に厳格な範囲を与えるという ISO/IEC 2022 のモデルは放棄するが、下位バイトは1バイト文字であり上位バイトの対が文字を示すという機能を残すことにより、潜在的に128² = 16,384の符号位置を使えるようになった。GBKはその一部を採用し、範囲をA1–FE (バイトごとに94の選択肢がある)から、第1バイトは 81–FE (126 の選択肢)へ、第2バイトは 40–FE (191 の選択肢) へ拡張した。 マイクロソフトのコードページ936は通常GBKであると考えられている。GBKと同じ範囲のバイトを使い、比較してみても同じ割り当てがなされているように見える。コードページ936は、GBKに収録されている 2万1886 字のうち95字をUnicodeの私用領域に割り当てている。これらはGBKが制定された時点でUnicodeに収録されていなかった文字である。 GBKの後継であるGB 18030-2000は、第2バイトとして使用可能な残りの範囲を使って、さらに使用可能なコードポイントの数を拡張しているが、GBKを部分集合として残している。
※この「他の文字コードとの関係」の解説は、「GBK」の解説の一部です。
「他の文字コードとの関係」を含む「GBK」の記事については、「GBK」の概要を参照ください。
- 他の文字コードとの関係のページへのリンク