サロゲート‐ペア【surrogate pair】
サロゲートペア
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/12 01:59 UTC 版)
サロゲートペア(代用対)は16ビットUnicodeの領域1024文字分を2つ使い(前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF)、各々1個ずつからなるペアで1024 × 1024 = 1,048,576文字を表す。これはちょうど16面分であり、第1面〜第16面(U+010000 〜 U+10FFFF)の文字をこれで表すこととした。加えて第0面(基本多言語面)も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字分の空間が確保されたことになる。Unicodeの符号空間が10FFFF16まで(サロゲート領域を除いて111万2064文字)とされているのはUTF-16が表現可能な限界だからである。 サロゲートはUnicodeの符号位置の U+010000 〜 U+10FFFF の範囲を16ビットユニットのペア(2つ)で表現する集合で、最初の16ビットユニットを前半サロゲートもしくはハイサロゲート、二番目を後半サロゲートもしくはローサロゲートと称する。ハイサロゲートは U+D800 〜 U+DBFF の範囲、ローサロゲートは U+DC00 〜 U+DFFF の範囲である。 サロゲートペアはUTF-16でのみ使われ、UTF-8、UTF-32ではすべての符号位置を符号化できるためこのような特別な処理は必要ない。
※この「サロゲートペア」の解説は、「Unicode」の解説の一部です。
「サロゲートペア」を含む「Unicode」の記事については、「Unicode」の概要を参照ください。
サロゲートペア
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/19 08:57 UTC 版)
「JIS X 0213」の記事における「サロゲートペア」の解説
漢字の内CJK互換漢字領域に追加されたものを除くと基本多言語面 (BMP) 外のCJK統合漢字 拡張B領域に追加されることとなった。該当する文字は初版に302字、2004年追加分に1字の計303字ある。これらを使用する場合は、UTF-8では4バイト長コードに、UTF-16ではサロゲートペア(代用対)に対応する必要がある。UTF-32に対応している場合はそのまま使用可能である。例えば1面14区2点の点の付いた「.mw-parser-output .jis2004font{font-family:"源ノ角ゴシック JP Normal","源ノ角ゴシック JP","Source Han Sans Normal","Source Han Sans","NotoSansJP-DemiLight","Noto Sans CJK JP DemiLight","ヒラギノ角ゴ ProN W3","ヒラギノ角ゴ ProN","Hiragino Kaku Gothic ProN","メイリオ",Meiryo,"新ゴ Pr6N R","A-OTF 新ゴ Pr6N R","小塚ゴシック Pr6N M","IPAexゴシック","Takaoゴシック","XANO明朝U32","XANO明朝","和田研中丸ゴシック2004絵文字","和田研中丸ゴシック2004ARIB","和田研中丸ゴシック2004P4","和田研細丸ゴシック2004絵文字","和田研細丸ゴシック2004ARIB","和田研細丸ゴシック2004P4","和田研細丸ゴシックProN",YOzFont04,"IPA Pゴシック","Yu Gothic UI","Meiryo UI","MS Pゴシック";font-feature-settings:"jp04"1}𠀋」はU+2000Bに割り当てられた。
※この「サロゲートペア」の解説は、「JIS X 0213」の解説の一部です。
「サロゲートペア」を含む「JIS X 0213」の記事については、「JIS X 0213」の概要を参照ください。
- サロゲートペアのページへのリンク