文字符号化形式(CEF)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/12 15:23 UTC 版)
「文字コード」の記事における「文字符号化形式(CEF)」の解説
符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式によってはひとつの符号化文字が複数の符号単位になる場合がある(サロゲートペア)。これを含め、文字により異なる長さの符号単位列となる文字符号化形式を可変幅、どの文字を変換しても同じ長さの符号単位列になるものを固定幅という。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。
※この「文字符号化形式(CEF)」の解説は、「文字コード」の解説の一部です。
「文字符号化形式(CEF)」を含む「文字コード」の記事については、「文字コード」の概要を参照ください。
文字符号化形式
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/26 09:09 UTC 版)
Unicodeでは文字符号化形式としてUTF-8、UTF-16、UTF-32の3種類が定められている。 UTF-8は1符号化文字を1〜4符号単位で表す可変幅文字符号化形式で、1符号単位は8ビットである。 UTF-16は1符号化文字を1〜2符号単位で表す可変幅文字符号化形式で、1符号単位は16ビットである。基本多言語面の文字を符号単位一つで、その他の文字をサロゲートペア(代用対)という仕組みを使い符号単位二つで表現する。 UTF-32は1符号化文字を1符号単位で表す固定幅文字符号化形式で、1符号単位は32ビットである。ただし、Unicodeの符号空間がU+10FFFFまでであるため、実際に使われるのは21ビットまでである。 各文字符号化形式の符号化例00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F UTF-8A Ω 語 😊 41 CE A9 E8 AA 9E F0 9F 98 8A UTF-16A Ω 語 😊 0041 03A9 8A9E D83D DE0A UTF-32A Ω 語 😊 00000041 000003A9 00008A9E 0001F60A
※この「文字符号化形式」の解説は、「Unicode」の解説の一部です。
「文字符号化形式」を含む「Unicode」の記事については、「Unicode」の概要を参照ください。
- 文字符号化形式のページへのリンク