Unicode文字符号化モデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/26 09:09 UTC 版)
「Unicode」の記事における「Unicode文字符号化モデル」の解説
文字コードは、Unicode文字符号化モデルによると以下の4段階に分けられる。 抽象文字集合(ACR):符号化の対象とする順序のない文字の集合。 符号化文字集合(CCS):抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置(コードポイント)といい、抽象文字は対応後、符号化文字となる。抽象文字は複数の符号化文字に対応されることもある。 文字符号化形式(CEF):符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。 文字符号化方式(CES):符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係する。 その後バイト列を、gzipなどで圧縮したり、7ビット伝送路に通すためBase64、Quoted-printableなどで変換することがあるが、これらは文字コードの範囲外である。
※この「Unicode文字符号化モデル」の解説は、「Unicode」の解説の一部です。
「Unicode文字符号化モデル」を含む「Unicode」の記事については、「Unicode」の概要を参照ください。
Unicode文字符号化モデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/11 12:38 UTC 版)
「文字コード」の記事における「Unicode文字符号化モデル」の解説
Unicode文字符号化モデルではさらに進んで、文字コードは以下の4段階に分けられる。 抽象文字集合 (ACR) 符号化の対象とする順序のない文字の集合。ただし一般的な「文字」とは異なる場合があり、書記素と混同するべきではない。 符号化文字集合(CCS) 抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置といい、抽象文字は対応後、符号化文字となる。抽象文字は複数の符号化文字に対応されることもある(異体字セレクタ)。Unicodeでは代用符号位置・非文字符号位置・未割り当て符号位置があるため、すべての符号位置が抽象文字と対応しているわけではない。 文字符号化形式(CEF) 符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式によってはひとつの符号化文字が複数の符号単位になる場合がある(サロゲートペア)。これを含め、文字により異なる長さの符号単位列となる文字符号化形式を可変幅、どの文字を変換しても同じ長さの符号単位列になるものを固定幅という。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。 文字符号化方式(CES) 符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係してくる。 その後、バイト列をgzipなどで圧縮したり、7ビット伝送路に通すためBase64、uuencode、BinHex、Quoted-printableなどで変換することがあるがこれらは文字コードの範囲外である。
※この「Unicode文字符号化モデル」の解説は、「文字コード」の解説の一部です。
「Unicode文字符号化モデル」を含む「文字コード」の記事については、「文字コード」の概要を参照ください。
- Unicode文字符号化モデルのページへのリンク