文字符号化方式(CES)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/12 15:23 UTC 版)
「文字コード」の記事における「文字符号化方式(CES)」の解説
※この「文字符号化方式(CES)」の解説は、「文字コード」の解説の一部です。
「文字符号化方式(CES)」を含む「文字コード」の記事については、「文字コード」の概要を参照ください。
文字符号化方式(CES)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/12 15:23 UTC 版)
「文字コード」の記事における「文字符号化方式(CES)」の解説
符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係してくる。
※この「文字符号化方式(CES)」の解説は、「文字コード」の解説の一部です。
「文字符号化方式(CES)」を含む「文字コード」の記事については、「文字コード」の概要を参照ください。
文字符号化方式
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/27 04:10 UTC 版)
「ISO/IEC 10646」の記事における「文字符号化方式」の解説
Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対し、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する。 UTF-1 初期に提案されていた、8ビットコードによる方式。ほとんど利用されることなくUTF-8にとって代わられた。 UCS-2 2オクテット固定のUCS (Universal Coded-Character Set) である。BMP(基本多言語面)以外の文字を使うことはできず、すべての文字を符号化できるUTF-16にとって代わられた。2011年の改訂ではdeprecated(廃止予定)とされた。 UTF-8 UnicodeのUTF-8と同じ。 UTF-16 UnicodeのUTF-16と同じ。 UTF-32 (UCS-4) UnicodeのUTF-32と同じ。
※この「文字符号化方式」の解説は、「ISO/IEC 10646」の解説の一部です。
「文字符号化方式」を含む「ISO/IEC 10646」の記事については、「ISO/IEC 10646」の概要を参照ください。
文字符号化方式
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/26 09:09 UTC 版)
文字符号化形式(CEF)文字符号化方式(CES)UTF-8 UTF-8 UTF-16 UTF-16 UTF-16BE UTF-16LE UTF-32 UTF-32 UTF-32BE UTF-32LE Unicodeでは文字符号化方式としてUTF-8、UTF-16、UTF-16BE、UTF-16LE、UTF-32、UTF-32BE、UTF-32LEの7種類が定められている。それぞれの符号化形式に対応する符号化方式は表の通り。 文字符号化形式との違いは、文字符号化形式がプログラム内部で文字を扱う場合に符号なし整数として文字を表現する方法なのに対し、文字符号化方式は入出力時にバイト列として表現する方法である。UTF-8は符号単位が8ビットであるため区別する意味はない。 文字符号化方式(CES)エンディアンBOMの付与UTF-8 N/A 可 UTF-16 ビッグ/リトル 可 UTF-16BE ビッグエンディアン 不可 UTF-16LE リトルエンディアン 不可 UTF-32 ビッグ/リトル 可 UTF-32BE ビッグエンディアン 不可 UTF-32LE リトルエンディアン 不可 UTF-8 詳細は「UTF-8」を参照 可変長(1-4バイト)の8ビット符号単位で表現する文字符号化方式。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化方式やUTF-32符号化方式との変換・逆変換に際して乗除算などの高負荷処理が必要ない、などの特長を持ち、インターネットではもっとも一般的に利用されている。 なお、UTF-8はもともと8ビットを符号単位とするためバイト順マーク(BOM;後述)は必要ないが、UTF-8であることが識別できるよう、データストリームの先頭に EF BB BF(U+FEFFのUTF-8での表現)の3バイトが付与されることがある。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化方式等における「真の意味でのBOM」と同じコードポイントを利用しているがゆえに慣用的にこう呼ばれているに過ぎない。UTF-8でのBOMの使用は非推奨。 UTF-16 詳細は「UTF-16」を参照 UTF-16符号化方式では、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが FF FEならリトルエンディアン、FE FFならビッグエンディアンとして後に続く文書を処理する。 RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化方式をUTF-16BE、リトルエンディアンの符号化方式をUTF-16LEとして区別することもある。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化方式のことを指す。TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で符号化方式が指定されずBOMも付与されない場合、ビッグエンディアンとして扱うと決められている。 UTF-32 詳細は「UTF-32」を参照 UTF-32符号化方式でもUTF-16符号化方式と同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない。 単純な符号化方式であるが、テキストファイルなどではファイルのサイズが大きくなる(すべてBMPの文字からなる文章の場合はUTF-16符号化方式の2倍、すべてASCII文字の場合はASCII/UTF-8の4倍のサイズとなる)ため、ストレージ用として使われることは稀である。そのためか、Microsoft Officeでの「エンコードされたテキストファイル」の読み書きでは、Office 2016 でもいまだに符号化方式には対応していない。フリーウェア・シェアウェアのテキストエディタのうち多数の符号化方式に対応しているものでも、この符号化方式には対応していないものが存在する。 ただし、すべてのUnicode文字を処理する場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うこともある。実例として、Linux 上のC言語環境では wchar_t は32ビット整数型である。 UTF-16符号化方式などと同様にUTF-32符号化方式にもBOMがあり、データストリームの先頭に付される。先頭の4バイトがFF FE 00 00ならリトルエンディアン、00 00 FE FFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。 各文字符号化方式の符号化例UTF-8A Ω 語 😊 41 CE A9 E8 AA 9E F0 9F 98 8A UTF-16BEA Ω 語 😊 00 41 03 A9 8A 9E D8 3D DE 0A UTF-16LEA Ω 語 😊 41 00 A9 03 9E 8A 3D D8 0A DE UTF-32BEA Ω 語 😊 00 00 00 41 00 00 03 A9 00 00 8A 9E 00 01 F6 0A UTF-32LEA Ω 語 😊 41 00 00 00 A9 03 00 00 9E 8A 00 00 0A F6 01 00
※この「文字符号化方式」の解説は、「Unicode」の解説の一部です。
「文字符号化方式」を含む「Unicode」の記事については、「Unicode」の概要を参照ください。
Weblioに収録されているすべての辞書から文字符号化方式を検索する場合は、下記のリンクをクリックしてください。

- 文字符号化方式のページへのリンク