文字符号化方式とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > 文字符号化方式の意味・解説 

文字符号化方式(CES)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/12 15:23 UTC 版)

文字コード」の記事における「文字符号化方式(CES)」の解説

文字振られ番号バイト表現変換する方法

※この「文字符号化方式(CES)」の解説は、「文字コード」の解説の一部です。
「文字符号化方式(CES)」を含む「文字コード」の記事については、「文字コード」の概要を参照ください。


文字符号化方式(CES)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/12 15:23 UTC 版)

文字コード」の記事における「文字符号化方式(CES)」の解説

符号単位列をバイト列に直列化する方法符号単位8ビットより大きい場合エンディアン関係してくる。

※この「文字符号化方式(CES)」の解説は、「文字コード」の解説の一部です。
「文字符号化方式(CES)」を含む「文字コード」の記事については、「文字コード」の概要を参照ください。


文字符号化方式

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/27 04:10 UTC 版)

ISO/IEC 10646」の記事における「文字符号化方式」の解説

Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対しISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味するUTF-1 初期提案されていた、8ビットコードによる方式。ほとんど利用されることなくUTF-8にとって代わられた。 UCS-2 2オクテット固定UCS (Universal Coded-Character Set) である。BMP基本多言語面以外の文字を使うことはできず、すべての文字符号化できるUTF-16にとって代わられた。2011年改訂ではdeprecated廃止予定)とされた。 UTF-8 UnicodeUTF-8と同じ。 UTF-16 UnicodeUTF-16と同じ。 UTF-32 (UCS-4) UnicodeUTF-32と同じ。

※この「文字符号化方式」の解説は、「ISO/IEC 10646」の解説の一部です。
「文字符号化方式」を含む「ISO/IEC 10646」の記事については、「ISO/IEC 10646」の概要を参照ください。


文字符号化方式

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/26 09:09 UTC 版)

Unicode」の記事における「文字符号化方式」の解説

文字符号化形式(CEF)文字符号化方式(CES)UTF-8 UTF-8 UTF-16 UTF-16 UTF-16BE UTF-16LE UTF-32 UTF-32 UTF-32BE UTF-32LE Unicodeは文字符号化方式としてUTF-8UTF-16UTF-16BEUTF-16LEUTF-32、UTF-32BE、UTF-32LEの7種類定められている。それぞれの符号化形式対応する符号化方式は表の通り文字符号化形式との違いは、文字符号化形式プログラム内部文字を扱う場合符号なし整数として文字表現する方法なのに対し、文字符号化方式は入出力時にバイト列として表現する方法である。UTF-8符号単位8ビットであるため区別する意味はない。 文字符号化方式(CES)エンディアンBOM付与UTF-8 N/AUTF-16 ビッグ/リトルUTF-16BE ビッグエンディアン 不可 UTF-16LE リトルエンディアン 不可 UTF-32 ビッグ/リトル 可 UTF-32BE ビッグエンディアン 不可 UTF-32LE リトルエンディアン 不可 UTF-8 詳細は「UTF-8」を参照 可変長1-4バイト)の8ビット符号単位表現する文字符号化方式。ASCIIに対して上位互換となっており、文字境界が明確である、UTF-16符号化方式UTF-32符号化方式との変換逆変換に際して乗除算などの高負荷処理が必要ない、などの特長持ちインターネットではもっとも一般的に利用されている。 なお、UTF-8はもともと8ビット符号単位とするためバイト順マークBOM後述)は必要ないが、UTF-8であることが識別できるよう、データストリーム先頭EF BB BFU+FEFFUTF-8での表現)の3バイト付与されることがあるUTF-8BOMバイト順を表すものではなくUTF-16符号化方式等における「真の意味でのBOM」と同じコードポイント利用しているがゆえに慣用的にこう呼ばれているに過ぎないUTF-8でのBOM使用非推奨UTF-16 詳細は「UTF-16」を参照 UTF-16符号化方式では、通常ファイル先頭バイト順マーク (BOM) が付与されるBOMとは、通信ファイル読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリーム先頭付与される。値はU+FEFFシステム読み込んだ先頭2バイトFF FEならリトルエンディアンFE FFならビッグエンディアンとして後に続く文書処理するRFC 2781 ではBOM付いていないUTF-16文書ビッグエンディアンとして解釈することになっているWindowsのメモ帳作成したUnicodeテキスト」はBOM付与されるようになっているビッグエンディアン符号化方式UTF-16BEリトルエンディアン符号化方式UTF-16LEとして区別することもある。プロトコルもしくはアプリケーション設定などの手段で符号化方式UTF-16BEUTF-16LE指定している場合にはBOM付与することは許容されない。Windows上の文書における「Unicodeテキスト」は特に明記ない場合リトルエンディアンUTF-16符号化方式のことを指す。TCP/IPネットワークでは、プロトコルヘッダやMIMEの手段で符号化方式指定されBOM付与されない場合ビッグエンディアンとして扱うと決められている。 UTF-32 詳細は「UTF-32」を参照 UTF-32符号化方式でもUTF-16符号化方式同じくビッグエンディアンリトルエンディアン存在しそれぞれUTF-32BE、UTF-32LEと呼ばれるプロトコルもしくはアプリケーション設定などの手段で符号化方式にUTF-32BEやUTF-32LEを指定している場合にはBOM付与することは許容されない。 単純な符号化方式であるが、テキストファイルなどではファイルサイズ大きくなる(すべてBMP文字からなる文章場合UTF-16符号化方式の2倍、すべてASCII文字場合はASCII/UTF-8の4倍のサイズとなる)ため、ストレージ用として使われることは稀である。そのためか、Microsoft Officeでの「エンコードされたテキストファイル」の読み書きでは、Office 2016 でもいまだに符号化方式には対応していない。フリーウェア・シェアウェアのテキストエディタのうち多数符号化方式対応しているものでも、この符号化方式には対応していないものが存在する。 ただし、すべてのUnicode文字処理する場合には、すべての文字単一符号単位表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うこともある。実例として、Linux 上のC言語環境では wchar_t は32ビット整数型である。 UTF-16符号化方式などと同様にUTF-32符号化方式にもBOMがあり、データストリーム先頭付される先頭の4バイトFF FE 00 00ならリトルエンディアン00 00 FE FFならビッグエンディアンになる。UTF-16リトルエンディアンUTF-32リトルエンディアン最初2バイト等しいため、4バイトまで読んで判断する必要がある。 各文字符号化方式の符号化例UTF-8A Ω 語 😊 41 CE A9 E8 AA 9E F0 9F 98 8A UTF-16BEA Ω 語 😊 00 41 03 A9 8A 9E D8 3D DE 0A UTF-16LEA Ω 語 😊 41 00 A9 03 9E 8A 3D D8 0A DE UTF-32BEA Ω 語 😊 00 00 00 41 00 00 03 A9 00 00 8A 9E 00 01 F6 0A UTF-32LEA Ω 語 😊 41 00 00 00 A9 03 00 00 9E 8A 00 00 0A F6 01 00

※この「文字符号化方式」の解説は、「Unicode」の解説の一部です。
「文字符号化方式」を含む「Unicode」の記事については、「Unicode」の概要を参照ください。

ウィキペディア小見出し辞書の「文字符号化方式」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


このページでは「ウィキペディア小見出し辞書」から文字符号化方式を検索した結果を表示しています。
Weblioに収録されているすべての辞書から文字符号化方式を検索する場合は、下記のリンクをクリックしてください。
 全ての辞書から文字符号化方式 を検索

英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「文字符号化方式」の関連用語

1
シー‐イー‐エス デジタル大辞泉
100% |||||

2
文字符号化スキーム デジタル大辞泉
100% |||||



5
UTF16 デジタル大辞泉
92% |||||

6
UTF8 デジタル大辞泉
92% |||||


8
ISO/IEC10646 デジタル大辞泉
78% |||||

9
ISOコード デジタル大辞泉
78% |||||

10
符号化文字集合 デジタル大辞泉
78% |||||

文字符号化方式のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



文字符号化方式のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの文字コード (改訂履歴)、ISO/IEC 10646 (改訂履歴)、Unicode (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS