IT用語辞典バイナリ |
UTF-16
読み方:ユーティーエフじゅうろく
UTF-16とは、Unicode、または、UCSを16ビットを単位とした可変長マルチバイトでエンコーディングする方式のことである。
2バイトで定義されているコード(U+0000~U+D7FFF、U+E000~U+FFFF)はそのままで、サロゲートペアで定義されているコードは4バイトにエンコードされる。
16ビットデータを全てのシステムで統一的に扱うためには、エンディアンの違いは避けては通れない問題である。UTF-16にもビッグエンディアン用のUTF-16BE、リトルエンディアン用のUTF-16LEがある。また、BOMによりエンディアンの指定も可能である。なお、BOMがないテキストはビッグエンディアンと解釈されることになっている。
参照リンク
RFC 2781 - UTF-16, an encoding of ISO 10646 - (英文)
ウィキペディア |
UTF-16
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2012/01/30 00:56 UTC 版)
UTF-16 (UCS/Unicode Transformation Format 16) は、Unicodeの文字符号化方式であるUTFの1つ。UTFは、UnicodeではUnicode Transformation Format、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00。Unicodeでは、UTF-16が正式名称である。
UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される(ビッグエンディアンならISO/IEC 10646のUCS-2と互換である)。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。
Unicodeにおいては、厳密には、文字符号化形式(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。
- 1 UTF-16とは
- 2 UTF-16の概要
- 3 参考資料
UTF-16に関係した商品