UTF-8
読み方:ユーティーエフエイト
UTF-8とは、Unicodeの16ビット文字セットを、8ビットのバイト列に変換するための技術仕様のことである。UTF-8は8ビットの可変長マルチバイトで文字を表現し、現在RFC 3629で定義されている。
UTF-8方式を用いて文字列を変換すると、Unicodeの最初の128文字を変換した結果がASCIIコードと全く同じくなる。そのため、旧来の処理システムとも親和性が高く保つことができる。このときUTF-8は、英数は1バイトで表現し、日本語は3バイトで表現する。そのため、UTF-16と比べるとデータのサイズが大きくなってしまうという面もあり、UTF-8とUTF-16に関しては状況によって使い分ける必要がある。
参照リンク
UTFとは何か
UCSとUTF
文字コード: | UTF UTF-7 UTF-16 UTF-8 Unicode 10.0 Unicode 6.0 |
理論: | 演繹的順序法 |
- 8-bit UCS Transformation Formatのページへのリンク