ユーティーエフ‐エイト【UTF-8】
UTF-8
読み方:ユーティーエフエイト
UTF-8とは、Unicodeの16ビット文字セットを、8ビットのバイト列に変換するための技術仕様のことである。UTF-8は8ビットの可変長マルチバイトで文字を表現し、現在RFC 3629で定義されている。
UTF-8方式を用いて文字列を変換すると、Unicodeの最初の128文字を変換した結果がASCIIコードと全く同じくなる。そのため、旧来の処理システムとも親和性が高く保つことができる。このときUTF-8は、英数は1バイトで表現し、日本語は3バイトで表現する。そのため、UTF-16と比べるとデータのサイズが大きくなってしまうという面もあり、UTF-8とUTF-16に関しては状況によって使い分ける必要がある。
参照リンク
UTFとは何か
UCSとUTF
文字コード: | UTF UTF-7 UTF-16 UTF-8 Unicode 10.0 Unicode 6.0 |
理論: | 演繹的順序法 |
UTF-8
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/05/19 08:25 UTC 版)
UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。
- ^ RFC 3629 UTF-8, a transformation format of ISO 10646
- ^ RFC 3629 Page-3
- ^ Rob Pike's UTF-8 history
- ^ ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
- ^ RFC 2279 UTF-8, a transformation format of ISO 10646
- ^ The Unicode Standard, Version 5.2
- ^ RFC 3629 UTF-8, a transformation format of ISO 10646
- ^ ただし、バイト順マーク (BOM) が付加されている場合や、テキストを7ビットで処理するソフトウェア、内部的に最上位ビットを使用しているソフトウェアなど、使えないものも存在する
- ^ RFC 3629, pp.9f.
- ^ “10.1.10.6 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)”. dev.mysql.com. MySQL 5.5 Reference Manual. Oracle. 2015年12月1日02:10:55時点のオリジナルよりアーカイブ。2015年12月11日閲覧。
- ^ Windowsにおける有名なワームであるNimdaウイルスは、IISにおけるUTF-8の脆弱性をもちいたものである。(はせがわようすけ 2009)
- ^ Mark Davis. “Forms of Unicode” (英語). IBM. 2005年5月6日時点のオリジナルよりアーカイブ。2013年9月18日閲覧。
- ^ このため、UTF-8という呼び名を使っていれば情報交換の相手が文書先頭にこのシーケンスがあると見なすと期待すべきではないし、また、UTF-8Nという呼び名は情報交換の際に用いるべきではない。
- ^ TeraPad、EmEditor、MIFESのようにBOMを付加するかどうかを選択できるものもある。
- ^ マイクロソフト・サポート https://support.microsoft.com/en-us/office/opening-csv-utf-8-files-correctly-in-excel-8a935af5-3416-4edd-ba7e-3dfd2bc4a032
- ^ /source-charset (Set Source Character Set) | Microsoft Docs
- ^ “「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に ~「Windows 10 19H1」”. Impress. 2023年1月26日閲覧。
- ^ RFC 3629 6. Byte order mark (BOM)
UTF-8
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/27 04:10 UTC 版)
「ISO/IEC 10646」の記事における「UTF-8」の解説
UnicodeのUTF-8と同じ。
※この「UTF-8」の解説は、「ISO/IEC 10646」の解説の一部です。
「UTF-8」を含む「ISO/IEC 10646」の記事については、「ISO/IEC 10646」の概要を参照ください。
- UTF-8のページへのリンク