UTF-8
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/05/19 08:25 UTC 版)
UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。
- ^ RFC 3629 UTF-8, a transformation format of ISO 10646
- ^ RFC 3629 Page-3
- ^ Rob Pike's UTF-8 history
- ^ ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
- ^ RFC 2279 UTF-8, a transformation format of ISO 10646
- ^ The Unicode Standard, Version 5.2
- ^ RFC 3629 UTF-8, a transformation format of ISO 10646
- ^ ただし、バイト順マーク (BOM) が付加されている場合や、テキストを7ビットで処理するソフトウェア、内部的に最上位ビットを使用しているソフトウェアなど、使えないものも存在する
- ^ RFC 3629, pp.9f.
- ^ “10.1.10.6 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)”. dev.mysql.com. MySQL 5.5 Reference Manual. Oracle. 2015年12月1日02:10:55時点のオリジナルよりアーカイブ。2015年12月11日閲覧。
- ^ Windowsにおける有名なワームであるNimdaウイルスは、IISにおけるUTF-8の脆弱性をもちいたものである。(はせがわようすけ 2009)
- ^ Mark Davis. “Forms of Unicode” (英語). IBM. 2005年5月6日時点のオリジナルよりアーカイブ。2013年9月18日閲覧。
- ^ このため、UTF-8という呼び名を使っていれば情報交換の相手が文書先頭にこのシーケンスがあると見なすと期待すべきではないし、また、UTF-8Nという呼び名は情報交換の際に用いるべきではない。
- ^ TeraPad、EmEditor、MIFESのようにBOMを付加するかどうかを選択できるものもある。
- ^ マイクロソフト・サポート https://support.microsoft.com/en-us/office/opening-csv-utf-8-files-correctly-in-excel-8a935af5-3416-4edd-ba7e-3dfd2bc4a032
- ^ /source-charset (Set Source Character Set) | Microsoft Docs
- ^ “「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に ~「Windows 10 19H1」”. Impress. 2023年1月26日閲覧。
- ^ RFC 3629 6. Byte order mark (BOM)
- UTF-8のページへのリンク