IT用語辞典バイナリ |
UTF-8
読み方:ユーティーエフエイト
UTF-8とは、Unicodeの16ビット文字セットを、8ビットのバイト列に変換するための技術仕様のことである。UTF-8は8ビットの可変長マルチバイトで文字を表現し、現在RFC 3629で定義されている。
UTF-8方式を用いて文字列を変換すると、Unicodeの最初の128文字を変換した結果がASCIIコードと全く同じくなる。そのため、旧来の処理システムとも親和性が高く保つことができる。このときUTF-8は、英数は1バイトで表現し、日本語は3バイトで表現する。そのため、UTF-16と比べるとデータのサイズが大きくなってしまうという面もあり、UTF-8とUTF-16に関しては状況によって使い分ける必要がある。
参照リンク
UTFとは何か
UCSとUTF
ウィキペディア |
UTF-8
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2012/01/30 01:32 UTC 版)
UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
正式名称は、ISO/IEC 10646では‘UCS Transformation Format 8’、Unicodeでは‘Unicode Transformation Format-8’という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。
2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS(File System Safe)ともいわれる。旧名称はUTF-2。
データ交換方式、ファイル形式としては一般的にUTF-8が使われる傾向がある。Linuxのように、OSの標準文字エンコードとして使用される例も増えている。
当初は、ベル研究所において Plan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された[2][3]。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
- ^ RFC 3629 UTF-8, a transformation format of ISO 10646
- ^ RFC 3629 Page-3
- ^ Rob Pike's UTF-8 history
- ^ ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
- ^ RFC 2279 UTF-8, a transformation format of ISO 10646
- ^ The Unicode Standard, Version 5.2
- ^ RFC 3629 UTF-8, a transformation format of ISO 10646
- ^ RFC 3629, pp.9f.
- ^ 現在のOracle Databaseでは、CESU-8を「UTF8」として、「普通のUTF-8」を「AL32UTF8」として扱っているため注意を要する。
- ^ Windowsにおける有名なワームであるNimdaウイルスは、IISにおけるUTF-8の脆弱性をもちいたものである。本当は怖い文字コードの話 第4回 UTF-8の冗長なエンコード
- ^ ExcelでUTF-8の csvデータを表示するにはやUTF-8で文字化け回避してCSV出力する方法を参照
- ^ RFC 3629 6. Byte order mark (BOM)
- ^ Harris, Laurence (2003年5月6日). “Technical Note TN2078: Migrating to FSRefs & long Unicode names from FSSpecs”. Apple Inc. pp. ファイル名がエンコードされる方法. 2010年6月13日閲覧。
UTF-8に関連した本
- Unicode: Utf-8, Homographischer Angriff, Afrika-Alphabet, Graphite, Han-Vereinheitlichung, Verbindungszeichen, Punycode Books LLC
- Unicode: Alphabet Phontique International, Utf-8, Utf-16, Utf-32, Binary Ordered Compression for Unicode, Utf-Ebcdic, Unicode E Books LLC
- Unicode Transformation Formats: Utf-8, Utf-16]ucs-2, Utf-Ebcdic, Comparison of Unicode Encodings, Utf-7, GB 18030, Utf-1, Utf-9 and Utf-18 Books LLC
UTF-8に関係した商品
- 【即納】【USBメモリ】Silicon Power■USBフラッシュメモリ■SP016GBUF3B10V1B■未開封【あす楽対応_関東/北陸/甲信越/東海/関西/中国/四国】エクセラー
- 【5,250円以上で送料無料】管端防食継手なら配管部品 楽天市場店。継手・フランジ>管端防食継手>エスロンUX継手(耐熱性硬質塩化ビニルライニング鋼管用管端防食継手)積水化学工業:エスロンUX継手 10Kフランジ(10KF) <LUTF>型式:LUTF80配管部品 楽天市場店
- 【5,250円以上で送料無料】管端防食継手なら配管部品 楽天市場店。継手・フランジ>管端防食継手>エスロンUX継手(耐熱性硬質塩化ビニルライニング鋼管用管端防食継手)積水化学工業:エスロンUX継手 5Kフランジ(5KF) <LUTF-T>型式:LUTF80F配管部品 楽天市場店