イー‐ユー‐シー【EUC】
読み方:いーゆーしー
《extended UNIX code》UNIX(ユニックス)上で日本語・朝鮮語・中国語などを扱うために、米国AT&T社が1985年に定めた文字コード。日本語のためには、EUC-JPが策定されている。拡張UNIXコード。→JISコード →シフトJIS →UTF-8 →UTF-16
かくちょう‐ユニックスコード〔クワクチヤウ‐〕【拡張ユニックスコード】
EUC
別名:拡張UNIXコード
EUCとは、文字コードの一種で、UNIX上で様々な文字を扱うための拡張仕様として策定されたマルチバイト文字の規格のことである。
EUCはISO 2022として定義されている文字エンコーディングの標準規格をベースとしており、複数のバイト幅を用いて漢字のような膨大な数の文字でも扱うことができるようになっている。
EUCの日本語版としては、JIS X 0208をベースとして策定されたEUC-JP(日本語EUC)がある。日本語の他にも、韓国語(EUC-KR)、簡体字中国語(EUC-CN)、繁体字中国語(EUC-TW)などの種類が策定され利用されている。
参照リンク
JIS X 0201 片仮名 - (森山 将之のホームページ)
Extended Unix Code
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/02/05 06:10 UTC 版)
Extended Unix Code(EUC)は、UNIX上で使われてきた文字コードの符号化方式である。
- 1 Extended Unix Codeとは
- 2 Extended Unix Codeの概要
- 3 簡体字中国語EUC
Extended Unix Code (EUC)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/03/30 06:03 UTC 版)
「ISO/IEC 2022」の記事における「Extended Unix Code (EUC)」の解説
Extended Unix Code (EUC) は、ISO/IEC 2022の機構に準じた8ビット符号の文字コードである。これには以下のものが含まれる。次のような特徴を持つ。 アナウンス機能のエスケープシーケンスは省略する。 8ビット符号なので、GR領域も使う。エスケープシーケンスは使わない。 G0にASCIIを、G1にマルチバイト文字集合を、G2やG3に補助的な文字集合を (あれば) 指示し、G0をGL領域に、G1をGR領域に呼び出した状態で始まる (このための制御機能は省略する)。つまり、最初は7ビット符号がASCII、8ビット符号がマルチバイト文字集合で始まる。 指示の状態は固定的に決まっており、変更は行わない。 呼び出しはシングルシフトのみで、G2かG3 (あれば) からGR領域へのみ。 この結果、ASCIIの文字は常に7ビット、それ以外の文字集合の文字は常に8ビットで符号化され、しかも、同じ文字集合の文字は常に同じバイト数で表現されることになる。 #表4に、これらの文字コードで用いる符号化文字集合と、その選択のための制御機能を示す。 EUC-JPでの「日本語版Wikipedia」という文字列の符号化を例に説明する (#表4も参照)。 図3 EUC-JPによる「日本語版Wikipedia」の符号化文字日 本 語 版 W i k i p e d i a 区点行列38-92 43-60 24-76 40-39 05/07 06/09 06/11 06/09 07/00 06/05 06/04 06/09 06/01 符号12/06 15/12 12/11 13/12 11/08 14/12 12/08 12/07 05/07 06/09 06/11 06/09 07/00 06/05 06/04 06/09 06/01 C6 FC CB DC B8 EC C8 C7 57 69 6B 69 70 65 64 69 61 上図で、上段が符号化したい文字列である。「日本語版」は JIS X 0208 に含まれる文字の列、「Wikipedia」はASCIIに含まれる文字の列である。ASCIIはGL領域に、JIS X 0208はGR領域に呼び出されている。したがって、「日本語版」を8ビットで、「Wikipedia」を7ビットで符号化すればよい。マルチバイト文字は区点で、シングルバイト文字は行列で表すと、中段のようになる。区点を2バイトずつで表し、全体を8ビット符号か7ビット符号で表すと、下段のように符号化される。 表4 EUCでの文字集合の選択文字コード対象言語文字集合文字集合選択のための制御機能指示呼び出し EUC-CN(GB2312) 中国語簡体字 ASCII G0 指示したまま GLのまま GB 2312-80 G1 GRのまま EUC-JP(AJEC) 日本語 ASCII G0 指示したまま GLのまま JIS X 0208のいずれかの版 G1 GRのまま JIS X 0201-1976の仮名文字集合 (実装しなくてもよい) G2 08/14SS2(シングルシフトGR) JIS X 0212-1990 (実装しなくてもよい) G3 08/15SS3(シングルシフトGR) EUC-JISX0213 日本語 ASCII G0 指示したまま GLのまま JIS X 0213:2000の1面 G1 GRのまま JIS X 0201-1976の仮名文字集合 (原則として用いない) G2 08/14SS2(シングルシフトGR) JIS X 0213:2000の2面 G3 08/15SS3(シングルシフトGR) EUC-JIS-2004 日本語 EUC-JISX0213 のG1とG3に、それぞれJIS X 0213:2004の1面と2面を指示したもの EUC-KR 韓国語 ASCII G0 指示したまま GLのまま KS X 1001 G1 GRのまま EUC-TW 中国語伝統字 ASCII G0 指示したまま GLのまま CNS 11643の1面 G1 GRのまま CNS 11643の2面以降(面1バイトと区点2バイト) G2 08/14SS2(シングルシフトGR)
※この「Extended Unix Code (EUC)」の解説は、「ISO/IEC 2022」の解説の一部です。
「Extended Unix Code (EUC)」を含む「ISO/IEC 2022」の記事については、「ISO/IEC 2022」の概要を参照ください。
「Extended UNIX Code」の例文・使い方・用例・文例
- Extended_Unix_Codeのページへのリンク