符号化文字集合と文字符号化方式とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > 符号化文字集合と文字符号化方式の意味・解説 

符号化文字集合と文字符号化方式

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/11/12 07:28 UTC 版)

文字集合」の記事における「符号化文字集合と文字符号化方式」の解説

ASCIIISO/IEC 8859のような符号化文字集合はそれ単体運用されることが多いが、EUC-JPShift_JISUTF-8のように2つ上の符号化文字集合組み合わせたり変形したりして運用される文字コードがある。そこで、符号化文字集合組み合わせて運用する方式指して文字符号化方式という言葉使われることがある。 ある文字集合含まれる文字用いて記述した同一文字列であっても使用する文字符号化方式異なれば異なバイト列となる。また、異な文字符号化方式文字列データであっても、基となる文字集合同一であれば文字欠落無く相互変換が可能である。基となる文字集合異なっていても、変換元の文字集合が、変換後の文字集合部分集合であれば欠落発生しない。ただし、部分集合であっても符号化文字集合における文字符号並び異な場合もあり、そのような場合巨大な変換表が必要となる(例えば、JIS X 0208UCS-2部分集合であるが、符号並びは全く異なる)。ただし、近年OSでは、標準的な機能として変換表持っていることも多く(WindowsのMultiByteToWideChar APIUNIXのlibiconv等)、アプリケーション独自に変換表を持つ必要はあまりない逆に部分集合の関係にない文字集合変換した場合欠落する文字発生し中黒点等で置き換えられたり、不適切プログラムであれば文字化け等が発生する(ただし、同様の現象は、フォント原因場合もあり、文字集合変換原因とは即時には判断できない)。 文字符号化方式適用する際に、複数文字集合組み合わせたり文字集合一部ベンダー独自に置き換えることもあり、互換性問題原因となりやすい。例えば、WindowsMacintosh作成されShift_JIS文書では、それぞれ基となる文字集合ベンダーが独自の修正加えているため、完全な互換性は無い(例え丸付き数字括弧付き曜日など)。他にも、文字集合僅かな差異により問題起きやすい例は、「~」と「‾」、「\」と「¥」などである。 ISO/IEC 646, ISO/IEC 8859, ISO/IEC 2022 (JIS X 0202), JIS X 0201, JIS X 0208, JIS X 0213等の定義では「符号化文字集合」と「符号」とは同義であり、交代可能な用語とされるが、UnicodeIABモデルでは異なった意味で同じ用語が使われていることがあるため、解釈混同されることがあるまた、文字集合似た用語としてMIME等で利用されるIANAcharsetがあるが、charsetは符号化文字集合と文字符号化方式を合わせた概念であり、名称と実態一致していない。

※この「符号化文字集合と文字符号化方式」の解説は、「文字集合」の解説の一部です。
「符号化文字集合と文字符号化方式」を含む「文字集合」の記事については、「文字集合」の概要を参照ください。


符号化文字集合と文字符号化方式

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/01/11 02:08 UTC 版)

文字符号化方式」の記事における「符号化文字集合と文字符号化方式」の解説

符号化文字集合CESの関係を示すため、JIS X 0208を例にとる。なお、話を簡単にするため、附属書無視するJIS X 0208は、符号化文字集合であり、文字の表と、各文字対応付けられた1区1点9494点の番号区点)と、それに対応したビット組合せからなる例えば、「亜」という漢字区点番号16区1点であり、対応するビット組合せは x0110000 x0100001 の2バイトである (xは呼出し先がGLであれば0、GRであれば1)。こうした符号化文字集合について、他の符号化文字集合組み合わせたり計算によって変形したりする方式を、文字符号化方式 (CES) と呼ぶことがあるまた、特定の符号化文字集合CESとの組み合わせによって実現する文字列表現符号化表現と呼ぶことがある (符号化表現キャラクタセットとほぼ同義である)。 1つ符号化文字集合適用できるCES複数ある場合符号化表現1つではない。JIS X 0208場合主要なものとして、ISO-2022-JP (RFC1468符号化表現)・EUC-JPShift_JISがある。 ISO-2022-JPは、JIS X 0208文字対応付けた1~94区点を、それぞれ2116~7E16の範囲1バイト、計2バイトで表す。さらに、エスケープ・シーケンス使いASCIIJIS X 0201など別の文字集合切り替えることができる。このように1つCESが使う符号化文字集合は、1つとは限らない。 ほとんどの場合ISO-2022-JPのように符号化文字集合バイト列の対応は単純であるが、常にそうだとは限らないShift_JISでは、JIS X 0208文字集合を、複雑な計算式により、2バイト表現できる000016~FFFF16のうちJIS X 0201競合しない長方形領域詰め込んでいる。

※この「符号化文字集合と文字符号化方式」の解説は、「文字符号化方式」の解説の一部です。
「符号化文字集合と文字符号化方式」を含む「文字符号化方式」の記事については、「文字符号化方式」の概要を参照ください。

ウィキペディア小見出し辞書の「符号化文字集合と文字符号化方式」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「符号化文字集合と文字符号化方式」の関連用語

符号化文字集合と文字符号化方式のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



符号化文字集合と文字符号化方式のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの文字集合 (改訂履歴)、文字符号化方式 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS