重複符号化の問題
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/13 14:42 UTC 版)
「JIS X 0208」の記事における「重複符号化の問題」の解説
この規格の漢字集合をISO/IEC 646の国際基準版図形文字集合またはJIS X 0201のラテン文字用図形文字集合と組み合わせて使用するとき、両方の文字集合に共通して含まれる文字の扱いが問題となる。特別な措置がなければ、共通して含まれる文字は、1文字につき複数の符号位置が与えられる、すなわち、重複符号化(ちょうふくふごうか)されることになる。 JIS X 0208:1997は、両方の文字集合に共通して含まれる文字について、2個の符号位置のうちの一方である漢字集合の符号位置の使用を基本的に禁じて、重複符号化を排除している。同じ名前を有する文字が同じ文字と判断される。 例えば、ISO/IEC 646の国際基準版図形文字集合のビット組合せ4/1に対応する文字の名前も、漢字集合の3区33点に対応する文字の名前も、LATIN CAPITAL LETTER Aである。国際基準版・漢字用8ビット符号では、ビット組合せ4/1によっても、漢字集合の3区33点に対応する2バイトのビット組合せ10/3 12/1によっても、「A」すなわちLATIN CAPITAL LETTER Aを表現できることになる。規格はビット組合せ10/3 12/1の使用を禁じて、重複符号化を排除しようとしている。 漢字集合の符号位置の文字を「全角文字」として、国際基準版文字集合またはラテン文字用図形文字集合の文字と異なる文字として扱ってきた実装があることに配慮して、過去との互換のためにのみ、漢字集合の符号位置の使用が許される。例えば、過去との互換のために、国際基準版・漢字用8ビット符号の10/3 12/1には、「全角のA」が対応していると見なすことが許される。 漢字集合を国際基準版図形文字集合またはラテン文字用図形文字集合と併用すると、規格に忠実に従っても、文字の一意な符号化は保証されない。例えば、国際基準版・漢字用8ビット符号では、ハイフンをビット組合せ2/13の文字HYPHEN-MINUSで表現することも、漢字集合1区30点にあたるビット組合せ10/1 11/14の文字HYPHENで表現することも、いずれも正当である。そして、規格が両者の使い分けを決めていない以上、ハイフンは一意に符号化されない。同様のことが負符号、引用符などについても生じる。 「全角スペース」と通称される1区1点の文字IDEOGRAPHIC SPACE(日本語通用名称は「和字間隔」)および「半角スペース」と通称される2/0の文字SPACE(日本語通用名称は「間隔」)は、漢字集合を単独で使用する符号においても共存している。JIS X 0208においては両者がどのように異なるのかは規格に定められていなかったが、JIS X 4051「日本語文書の組版方法」において明確に規格化され2/0の文字SPACEは欧文の単語間の間隔に用いるスペース、1区1点の文字IDEOGRAPHIC SPACEは和字間隔として和字(日本語文字)の空き量を示すスペースと規定された。
※この「重複符号化の問題」の解説は、「JIS X 0208」の解説の一部です。
「重複符号化の問題」を含む「JIS X 0208」の記事については、「JIS X 0208」の概要を参照ください。
- 重複符号化の問題のページへのリンク