全角と半角
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/07/09 10:04 UTC 版)
文字コード規格における全角と半角
JISの代替名称
1978年、東アジアの文字集合に関する初の公的規格として、JIS C 6226(後にJIS X 0208と改称)が制定された。これは1文字を2バイトで表すマルチバイト文字集合で、現代日本語の文書で用いられる漢字、仮名、記号類などを収録したものである。これに先立ち、ISO/IEC 646の日本での国内使用のための規格としてJIS C 6220(後にJIS X 0201と改称)も制定されていた。
JIS C 6226の制定作業の当初は、JIS C 6220に規定するラテン文字集合(ISO/IEC 646日本版)と仮名文字集合(片仮名)を符号表の初めに置き、前者を後者の拡張規格とすることが想定されていたが、この案は制定の過程で見送られた[注釈 2]。JIS C 6220の記号類の多くが1区に、ラテン文字と数字は3区に、片仮名は5区に、あらためて収録された(ただし、濁点や半濁点のある文字が、ない文字とは別に符号位置を与えられた)。この結果、同じ文字が2つのJIS規格で規定されることになった。
各ベンダはJIS X 0208に準じた文字コード体系を採用し、それに対応したフォントも製造されるようになったが、JIS X 0208に規定される文字のグリフはしばしば漢字などと同じ幅に、JIS X 0201のそれはその半分の幅に作られた。JIS X 0208を応用したベンダ標準の中には、EUC-JPのように文字の幅を定義したものもある[10]。このため、「JIS X 0208は全角、JIS X 0201は半角」との理解が広まることになり、さらに、両方の文字集合に収録された文字は重複して符号化され、「全角」と「半角」のふたつの字形を持つとみなされることになった。実際には、JIS X 0208では個々の文字の幅を規定してはいない。
JIS C 6226の第4次規格であるJIS X 0208:1997では、JIS X 0201とJIS X 0208で規定するすべての文字をUnicodeの文字と対応づけ、JIS X 0208で規定される文字のうちASCII(ISO/IEC 646国際基準版)またはJIS X 0201のラテン文字集合に規定される文字と同じものは用いないとすることで、重複符号化を排した。ただし、全角形のラテン文字類および半角形の片仮名類については附属書5(規定)で「文字の代替名称」を定め、「これまでの慣用的な利用との互換を目的としてだけ〔…〕異なった図形文字として用いてもよい」として、「一時的に重複符号化を容認する」という方針をとった[11]。この規定はJIS X 0208の後を受けたJIS X 0213にも引き継がれることになった。#図1に、JISの2つの文字集合規格の文字と代替名称の関係を示す。
ARIB文字コード
日本のデータ放送や文字放送などで用いられるARIBの文字コード規格においては厳密に全角文字と半角文字とプロポーショナル文字のコードが規定されている規格がある(JIS X 0201の文字集合は半角として、JIS X 0208の文字集合は全角として決められている)。これにより、文字により画面上のレイアウトを表現することが可能にしているほか、モザイクなどの表現も可能となる。したがって、ARIBに対応したフォントは厳密に全角、半角を実装する必要がある[12]。(ARIB外字も参照)
その他の東アジアの文字集合規格
JIS C 6226 (JIS X 0208) 制定の後、中国のGB 2312、台湾のCNS 11643、韓国のKS C 5601-1987(後にKS X 1001と改称)といった東アジアの漢字集合規格が、相次いで制定された。これらはいずれもJIS X 0208と同じ構造を持っている。つまり、マルチバイト文字集合であり、シングルバイト文字集合(ISO/IEC 646の各地域版またはASCII)と併用することができるが、自身にもシングルバイト文字集合と同一の字形の文字を収録している。そのため、やはり重複符号化の問題がつきまとう。
たとえば1981年に施行されたGB 2312-80では、GB 1988-80(ISO/IEC 646中国版)の文字集合と同じ字形の文字を、符号の配列順を変えずに3区に収録している。
UnicodeのEast_Asian_Width特性
Unicode標準では、文字のひとつひとつにさまざまな特性を定義して文字を区別しやすくすることで、テキストデータの処理に役立てようとしている。附属書11 (UAX#11) では参考 (informative) 特性として、東アジアの文字集合の文脈での文字幅を表すEast_Asian_Width特性を定義している[13]。
その他の文字集合規格
アドビが定めているAdobe-Japan1文字コレクションでは、全角文字、半角文字、プロポーショナル文字にそれぞれ別のコードを与えている。また、超漢字などで使用されるTRONコードでは、文字幅の区別はしない。
- 1 全角と半角とは
- 2 全角と半角の概要
- 3 用途
- 4 文字コード規格における全角と半角
- 5 文字コード規格以外における全角と半角
- 6 外部リンク
- 全角と半角のページへのリンク