Unicodeにおけるフォールドケースと文字の識別
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/27 01:11 UTC 版)
「大文字と小文字」の記事における「Unicodeにおけるフォールドケースと文字の識別」の解説
Unicodeでは、各キャラクタに大文字・小文字の区別に関して、大文字(upper case)、小文字(lower case)、タイトルケース(title case)の3種類の属性が定義されている。ここで「タイトルケース」とは、合字や二重音字の2文字目で、1文字目の大小に連動して変化するもののことを指す。これらのプロパティは、大文字小文字が異なる用字内の全ての文字を、大小の異なる別の文字に関連付ける。 Unicodeテクニカルノート#26で簡単に議論されているように、実装上の問題として、ラテン文字、ギリシャ文字、キリル文字の統一を試みると、大混乱を引き起こし、事実上、全ての大文字小文字操作をケース・センシティブなものにしてしまう。言い換えれば、A, B, E, H, K, M, O, P, T, X, Yなどの文字の形は、ラテン文字、ギリシャ文字、キリル文字の間で共有されている(ホモグリフ)。ここで、同じ字形のBに対して単一の文字コードを与えたとき、それに対応する小文字が、ラテン文字ではb(U+0062)、ギリシャ文字ではβ (U+03B2)、キリル文字ではв (U+0432)と異なっており、プログラムで大文字を小文字に変換する際に、どの文字に変換すればよいかの識別が困難になる。そのため、対応するラテン文字、ギリシャ文字、キリル文字の大文字(それぞれU+0042、U+0392、U+0412)も、外観は基本的に同じであるにもかかわらず、別々の文字としてエンコードされている。
※この「Unicodeにおけるフォールドケースと文字の識別」の解説は、「大文字と小文字」の解説の一部です。
「Unicodeにおけるフォールドケースと文字の識別」を含む「大文字と小文字」の記事については、「大文字と小文字」の概要を参照ください。
- Unicodeにおけるフォールドケースと文字の識別のページへのリンク