文字コード体系
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2018/08/04 14:31 UTC 版)
チョッカックッコード 「複雑なテキスト配置」も参照 初声-中声-終声文字符号化方式(첫소리-가운뎃소리-끝소리 글자부호화 방식、Syllable-Initial-Peak-Final Encoding Approach)ハングル符号系、または略してチョッカックッコードという、ユニコードのハングル字母領域(U+1100〜U+11FF、U+A960〜U+A97F〔拡張A〕及びU+D7B0〜U+D7FF〔拡張B〕)のコードを初声-中声(-終声)(-傍点)の順に配列した方法を指す。 チョッカックッコードを使用して『訓民正音』諺解本の最初の句節を表記すると次のようになる。나랏〮말〯ᄊᆞ미〮 中듀ᇰ國귁에〮 달아〮 文문字ᄍᆞᆼ와〮로 서르 ᄉᆞᄆᆞᆺ디〮 아니〮ᄒᆞᆯᄊᆡ〮 従来、チョッカックッコードを使用する場合、次のような問題点があった。 美しい形の古ハングルを出力することができなかった。タイプライターで打ったような書体でしか出力できない。 漢陽PUAにはある一部古ハングル字素をチョッカックッ単一コードでは入力することができず、いくつかの初・中・終声を合わせて入力しなければならない。 上の1番を解決するためには、OpenType(TrueType Open) GSUB技術とこれに対応する字形セットをフォントに内蔵しなければならない。マイクロソフトの場合、Uniscribe技術がこのようなフォントの出力を支援し、これを支援するパタン古ハングル、クリム古ハングル、トドゥム古ハングル、宮書古ハングルのフォントが知られている。これらフォントはMicrosoft Word 2002以上のバージョンのオフィスプラスパックを通して配布されており、四角フォントの美しい古ハングルが表示できる。しかし、必ずオフィスプラスパックを購入しなければフォントを得られない欠点がある。 なお、Windows Vista以降で追加されたフォント「Malgun Gothic」は対応している。 2番については、やはりGSUBのligature機能を使用すれば、チョッカックッの音節を漢陽PUAコードに対応する字形に変えて表現するようにフォント次元で具現することができる。またユニコード5.2以降では漢陽PUAコード領域を表現するために必要な全ての字母が含まれているので、それ以降、漢陽PUAコードコード領域に固執する理由がなくなった。しかし、ユニコード領域にも含まれていない新しい字素が発見される可能性もある。事実、チョッカックッコードではこのような新しい字母のために新しく文字を割り当てるのではなく、既存のコードを合成して新しい初声を構成し入力する方式をとっている。即ち、初声(L)、中声(V)、終声(T)を各々一個ずつ調合するLVT?というような形態ではなく、L+V+T*という形態の調合が許容される。このようなチョッカックッコードを支援しようとするならば、GSUBまたはこれに相応するOpenType フォント技術を使用することが必須である。 漢陽使用者定義領域コード いわゆる、漢陽使用者定義領域コード(Hanyang private use area code)または漢陽PUAコードはユニコードの使用者指定文字範囲を使用する古ハングル・口訣具現コードである。Windows XPまで韓国語Windowsのシステムフォントを制作してきた漢陽情報通信でこのコードに対応するフォントを制作した。 このコードはMicrosoft Word 2000と「アレアハングル」で公式に支援され、それ以外にも政府機関などでハングルの古典を整理するのにも多く使用されている。しかし、漢陽使用者定義領域に入っている完成形態の古ハングル音節はたったの5千余個の文字にすぎない。このような原始的な限界を克服するため、すでにWordの最新バージョンからは漢陽PUAコード領域の古ハングルを支援しなくなったが、「アレアハングル2000」ではチョッカックッコード標準を支援しつつも、既存の「アレアハングル」文書との交換性を考慮し漢陽PUAコードを支援し続けている。 漢陽PUAコードを使用して『訓民正音』諺解本の最初の句節を表記すると次のようになる。나랏말미 귁에 달아 문와로 서르 디 아니 漢陽PUAコードが使用するハングル文字は次の通りに配置されている。U+E0BC〜U+EFFF, U+F100〜U+F66E: 古ハングル完成型文字 U+F784〜U+F800: 古ハングル初声(調合型) U+F806〜U+F864: 古ハングル中声(調合型) U+F86A〜U+F8F7: 古ハングル終声(調合型) それ以外の文字は次の通りに配置されている。U+E000〜U+E0BB: 空白文字 U+F000〜U+F0FF: 特殊な絵文字(フォント: Wingdings 1, 2, 3) U+F67E〜U+F77C: 口訣 漢陽PUAコード領域の古ハングル音節にはチョッカックッコードとは異なり現代ハングル以外に字素の合成が完成している形態の音節が含まれている。この完成型音節以外の音節は U+F784〜U+F8F7領域の字素を利用して合成するようにしている。 それ以外に字素のひとつずつ(ㄱ, ㅗなど)を入力する場合、可及的互換用ハングル字母領域( U+3130〜U+318F)の字母を利用し、その領域にないものはハングル字母領域( U+1100〜U+11FF、チョッカックッコードで利用する領域)の字母をそのまま利用する。ところで、ハングル字母領域の文字は文字調合のため作られたものであるため、ユニコード・コンソーシアムの方針に従えば、中声と終声は文字自体に空間がなく前の文字にぶら下がっているzero-width方式で作られなければならない。しかし、漢陽PUAコード領域の古ハングルを支援する一部フォントはこのような原理を無視しハングル字母領域の中声・終声を皆文字幅に該当させている場合がある。互換用ハングル字母領域とハングル字母領域にもない字母(漢陽PUAにだけある字母)は漢陽PUAコードの初声-中声-終声範囲を利用し合成する。 漢陽PUAコードは旧バージョンのユニコード及び関連コードになかった字素を含んでいる。例えば、漢陽PUAにあるㆍ+ㅏ(漢陽PUA: )はユニコード標準にはなかったものである。ユニコード5.2で古ハングルの字素がさらに追加されこのような字母までユニコードで書き表せるようになった。しかし、漢陽PUAコードは非標準コードであり完成型形態で支援する文字の個数が5千余個しかない限界があり、このような漢陽PUAコードを支援しない一般フォントで見ると正しく表示されない。韓国マイクロソフトで支援する最新オフィスはすでに漢陽PUAコードを支援せず標準的なチョッカックッコードを支援している。 こうした限界にも関わらず、漢陽PUAコード領域で支援している完成型形態の古ハングルは相当多く使用されており、このような標準を守らない多くの非標準文書を量産する結果を生むことになった。このような問題を解決するために韓国TeX使用者フォーラムのような所では漢陽PUAコードをチョッカックッコードに変換するプロジェクトを準備しその解決方法を提示してもいる。
※この「文字コード体系」の解説は、「古ハングル」の解説の一部です。
「文字コード体系」を含む「古ハングル」の記事については、「古ハングル」の概要を参照ください。
- 文字コード体系のページへのリンク