文字コード Unicode文字符号化モデル

文字コード

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/04/17 07:52 UTC 版)

Unicode文字符号化モデル

Unicode文字符号化モデル[1]ではさらに進んで、文字コードは以下の4段階に分けられる。

抽象文字集合 (ACR
符号化の対象とする順序のない文字の集合。ただし一般的な「文字」とは異なる場合があり、書記素と混同するべきではない[2]
符号化文字集合(CCS
抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置といい、抽象文字は対応後、符号化文字となる[3]。抽象文字は複数の符号化文字に対応されることもある(異体字セレクタ[4]。Unicodeでは代用符号位置・非文字符号位置・未割り当て符号位置があるため、すべての符号位置が抽象文字と対応しているわけではない[5]
文字符号化形式(CEF
符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式によってはひとつの符号化文字が複数の符号単位になる場合がある(サロゲートペア)。これを含め、文字により異なる長さの符号単位列となる文字符号化形式を可変幅、どの文字を変換しても同じ長さの符号単位列になるものを固定幅という。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。
文字符号化方式(CES
符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係してくる。

その後、バイト列をgzipなどで圧縮したり、7ビット伝送路に通すためBase64uuencodeBinHexQuoted-printableなどで変換することがあるがこれらは文字コードの範囲外である。


注釈

  1. ^ 文字コードは通信用語辞典にも掲載されており、コンピュータ用語辞典にも掲載されている。通信用語でもあり、コンピュータ用語でもある。
  2. ^ 英語や西ヨーロッパ諸語では、今でも、日常的にも、「code」の1番目や2番めの意味は法規体系(規則体系)なので、英語やヨーロッパ諸語の母語話者が「code」という語を見る際は、常に規則体系という概念が、意識レベルであれ無意識レベルであれ想起されている。欧米の人々はそのような意識を土台として、文字・記号と番号の対応関係を定めた規則やそれを表現した対応表も見ている。
  3. ^ たとえばASCIIはアメリカ人が開発したのでアメリカ英語のことしか考えておらず、英語以外の言語への配慮が全く欠如している。たとえば西ヨーロッパ諸国の人々が母国語を表記するのに当然必要なアクセント文字群は全然含まれておらず、スペイン語ポルトガル語フランス語ドイツ語などは全然うまく表記できない。たとえば基本語彙を挙げると、ポルトガル語の基本語彙のひとつ「明日」は「amanhã アマニャン」というが、ASCIIにはãという文字が含まれていないので、「じゃあ、また明日ね」というポルトガル人が毎日のように交わす挨拶すら表記できない。ポルトガル語で腕は「braço ブラッソ」だがASCIIには「ç」(cの下にヒゲがついたような文字)が含まれないので、ポルトガル人はASCIIでは「腕」という基本的な語すら書くことができない。(各言語のどの文字や基本語彙が書けないか、いちいち説明していると長文になりすぎるので省略するが)ともかく、同様にスペイン語、フランス語、ドイツ語などの基本的な語彙すらASCIIでは書くことができない。ともかくオリジナルのASCIIは、基本的に英語でしか使い物にならない代物である。
  4. ^ 2〜3程度の言語を理解できる人、つまりバイリンガルやトリリンガル程度なら世の中には多数いるが、それ以上の数の言語を理解できる人なると数が減る。かなりの多言語が使えることを誇る人でも、使えるのはせいぜい7〜8言語程度である。それ以上の数になると、ひとつの言語あたりの使用時間・経験時間・学習時間が減ってしまい、ひとつひとつの言語の理解力がかなり低くなる。文字コードの理解に話を戻すと、世界の数百、数千の言語を理解できる人はおらず、数百の言語で書かれた各国語の文字コードに関するドキュメントや説明文を自力で読んで、俯瞰的かつ細かく理解できる人など、この世にいない。

出典

  1. ^ UTR#17: Unicode Character Encoding Model” (English). The Unicode Consortium (2008年11月11日). 2019年5月21日閲覧。
  2. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 90 (2019年5月7日). 2019年5月23日閲覧。 “An abstract character does not necessarily correspond to what a user thinks of as a “character” and should not be confused with a grapheme.”
  3. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 29 (2019年5月7日). 2019年5月21日閲覧。 “The range of integers used to code the abstract characters is called the codespace. A particular integer in this set is called a code point. When an abstract character is mapped orassigned to a particular code point in the codespace, it is then referred to as an encodedcharacter.”
  4. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 29 (2019年5月7日). 2019年5月21日閲覧。 “an abstract character may be represented by a sequence of two (or more) other encoded characters.”
  5. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 30 (2019年5月7日). 2019年5月21日閲覧。 “Not all assigned code points represent abstract character.”
  6. ^ http://docs.oracle.com/cd/E19455-01/806-5582/6jej6u9sp/index.html
  7. ^ Freed and Postel. 参考文献, ‘1.3. Charset’, p.1.
  8. ^ UTR#17: Unicode Character Encoding Model” (English). The Unicode Consortium (2008年11月11日). 2019年7月20日閲覧。 “a mapping from sequences of members of an abstract character repertoire to serialized sequences of bytes bridging all four levels in a single operation”
  9. ^ 文学作品に現れたJIS X 0208にない文字(1999.2-3青空文庫
  10. ^ 【事例編】JTB、基幹系プラットフォームを刷新 - 進化するITプラットフォーム Part8(2009.6 IT Leaders編集部、インプレス (企業))


「文字コード」の続きの解説一覧



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「文字コード」の関連用語

文字コードのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



文字コードのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの文字コード (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS