Character Setとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > Character Setの意味・解説 

キャラクター‐セット【character set】

読み方:きゃらくたーせっと

文字集合


もじ‐しゅうごう〔‐シフガフ〕【文字集合】

読み方:もじしゅうごう

《character set》文字集合。特に、アルファベットかな・漢字・記号など、主にコンピューター扱える符号化文字集合をいう。JIS X 0213UCSをはじめ、各国規格標準策定されている。文字セットキャラクターセット


キャラクタ・セット Character Set

バーコードが表すことのできる キャラクタ種類をいう。 数字のみを表すもの、数字と記号を表すもの、 数字アルファベット記号表せるもの、 フルアスキーの制御コードまで表せるものなど、 バーコード種類によって異なる。

キャラクタセット

別名:文字セット
【英】character set

キャラクタセットとは、コンピューターディスプレイなどで表示するために用意され文字集合のことである。

主にJIS漢字第一水準/第二水準)やISOなどの規格規定されたものを指しアルファベット記号、かな、漢字などをすべて含む。


CharacterSet 列挙体

文字セット定義します

名前空間: Microsoft.WindowsMobile.DirectX.Direct3D
アセンブリ: Microsoft.WindowsMobile.DirectX (microsoft.windowsmobile.directx.dll 内)
構文構文

public enum CharacterSet
public enum class CharacterSet
public enum CharacterSet
public enum CharacterSet
メンバメンバ
プラットフォームプラットフォーム
バージョン情報バージョン情報
参照参照

文字集合

(Character Set から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/27 07:27 UTC 版)

文字集合(もじしゅうごう、: character set)は、文字、特にコンピュータにおけるキャラクタをその要素(「」)とする集合である。文字セットという場合もある。

例えば、「全てのアルファベット」(a, b, c, ..., z, A, B, C, ..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う, ..., ん)というのもまた、ひとつの文字集合である。

コンピュータにおける文字集合

コンピュータ上で文字を扱う場合、典型的には文字による通信を行う場合にその両端点では、どのような文字集合を使うか、あらかじめ取り決めておく必要がある。あらかじめ定義された符号化文字集合(後述)を使う、とすることが多い。

レパートリ

符号化文字集合(後述)の収録対象となる文字群をレパートリという。標準規格によって用語に違いがあり次のように定義されている。

Unicode Character Encoding Model (UTR#17)
抽象文字レパートリ (ACR: Abstract Character Repertoire)- 符号化の対象となる概念上の文字の非順序集合
Character Model for the World Wide Web 1.0: Fundamentals (W3C勧告 CharMod)
レパートリ (repertoire) - 符号化の対象となる識別された文字の集合。一つ以上の対象言語において、テキストを表現し様々なテキスト処理を効果的に可能にするため、実用的に文字が選択される。それらの文字は利用者が文字と理解するものとは厳密には一致するとは限らない。この文字の集合がレパートリと呼ばれる。
ISO/IEC 10646 (JIS X 0221)
レパートリ (repertoire) - 符号化文字集合で表現する文字の指定された集合
JIS X 0208, JIS X 0213
レパートリ (repertoire) - 符号化文字集合の一つ以上のビット組合わせによって表現される、規定された文字の集合。
IBMの文字データ表現体系 (CDRA: "Character Data Representation Architecture")
文字セット (CS: "character set") - コード化表現を前提としない、文字の定義済みセット。

符号化文字集合

文字集合を定義しその集合内の各文字に一意の符号化表現を関連付ける規則を符号化文字集合と言う[1]。符号化文字集合には、例えばJIS X 0201JIS X 0208ISO/IEC 10646(UCS-2, UCS-4)等がある。標準や規格によって用語に違いがあり次のように定義されている。

文字コードを定義している公的規格では以下のように定義されている。

ISO/IEC 646, ISO/IEC 8859, ANSI X3.4 (ASCII)
coded character set; code - A set of unambiguous rules that establishes a character set and the one-to-one relationship between the characters of the set and their bit combinations.
JIS X 0201, JIS X 0208, JIS X 0213
符号化文字集合 (coded character set)符号 (code) - 文字集合を定め、かつその集合内の文字とビット組合わせとを1対1に関連付ける、あいまいでない規則の集合。
ISO/IEC 10646 (JIS X 0221)
符号化文字集合 (coded character set) - 文字集合及びその集合の文字と符号化表現との間の関係を規定するあいまいさのない規則の集合。

それ以外の団体による文書には以下のようなものもある。

Unicode Character Encoding Model (UTR#17)
符号化文字集合 (CCS: Coded Character Set) - 概念上の文字の集合から非負整数の集合への写像として規定される。この整数の範囲は連続である必要はない。Unicode標準においてUnicodeスカラー(Unicode scalar value) の概念は非連続な非負整数として明示的に定義される。符号化文字集合が概念上の文字から整数への写像であれば、ある概念上の文字は符号化文字集合で規定されることになる。
IABモデル (RFC2130)
符号化文字集合 (CCS: Coded Character Set) - 符号化文字集合は概念上の文字の集合から整数の集合への写像である。
Character Model for the World Wide Web 1.0: Fundamentals (W3C勧告 CharMod)
符号化文字集合 (CCS: coded character set) - レパートリ中の個々の文字は対応する(数学的、抽象的な)非負整数、コードポイント区点位置面区点位置文字番号符号位置等)に関連付けられる。その結果、レパートリから非負整数の集合への写像が符号化文字集合 (CCS) と呼ばれる。
IBMの文字データ表現体系 (CDRA)
コード・ページ (CP: "code page") - それぞれのグラフィック文字セットごと、またはグラフィック文字セットの集まりに対する、コード・ポイント (code point) の指定。一つのコード・ページの中で、コード・ポイントには特定の意味を一つだけ持たせることができる。

符号化文字集合と文字符号化方式

ASCIIISO/IEC 8859のような符号化文字集合はそれ単体で運用されることが多いが、EUC-JPShift_JISUTF-8のように2つ以上の符号化文字集合を組み合わせたり変形したりして運用される文字コードがある。そこで、符号化文字集合を組み合わせて運用する方式を指して文字符号化方式という言葉が使われることがある。

ある文字集合に含まれる文字を用いて記述した同一の文字列であっても、使用する文字符号化方式が異なれば、異なるバイト列となる。また、異なる文字符号化方式の文字列データであっても、基となる文字集合が同一であれば、文字の欠落無く相互変換が可能である。基となる文字集合が異なっていても、変換元の文字集合が、変換後の文字集合の部分集合であれば、欠落は発生しない。ただし、部分集合であっても、符号化文字集合における文字の符号の並びが異なる場合もあり、そのような場合は巨大な変換表が必要となる(例えば、JIS X 0208はUCS-2の部分集合であるが、符号の並びは全く異なる)。ただし、近年のOSでは、標準的な機能として変換表を持っていることも多く(WindowsのMultiByteToWideChar API、UNIXlibiconv等)、アプリケーションが独自に変換表を持つ必要はあまりない。逆に、部分集合の関係にない文字集合へ変換した場合、欠落する文字が発生し、中黒点等で置き換えられたり、不適切なプログラムであれば文字化け等が発生する(ただし、同様の現象は、フォントが原因の場合もあり、文字集合の変換が原因とは即時には判断できない)。

文字符号化方式を適用する際に、複数の文字集合を組み合わせたり、文字集合の一部をベンダーが独自に置き換えることもあり、互換性問題の原因となりやすい。例えば、WindowsMacintoshで作成されたShift_JIS文書では、それぞれ基となる文字集合にベンダーが独自の修正を加えているため、完全な互換性は無い(例えば丸付き数字と括弧付き曜日など)。他にも、文字集合の僅かな差異により問題が起きやすい例は、「~」と「‾」、「\」と「¥」などである。

ISO/IEC 646, ISO/IEC 8859, ISO/IEC 2022 (JIS X 0202), JIS X 0201, JIS X 0208, JIS X 0213等の定義では「符号化文字集合」と「符号」とは同義であり、交代可能な用語とされるが、UnicodeやIABモデルでは異なった意味で同じ用語が使われていることがあるため、解釈が混同されることがある。また、文字集合の似た用語としてMIME等で利用されるIANAcharsetがあるが、charsetは符号化文字集合と文字符号化方式を合わせた概念であり、名称と実態が一致していない。

関連用語

出典

  1. ^ 矢野啓介、2019、『[改訂新版]プログラマのための文字コード技術入門』、技術評論社〈WEB+DB PRESS plus シリーズ〉 ISBN 978-4-297-10291-3 9頁

外部リンク


「character set」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Character Set」の関連用語

1
シー‐シー‐エス デジタル大辞泉
92% |||||


3
UCS2 デジタル大辞泉
76% |||||

4
UCS4 デジタル大辞泉
76% |||||




8
52% |||||

9
エス‐ビー‐シー‐エス デジタル大辞泉
52% |||||

10
エム‐ビー‐シー‐エス デジタル大辞泉
52% |||||

Character Setのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Character Setのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
日本バーコード日本バーコード
Copyright 1997-2025 (c) Nippon Barcode Co.,Ltd.. All rights are reserved.
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリの【キャラクタセット】の記事を利用しております。
日本マイクロソフト株式会社日本マイクロソフト株式会社
© 2025 Microsoft.All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの文字集合 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS