IT用語辞典バイナリ |
Unicode
Unicodeとは、プラットフォームやプログラム、言語などに依存しないように、世界中の文字に一意な数値を与える文字コードである。
Unicodeは、大手のコンピュータメーカーが参加して設立された非営利団体のUnicodeコンソーシアムによって策定された。
現在では、XMLやJavaのような技術で標準として採用されている。また、より洗練されてISO/IEC 10646で標準化された。
Unicodeでは、それぞれの文字をコードポイントと呼ばれる値で定義する。この値は、当初は16ビットで納めることを目標に開発されていたが、それでは足りないことがはっきりしたために、現在では、サロゲートと言われる手法を導入し、16進数値で10FFFFまでが使用可能になっている。
参照リンク
Unicode Home Page - (英文)
PHP関数リファレンス |
Unicode 関数
導入
Unicode をサポートします。| 警告 |
|
この拡張モジュールは現在開発中のものであり、まだ一般には公開されていません。
|
要件
» ICU 3.4 あるいはそれ以降のバージョンが必要です。インストール手順
まずはじめに ICU をダウンロードしてインストールします。 例 2382. Unix での ICU のインストール./configure --disable-threads --enable-extras --enable-icuio --enable-layout make && make install
それから、最新の PHP をチェックアウトして、 --with-icu-dir=<dir> オプション付きで configure します。<dir> には ICU をインストールしたディレクトリを指定します。 ICU を標準的な場所にインストールした場合は、 ディレクトリを明示的に指定する必要はありません。
実行時設定
php.ini の設定により動作が変化します。表 314. Unicode 設定オプション
| 名前 | デフォルト | 変更の可否 | 変更履歴 |
|---|---|---|---|
| unicode.fallback_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.from_error_mode | "2" | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.from_error_subst_char | "3f" | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.http_input_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.output_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.runtime_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.script_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
| unicode.semantics | off | PHP_INI_PERDIR | PHP 6.0.0 以降で使用可能です。 |
PHP_INI_* 定数の詳細および定義については 付録 G. php.ini ディレクティブ を参照してください。
以下に設定ディレクティブに関する 簡単な説明を示します。
- unicode.output_encoding string
-
出力用のデフォルトエンコーディング。
定義済み定数
以下の定数が定義されています。 この関数の拡張モジュールが PHP 組み込みでコンパイルされているか、 実行時に動的にロードされている場合のみ使用可能です。表 315.
| 定数 | 値 | 説明 |
|---|---|---|
| U_INVALID_STOP | 0 | 無効な文字が現れた時点で停止します。 |
| U_INVALID_SKIP | 1 | 無効な文字は読み飛ばします。 |
| U_INVALID_SUBSTITUTE | 2 | 無効な文字を置き換えます。 |
| U_INVALID_ESCAPE | 3 | 無効な文字をエスケープします。 |
目次
- i18n_loc_get_default — デフォルトのロケールを取得する
- i18n_loc_set_default — デフォルトのロケールを設定する
- unicode_encode — unicode 文字列のエンコーディングを設定する
- unicode_semantics — unicode 機能が使用可能かどうかを調べる
ウィキペディア |
Unicode
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2012/02/05 09:50 UTC 版)
Unicode(ユニコード)とは、世界中の多くのコンピュータ上の文字列を一貫した方法で符号化し、表現し、扱うためのコンピュータ業界の標準である。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
- ^ 相違点のいくつかはUnicodeベースになる前のDIS 10646に由来する。
- ^ Unicode Consortium. “Components of The Unicode Version 5.1.0”. 2008年4月5日閲覧。
- ^ Unicode Consortium. “Unicode 5.1.0”. 2008年4月8日閲覧。
- ^ Unicode Consortium. “Ideographic Variation Database”. 2008年4月7日閲覧。
- ^ RFC 3629の5. Versions of the standardsでKorean mess (ハングル大移動) について、8. MIME registrationでUTF-8にバージョン指定がない理由についての言及がある。
- ^ 小形克宏 (2000年7月20日). “小形克宏の「文字の海、ビットの舟」”. INTERNET Watch. 2011年2月24日閲覧。
- ^ “Microsoft IME2007 の JIS X 0213 と Unicode の対応”. 2008年4月8日閲覧。
- 異体字利用の拡張とUnicodeの課題JAGAT
Unicodeに関連した本
- UnicodeによるJIS X0213実装入門―情報システムの新たな日本語処理環境 (マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ) 田丸 健三郎 日経BPソフトプレス
- Unicode標準入門 トニー グラハム 翔泳社
- 日本語文字コード表Unicode順13652字―for Windows,INTERNET (desk side series) 中島 靖 情報管理
Unicodeに関係した商品