ビー‐エム‐ピー【BMP】
読み方:びーえむぴー
《basic multilingual plane》⇒基本多言語面
基本多言語面
(basic multilingual plane から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/03/14 09:53 UTC 版)
基本多言語面(きほんたげんごめん、英: Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。
最もよく使う、基本的な文字・記号のほとんどが含まれる。
UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。
符号化
BMPの符号位置は、UTF-16やUTF-8では、他の面より少ないオクテット(バイト)数で符号化される。
- UTF-8では、1〜3オクテットで符号化される。
- UTF-16では、2オクテットで符号化される。サロゲートペア(代用対)は必要がないため使われない。
- UTF-32では、他の面と同様、4オクテットで符号化される。
歴史
BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。
一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。
1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。
配置領域
BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)
| 開始 | 終了 | 配置領域名 |
|---|---|---|
| 0000 | 1FFF | 一般スクリプト |
| 2000 | 2DFF | 記号 |
| 2E00 | 33FF | CJKの表音文字と記号 |
| 3400 | 9FFF | CJK統合漢字 |
| A000 | A4CF | 彝文字 |
| AC00 | D7AF | ハングル音節 |
| D800 | DFFF | 代用符号位置 |
| E000 | F8FF | 私用 |
| F900 | FFFD | 互換文字と特殊文字 |
当初基本多言語面は以下のような4つの「領域」に分けられていた[1]。
- 0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域
- 3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域
- A000 DFFFを将来の標準化のために使うO領域
- E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域
しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである[2]。
- D800 DFFFを代用符号位置に使用するS領域
- E000 F8FFを私用領域
収録されている用字系
| 英語表記 | 日本語表記 | Unicode範囲 |
|---|---|---|
| Basic Latin | 基本ラテン文字 | U+0000-U+007F |
| Latin-1 Supplement | ラテン1補助 | U+0080-U+00FF |
| Latin Extended-A | ラテン文字拡張A | U+0100-U+017F |
| Latin Extended-B | ラテン文字拡張B | U+0180-U+024F |
| IPA Extensions | IPA拡張 | U+0250-U+02AF |
| Spacing Modifier Letters | 前進を伴う修飾文字 | U+02B0-U+02FF |
| Combining Diacritical Marks | 合成可能なダイアクリティカルマーク | U+0300-U+036F |
| Greek and Coptic | ギリシア文字及びコプト文字 | U+0370-U+03FF |
| Cyrillic | キリル文字 | U+0400-U+04FF |
| Cyrillic Supplement | キリル文字補助 | U+0500-U+052F |
| Armenian | アルメニア文字 | U+0530-U+058F |
| Hebrew | ヘブライ文字 | U+0590-U+05FF |
| Arabic | アラビア文字 | U+0600-U+06FF |
| Syriac | シリア文字 | U+0700-U+074F |
| Arabic Supplement | アラビア文字補助 | U+0750-U+077F |
| Thaana | ターナ文字 | U+0780-U+07BF |
| NKo | ンコ文字 | U+07C0-U+07FF |
| Samaritan | サマリア文字 | U+0800-U+083F |
| Mandaic | マンダ文字 | U+0840-U+085F |
| Syriac Supplement | シリア文字補助 | U+0860-U+086F |
| Arabic Extended-B | アラビア文字拡張B | U+0870-U+089F |
| Arabic Extended-A | アラビア文字拡張A | U+08A0-U+08FF |
| Devanagari | デーヴァナーガリー文字 | U+0900-U+097F |
| Bengali | ベンガル文字 | U+0980-U+09FF |
| Gurmukhi | グルムキー文字 | U+0A00-U+0A7F |
| Gujarati | グジャラート文字 | U+0A80-U+0AFF |
| Oriya | オリヤー文字 | U+0B00-U+0B7F |
| Tamil | タミル文字 | U+0B80-U+0BFF |
| Telugu | テルグ文字 | U+0C00-U+0C7F |
| Kannada | カンナダ文字 | U+0C80-U+0CFF |
| Malayalam | マラヤーラム文字 | U+0D00-U+0D7F |
| Sinhala | シンハラ文字 | U+0D80-U+0DFF |
| Thai | タイ文字 | U+0E00-U+0E7F |
| Lao | ラオス文字 | U+0E80-U+0EFF |
| Tibetan | チベット文字 | U+0F00-U+0FFF |
| Myanmar | ミャンマー文字 | U+1000-U+109F |
| Georgian | ジョージア文字 | U+10A0-U+10FF |
| Hangul Jamo | ハングル字母 | U+1100-U+11FF |
| Ethiopic | エチオピア文字 | U+1200-U+137F |
| Ethiopic Supplement | エチオピア文字補助 | U+1380-U+139F |
| Cherokee | チェロキー文字 | U+13A0-U+13FF |
| Unified Canadian Aboriginal Syllabics | 統合カナダ先住民音節 | U+1400-U+167F |
| Ogham | オガム文字 | U+1680-U+169F |
| Runic | ルーン文字 | U+16A0-U+16FF |
| Tagalog | タガログ文字 | U+1700-U+171F |
| Hanunoo | ハヌノオ文字 | U+1720-U+173F |
| Buhid | ブヒッド文字 | U+1740-U+175F |
| Tagbanwa | タグバヌア文字 | U+1760-U+177F |
| Khmer | クメール文字 | U+1780-U+17FF |
| Mongolian | モンゴル文字 | U+1800-U+18AF |
| Unified Canadian Aboriginal Syllabics Extended | 統合カナダ先住民音節拡張 | U+18B0-U+18FF |
| Limbu | リンブ文字 | U+1900-U+194F |
| Tai Le | タイ・レ文字 | U+1950-U+197F |
| New Tai Lue | 新タイ・ロ文字 | U+1980-U+19DF |
| Khmer Symbols | クメール文字用記号 | U+19E0-U+19FF |
| Buginese | ブギス文字 | U+1A00-U+1A1F |
| Tai Tham | タイ・タム文字 | U+1A20-U+1AAF |
| Combining Diacritical Marks Extended | 合成可能なダイアクリティカルマーク拡張 | U+1AB0-U+1AFF |
| Balinese | バリ文字 | U+1B00-U+1B7F |
| Sundanese | スンダ文字 | U+1B80-U+1BBF |
| Batak | バタク文字 | U+1BC0-U+1BFF |
| Lepcha | レプチャ文字 | U+1C00-U+1C4F |
| Ol Chiki | オル・チキ文字 | U+1C50-U+1C7F |
| Cyrillic Extended-C | キリル文字拡張C | U+1C80-U+1C8F |
| Georgian Extended | ジョージア文字拡張 | U+1C90-U+1CBF |
| Sundanese Supplement | スンダ文字補助 | U+1CC0-U+1CCF |
| Vedic Extensions | ヴェーダ用拡張 | U+1CD0-U+1CFF |
| Phonetic Extensions | 音声記号拡張 | U+1D00-U+1D7F |
| Phonetic Extensions Supplement | 音声記号拡張補助 | U+1D80-U+1DBF |
| Combining Diacritical Marks Supplement | 合成可能なダイアクリティカルマーク補助 | U+1DC0-U+1DFF |
| Latin Extended Additional | ラテン文字拡張追加 | U+1E00-U+1EFF |
| Greek Extended | ギリシア文字拡張 | U+1F00-U+1FFF |
| General Punctuation | 一般句読点 | U+2000-U+206F |
| Superscripts and Subscripts | 上付き・下付き | U+2070-U+209F |
| Currency Symbols | 通貨記号 | U+20A0-U+20CF |
| Combining Diacritical Marks for Symbols | 合成可能な記号用ダイアクリティカルマーク | U+20D0-U+20FF |
| Letterlike Symbols | 文字様記号 | U+2100-U+214F |
| Number Forms | 数字に準ずるもの | U+2150-U+218F |
| Arrows | 矢印 | U+2190-U+21FF |
| Mathematical Operators | 数学記号 | U+2200-U+22FF |
| Miscellaneous Technical | その他の技術用記号 | U+2300-U+23FF |
| Control Pictures | 制御機能用記号 | U+2400-U+243F |
| Optical Character Recognition | 光学的文字認識 | U+2440-U+245F |
| Enclosed Alphanumerics | 囲み英数字 | U+2460-U+24FF |
| Box Drawing | けい線素片 | U+2500-U+257F |
| Block Elements | ブロック要素 | U+2580-U+259F |
| Geometric Shapes | 幾何学模様 | U+25A0-U+25FF |
| Miscellaneous Symbols | その他の記号 | U+2600-U+26FF |
| Dingbats | 装飾記号 | U+2700-U+27BF |
| Miscellaneous Mathematical Symbols-A | その他の数学記号A | U+27C0-U+27EF |
| Supplemental Arrows-A | 補助矢印A | U+27F0-U+27FF |
| Braille Patterns | 点字図形 | U+2800-U+28FF |
| Supplemental Arrows-B | 補助矢印B | U+2900-U+297F |
| Miscellaneous Mathematical Symbols-B | その他の数学記号B | U+2980-U+29FF |
| Supplemental Mathematical Operators | 補助数学記号 | U+2A00-U+2AFF |
| Miscellaneous Symbols and Arrows | その他の記号及び矢印 | U+2B00-U+2BFF |
| Glagolitic | グラゴル文字 | U+2C00-U+2C5F |
| Latin Extended-C | ラテン文字拡張C | U+2C60-U+2C7F |
| Coptic | コプト文字 | U+2C80-U+2CFF |
| Georgian Supplement | ジョージア文字補助 | U+2D00-U+2D2F |
| Tifinagh | ティフィナグ文字 | U+2D30-U+2D7F |
| Ethiopic Extended | エチオピア文字拡張 | U+2D80-U+2DDF |
| Cyrillic Extended-A | キリル文字拡張A | U+2DE0-U+2DFF |
| Supplemental Punctuation | 補助句読点 | U+2E00-U+2E7F |
| CJK Radicals Supplement | CJK部首補助 | U+2E80-U+2EFF |
| Kangxi Radicals | 康煕部首 | U+2F00-U+2FDF |
| Ideographic Description Characters | 漢字構成記述文字 | U+2FF0-U+2FFF |
| CJK Symbols and Punctuation | CJKの記号及び句読点 | U+3000-U+303F |
| Hiragana | 平仮名 | U+3040-U+309F |
| Katakana | 片仮名 | U+30A0-U+30FF |
| Bopomofo | 注音字母 | U+3100-U+312F |
| Hangul Compatibility Jamo | ハングル互換字母 | U+3130-U+318F |
| Kanbun | 漢文用記号 | U+3190-U+319F |
| Bopomofo Extended | 注音字母拡張 | U+31A0-U+31BF |
| CJK Strokes | CJKの筆画 | U+31C0-U+31EF |
| Katakana Phonetic Extensions | 片仮名拡張 | U+31F0-U+31FF |
| Enclosed CJK Letters and Months | 囲みCJK文字・月 | U+3200-U+32FF |
| CJK Compatibility | CJK互換用文字 | U+3300-U+33FF |
| CJK Unified Ideographs Extension A | CJK統合漢字拡張A | U+3400-U+4DBF |
| Yijing Hexagram Symbols | 易経記号 | U+4DC0-U+4DFF |
| CJK Unified Ideographs | CJK統合漢字 | U+4E00-U+9FFF |
| Yi Syllables | イ文字 | U+A000-U+A48F |
| Yi Radicals | イ文字部首 | U+A490-U+A4CF |
| Lisu | リス文字 | U+A4D0-U+A4FF |
| Vai | ヴァイ文字 | U+A500-U+A63F |
| Cyrillic Extended-B | キリル文字拡張B | U+A640-U+A69F |
| Bamum | バムン文字 | U+A6A0-U+A6FF |
| Modifier Tone Letters | 声調修飾文字 | U+A700-U+A71F |
| Latin Extended-D | ラテン文字拡張D | U+A720-U+A7FF |
| Syloti Nagri | シロティ・ナグリ文字 | U+A800-U+A82F |
| Common Indic Number Forms | インド慣用数量記号 | U+A830-U+A83F |
| Phags-pa | パスパ文字 | U+A840-U+A87F |
| Saurashtra | サウラーシュトラ文字 | U+A880-U+A8DF |
| Devanagari Extended | デーヴァナーガリー文字拡張 | U+A8E0-U+A8FF |
| Kayah Li | カヤー文字 | U+A900-U+A92F |
| Rejang | ルジャン文字 | U+A930-U+A95F |
| Hangul Jamo Extended-A | ハングル字母拡張A | U+A960-U+A97F |
| Javanese | ジャワ文字 | U+A980-U+A9DF |
| Myanmar Extended-B | ミャンマー文字拡張B | U+A9E0-U+A9FF |
| Cham | チャム文字 | U+AA00-U+AA5F |
| Myanmar Extended-A | ミャンマー文字拡張A | U+AA60-U+AA7F |
| Tai Viet | タイ・ヴィエト文字 | U+AA80-U+AADF |
| Meetei Mayek Extensions | メイテイ文字拡張 | U+AAE0-U+AAFF |
| Ethiopic Extended-A | エチオピア文字拡張A | U+AB00-U+AB2F |
| Latin Extended-E | ラテン文字拡張E | U+AB30-U+AB6F |
| Cherokee Supplement | チェロキー文字補助 | U+AB70-U+ABBF |
| Meetei Mayek | メイテイ文字 | U+ABC0-U+ABFF |
| Hangul Syllables | ハングル音節文字 | U+AC00-U+D7AF |
| Hangul Jamo Extended-B | ハングル字母拡張B | U+D7B0-U+D7FF |
| High Surrogates | サロゲート (high surrogate) | U+D800-U+DB7F |
| High Private Use Surrogates | サロゲート (high private use surrogate) | U+DB80-U+DBFF |
| Low Surrogates | サロゲート (low surrogate) | U+DC00-U+DFFF |
| Private Use Area | 私用領域 | U+E000-U+F8FF |
| CJK Compatibility Ideographs | CJK互換漢字 | U+F900-U+FAFF |
| Alphabetic Presentation Forms | アルファベット表示形 | U+FB00-U+FB4F |
| Arabic Presentation Forms-A | アラビア表示形A | U+FB50-U+FDFF |
| Variation Selectors | 字形選択子 | U+FE00-U+FE0F |
| Vertical Forms | 縦書き形 | U+FE10-U+FE1F |
| Combining Half Marks | 合成可能な半記号 | U+FE20-U+FE2F |
| CJK Compatibility Forms | CJK互換形 | U+FE30-U+FE4F |
| Small Form Variants | 小字形 | U+FE50-U+FE6F |
| Arabic Presentation Forms-B | アラビア表示形B | U+FE70-U+FEFF |
| Halfwidth and Fullwidth Forms | 半角・全角形 | U+FF00-U+FFEF |
| Specials | 特殊用途文字 | U+FFF0-U+FFFF |
関連項目
脚注
外部リンク
- basic multilingual planeのページへのリンク