文字列とは？わかりやすく解説

文字列（もじれつ）は、単語や文章のような、文字の連なったもの。ストリング (英: string)、テキスト (英: text) という場合もある。コンピュータ、特にプログラミングの分野で用いることが多い。

プログラミング言語における文字列

文字列の処理は、数値演算と並んでコンピュータの基本的処理である。多くのプログラミング言語に文字列を扱うためのデータ型やサブルーチン（手続き、関数、メソッドとも）などが用意されている。C#のように文字列が組み込みの基本型^{[注釈 1]}として用意されている言語もあれば、C言語のように文字列を基本型として持たない言語もある。

FORTRANに始まる伝統的な言語では、1文字は1バイトの数値で表現され、文字列は一般にメモリ上で連続する文字のシーケンス、つまり文字の配列によって実現される。文字列の終了を示すために末尾に特定の文字を番兵として格納する方式の言語と、別途長さを示す情報を持たせる言語がある（長さの情報をどう持たせるかは実装に任されている）。前者の主要な採用例にはC言語とC++があり、終了文字としてヌル文字を使う（ヌル終端文字列もしくはゼロ終端文字列とも）。後者の例としては拡張Pascal（Extended Pascal、ISO/IEC 10206）やObject Pascalなどがある^{[注釈 2]}。Microsoft WindowsおよびCOM環境でよく使われるBSTRのように、ゼロ終端文字列と長さ情報を併用するデータ構造もある^[5]。

コンピュータにおいて全ての情報は数値（ビットの並び：ビット列）として表現されるので、文字列中の個々の文字も最終的にはビット列として記憶され演算される。この文字とビット列との対応付けが文字コードである。プログラミング言語やオペレーティングシステムなどによって扱うことのできる文字コードに違いはあるが、同じ文字コードであれば、同じビット列から同じ文字を取り出すことができる。

1バイトで表される数値、すなわち文字のコードと実際の文字の対応付けはいくつかの方式があり、ASCIIコードが代表的なものである。その後、漢字など多くの文字を使う文化圏のために1文字を多バイト列で扱えるように言語に拡張が行われるようになった。例えばC言語の標準規格C95では、従来の1バイト文字型charのシーケンスで論理的な1文字を表現するマルチバイト文字方式をサポートするためのライブラリ、および1バイト以上の情報を格納できるワイド文字型wchar_tが追加された。多バイト文字のコードにはJISコード、EUC、Unicode (UTF-8/UTF-16/UTF-32) など各種ある。Javaなど後発の言語では当初からUnicodeベースの文字・文字列に対応したものもある。なお、Unicodeにサロゲートペアや結合文字、書記素クラスタ (grapheme cluster) が導入されたことで、論理的な1文字が16ビットあるいは32ビットの範囲に収まりきらなくなったため、データ構造的には文字ではなく文字列として扱わなければならないケースもある。

C言語では言語機能レベルでの文字列サポートが全く無く、文字列の長さや文字配列のバッファ長、メモリ寿命管理を意識するなどしながら慎重にプログラミングする必要がある。C言語の配列は第一級オブジェクトではなく、したがって文字列も第一級オブジェクトではない。文字列リテラルの記法やコンパイル時のリテラル連結機能はあるものの、実際の型はヌル終端の固定長文字配列である（固定長文字配列の初期化やポインタへの代入にのみ使用することができる）^[6]。文字列の結合やコピーも、直感的な操作はできず、あくまでポインタ経由で文字の配列を扱うためのstrcatやstrcpyといった基本的な関数しか用意されていない。しかし、C++のようなオブジェクト指向言語をはじめ、動的言語・スクリプト言語・マクロ言語と呼ばれるものなど、後発の高水準言語ではそのような不便さや鬱陶しさなどなく文字列を直感的に扱える機能やライブラリが標準で用意されている。

JavaやC#のような後発言語では、文字列は文字配列によるバッファとその長さ情報を含むカプセル化されたデータ構造によって実現されることが一般的となっている。また、ヌル文字は終端の役割を持たないので、文字列シーケンス中にヌル文字を含むこともできる。Javaの文字型charは2バイトのUTF-16であり、また文字列クラスjava.lang.Stringで使われている内部表現もUTF-16だが、Javaクラスファイルの定数テーブルなどで使われているエンコードはModified UTF-8と呼ばれる特殊な形式である（ヌル終端文字列であってもシーケンスの途中にヌル文字に相当する代替データを含むこともできるように修正が施されている）^[7]。

文字列定数（文字列リテラル）の表記には、たいていのプログラミング言語で開始記号と終了記号にダブルクォーテーションの組が使われることが多いが、シングルクォーテーションの組を使う言語や、必要に応じてどちらも使える言語もある。以下はC#の例である。

string s = "abc 123";

C++の標準ライブラリで定義されているstd::basic_stringクラステンプレートはC文字列との相互運用性があり、また内部バッファとして使われている文字配列の要素を直接変更することもできるようになっているが、後発の言語およびプログラミング環境では、通常の文字列をイミュータブルなデータ型として提供していることが多い。代表例はJavaのStringクラスと.NETのSystem.Stringクラスである。文字列バッファを直接編集する場合は、JavaではStringBufferクラスやStringBuilderクラスを、.NETではSystem.Text.StringBuilderクラス^[8]を使う。Objective-Cの場合、通常のNSStringクラス^[9]はイミュータブルであり、編集可能な文字列型として別途NSMutableStringクラス^[10]が用意されている。

脚注

[脚注の使い方]

注釈

^ C#の場合、stringキーワードは.NETのSystem.String型のエイリアス（別名）だが^[1]、特に明示的にアセンブリ参照設定などを追加することなく標準的に使える型であり、組み込み型 (built-in type) のひとつという扱いになっている^[2]。
^ 標準Pascal（のちにISO 7185として標準化された仕様）は、文字列型をサポートせず、文字の配列を使うしかなかったが、Pascalの初期の実装の1つであるUCSD Pascalにて、可変長の文字列型であるstringおよび関連する手続きや関数が導入された^[3]。これはバッファとなる配列の先頭要素に文字列の長さ情報を持たせるデータ構造であり、length-prefixed stringまたはUCSD stringとも呼ばれる^[4]。この文字列型は、のちに多くのPascal処理系で拡張機能として実装されるようになり、Pascal文字列とも呼ばれている。

表話編歴データ型
ビット列	ビットトリットニブルオクテットバイトワードダブルワード（英）
数値	整数型符号付整数型十進型（英語版）有理数型（英語版）実数型複素数型固定小数点型浮動小数点型半精度単精度倍精度四倍精度八倍精度（英語版）拡張倍精度ミニフロート bfloat16 ブロック浮動小数点
ポインタ	物理アドレス型論理アドレス型（英語版）仮想アドレス型（英語版）参照型
テキスト	キャラクタ型ストリング型ヌル終端
複合	配列可変長配列連想配列構造体レコード共用体タグ共用体（英語版）タプルコンテナリストキュースタックセットツリー代数的データ型
その他	ブーリアン型 void型 null型列挙型再帰データ型トップ型（英語版）ボトム型関数の型（英語版）不透明型（英語版）シンボル型（英語版） Nullable型 Option型 Result型
関連項目	データ構造型システムプリミティブ型抽象型抽象データ型ボックス化動的束縛
カテゴリ


	(C)Shogakukan Inc. 株式会社小学館
	Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。この記事は、IT用語辞典バイナリの【文字列】の記事を利用しております。
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアの文字列 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの完全走破!日本縦断2002キロ高速道路の旅 (改訂履歴)、Javaの文法 (改訂履歴)、dc (UNIX) (改訂履歴)、strtold (改訂履歴)、strtod (改訂履歴)、strtoul (改訂履歴)、strtof (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
TANAKA Corpus	Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います： Creative Commons Attribution (CC-BY) 2.0 France.
京大-NICT 日英中基本文データ	この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
	Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
	Copyright © Benesse Holdings, Inc. All rights reserved.
	Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
	日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved. 「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
	This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

文字列とは？わかりやすく解説

もじ‐れつ【文字列】

文字列

文字列

プログラミング言語における文字列

脚注

注釈

出典

関連項目

文字列（テロップ）

「文字列」の例文・使い方・用例・文例

「文字列」に関係したコラム

「文字列」の関連用語

文字列とは？ わかりやすく解説

もじ‐れつ【文字列】

文字列

文字列

プログラミング言語における文字列

脚注

注釈

出典

関連項目

文字列（テロップ）

「文字列」の例文・使い方・用例・文例

「文字列」に関係したコラム

「文字列」の関連用語

文字列とは？わかりやすく解説