Comma-separated_valuesとは? わかりやすく解説

csv

読み方:シーエスブイ
別表記:Comma Separated Values

CSV(Comma Separated Values / カンマ区切り値)とは、半角カンマ(,)の記号使ってデータの構成要素単位フィールド)の区切りを示すデータ形式です。ファイル形式でもあり、拡張子には「.csv」が用いられます。読み方シーエスブイ
CSVは、表計算ソフトデータベースソフト使ったデータ管理適したファイル形式です。その特徴は、ファイル自体テキスト形式構成保存されている(テキストファイルとして扱える)という点に尽きます

表計算ソフトデータベースソフトでは、データを扱う領域が縦(列)と横(行)で構成され方眼紙のように分割されています。このため、列ごと・行ごとに項目数集計したり、数値合計したり、といった計算理に適してます。ただし、ファイル形式アプリケーションソフトごとにまちまちで、互換性確保されないという問題つきまといます。ファイル形式対応しないソフトウェアでは開けません。

CSVは、ファイル自体単なるテキストファイルです。そのため、テキストエディタでも開けます集計などの処理はテキストエディタではできませんが、中身確認して文字列修正する程度編集作業テキストエディタでも可能です。扱い慣れれば行を追加した入れ替えたりといった操作も容易です。

そしてCSVは多く表計算ソフトデータベースソフト対応している標準的データ形式ファイル形式でもありますMicrosoft ExcelGoogleスプレッドシートも、それ系のソフトの大半CSV形式対応してます。

CSVファイルテキストだけで構成されデータなので、書式関数などの機能保存できませんが、それだけに、ファイルサイズデータ量)が小さくて済みますファイル開きやすく、転送メール添付したり)も容易です。数万行ものデータを含むような大規模ファイルは、いったんテキストエディタ開き一部だけコピーして少しずつ開くという手もあります

CSVと並んでTSV」もテキストファイルとして扱えるデータベース向けのファイル形式です。CSVはカンマ区切りとして使用しますが、TSVでは制御文字であるタブTab)を使用して区切り用います

CSV

フルスペル:Comma Separated Values
読み方シーエスブイ
別名:CSV形式カンマ区切りコンマ区切り

CSVとは、データベースの各レコードにおいて、フィールド区切りカンマ(,)のみで表現する形式のことである。各レコード区切り改行表現する

CSV形式保存されファイルには拡張子として「.csv」が付く。

CSVはシンプルな構成汎用性の高さを特徴とする。ファイルテキスト形式であるため、テキストエディタでも開くことができる。Excelのような表計算ソフトデータを開くのに適しており、データベースソフト電子手帳ワープロソフトなども含めて様々なアプリケーションで開くことができる利点がある。そのため、異な環境異なアプリケーションの間でデータやり取りする際にCSV形式採用される場合が多い。ExcelなどはCSV形式標準サポートしている。


Comma-Separated Values

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/12/10 13:49 UTC 版)

Comma-Separated Values
拡張子.csv
MIMEタイプtext/csv
タイプコード'TEXT'
国際標準RFC 4180

comma-separated values(略称:CSV)は、テキストデータをいくつかのフィールド(項目)に分け、区切り文字であるカンマ,」で区切ったデータ形式。拡張子.csvMIMEタイプtext/csv

comma-separated variables」とも言う。日本語では広く普及した訳語はないが、「カンマ区切り」「コンマ区切り」などとも呼ばれる。Microsoft Excelの日本語版では「CSV (カンマ区切り)」としている。

概要

データ交換用のデファクトスタンダードとして、古くから多くの表計算ソフトデータベースソフトで使われている。CSV形式の細部の実装はソフトウェアによって異なるため(例えば項目を単一引用符「'」や二重引用符"」で括ったり、ファイルの一行目をヘッダとして予約したりなど)、他のソフトウェアで(テーブル)として読み込む際に互換性で問題が出る場合がある。しかし、CSVの実質はプレーンテキストであるため、CSVファイル(カンマ区切りファイル)の実質はテキストファイルである。そのため、出力プログラムの記述が極めて容易であり、プログラミング言語を問わない点や、汎用的なテキストエディタでも読み書きできる点が、互換性の面で大きな利点となっている。また、新しいレコードの追記が単純な末尾追加だけで済むため、ソフトウェアの簡易的なログに使用されることもある。

類似したフォーマットとして、タブで区切られた tab-separated values (TSV) や、欧文間隔 (いわゆる半角スペース) で区切られた space-separated values (SSV) などがあり、これらをまとめて character-separated values (CSV)[1]delimiter-separated values (DSV) などと呼ぶことも多い。実際に、カンマ以外の文字で区切ったデータを「CSVファイル」として保存するソフトウェアもある。例えばフランス・ドイツ・イタリアなどのヨーロッパ諸国では、区切り文字にカンマではなくセミコロン;)を使う慣習がある。これは小数点記号にピリオドではなくカンマを用いる文化であることも関与している。

2005年10月、それまでの各ソフトウェアにおけるCSVの実装を追認する形で、RFC 4180InformationalIESGの外部で決定された有用な情報の提供)として仕様が成文化された。しかし実際のソフトウェア側の実装はRFCに準拠していないことが多い。

仕様

RFC 4180に述べられた仕様について述べる。

ファイルは1つ以上のレコードからなる。レコードは改行キャリッジリターン文字ラインフィード文字、U+000D U+000A)で区切られる。最後のレコードの後には改行はあってもなくてもいい。(キャリッジリターン文字はキャリッジリターン文字を意味し、ラインフィード文字はラインフィード文字を意味する。)

レコードは1つ以上の同じ個数のフィールドからなる。フィールドはコンマ「,」(U+002C) で区切られる。最後のフィールドの後にはコンマは付けない。

日本国,コンマ東京都,コンマ127767944キャリッジリターン文字ラインフィード文字
アメリカ合衆国,コンマワシントン特別区,コンマ300007997キャリッジリターン文字ラインフィード文字

なお、最後のフィールドの後にはコンマはないので、もしレコードがコンマで終わっているように見えれば、実際はその後に空文字列(長さ0の文字列)からなるフィールドがある。次のレコードは、「日本国」「東京都」「」(長さ0の文字列)の3つのフィールドからなる。

日本国,コンマ東京都,コンマキャリッジリターン文字ラインフィード文字

ファイルの先頭には、オプションとして、通常のレコードと同一の書式の「ヘッダ行」があってもいい。ヘッダ行は、他のレコードと同じ個数のフィールドを持ち、フィールドの名称が書かれている。

,コンマ政治的な中心がある地域,コンマ人口(2006)キャリッジリターン文字ラインフィード文字
日本国,コンマ東京都,コンマ127767944キャリッジリターン文字ラインフィード文字

アメリカ合衆国,コンマワシントン特別区,コンマ300007997キャリッジリターン文字ラインフィード文字

フィールドは、ダブルクォート"」(U+0022) で囲んでも囲まなくてもよい。次の3つのレコードは、(CSVの文字列としては)同じ内容である。(ただし、RFCはフィールドの解釈までは規定していない。一部のソフトウェアはダブルクォートで囲まれているかどうかで解釈を変える)

日本国,コンマ東京都,コンマ127767944キャリッジリターン文字ラインフィード文字
"ダブルクオート日本国"ダブルクオート,コンマ"ダブルクオート東京都"ダブルクオート,コンマ"ダブルクオート127767944"ダブルクオートキャリッジリターン文字ラインフィード文字
"ダブルクオート日本国"ダブルクオート,コンマ"ダブルクオート東京都"ダブルクオート,コンマ127767944キャリッジリターン文字ラインフィード文字

フィールドがコンマ、ダブルクォート、改行を含む場合は、かならずダブルクォートで囲む。また、フィールドに含まれるダブルクォートは2つ並べてエスケープする。次のレコードの内容は、「日本キャリッジリターン文字ラインフィード文字」「"ダブルクオート東京都"ダブルクオート」「127,767,944」である。なお、ここでいう「コンマ」「ダブルクォート」はU+002CとU+0022のことで、他のもの(たとえば全角コンマ)は関係ない。

"ダブルクオート日本キャリッジリターン文字ラインフィード文字
"ダブルクオート,コンマ"ダブルクオート"ダブルクオート"ダブルクオート東京都"ダブルクオート"ダブルクオート"ダブルクオート,コンマ"ダブルクオート127,コンマ767,コンマ944"ダブルクオートキャリッジリターン文字ラインフィード文字

背景

コンピュータ内部において、データベース内のテーブル表計算ソフトの表の内容は、それぞれのソフトウェアが処理可能な独自のファイルフォーマットで保存されていることがあり、そのような場合は別のソフトウェアへデータを移そうにも基本的には互換性はないため読み込むことはできない。

カンマ区切りテキストは、テキスト形式で保存されるので、テキストエディタでも閲覧や編集ができる。さらに、使用するソフトウェアが、カンマ区切りテキストの出力 (エクスポート) と、読み込みから表への生成 (インポート) に対応していれば、別製品のデータベースソフトや表計算ソフトからのデータ交換が可能となる。

しかし、「テキスト形式」や「日付形式」といった各項目に設定している属性は出力されないので、インポートする側のソフトウエアがインポートする際に設定しなくてはいけない。

Microsoft Excelに代表されるパソコンの表計算ソフトが流行して以降、非常によく利用されるようになった。大型コンピュータとのデータのやりとりでは固定長データフォーマットがよく利用される。現在では、XMLを使おうという動きもあるが、XMLの仕様は膨大であり、読み書き処理のオーバーヘッドが大きく、主流にはなっていない。

問題点と回避策

フィールドにコンマやダブルクォートが含まれている場合、エスケープされている場合でも、ソフトウェアによって解釈が異なり、区切り方が変わることがある。その結果、データが破壊されることや、データ修正の手間が生じることがある。

フィールドにコンマやダブルクォートが含まれていることは頻繁にありうるが、フィールドにタブのような制御文字が含まれていることは少ない。従って、区切り文字にコンマを使うCSV形式の代わりに、区切り文字にタブを使うTSV形式を使うことで問題を避けられることがある。

XMLのようにエンコード方式(文字セット)を指定・宣言する仕様が規定されていないため、エンコードは決め打ちまたはバイト順マークなどを利用した推定に頼ることになる。

実装

CSVの実装には、各方言独自の拡張や制約がある。ただし、歴史的に見れば、これらの実装のほうがRFC 4180以前から存在している。

レコード区切り文字列
CR LF を区切り文字列として扱わない処理系がある。
フィールド区切り文字
全角コンマ「,」を区切りとみなす処理系がある。
ダブルクォート文字の表現
ダブルクォート文字を表現する方法として「ダブルクォートを重ねる」処理系と、「バックスラッシュを前につける」処理系が存在する。
ダブルクォート文字の有無
多くのソフトウェアは、必要なときのみフィールドをダブルクォートで囲む。ただし、そうでないファイルも読み取れる。
フィールド数
読み取りファイルのフィールド数が一定でない場合、ほとんどのソフトウェアは、空文字列(長さ0の文字列)からなるフィールドを適宜追加して数をそろえる。
空行、フィールド数が0個のレコード
空行を全てのフィールドが空文字列であるとして処理する処理系と、空行を無視する処理系がある。
注釈
特定の書式の文字列を注釈行として扱う処理系がある。

character-separated values

コンマの代わりに別の文字を区切りに使ったフォーマットもあり、まとめて character-separated valuesdelimiter-separated values と呼ぶ。

代表的なものに以下のようなものがある。

脚注

関連項目

外部リンク




固有名詞の分類


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Comma-separated_values」の関連用語

Comma-separated_valuesのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Comma-separated_valuesのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
実用日本語表現辞典実用日本語表現辞典
Copyright © 2025実用日本語表現辞典 All Rights Reserved.
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリの【CSV】の記事を利用しております。
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのComma-Separated Values (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS