データセットとは？わかりやすく解説

この項目では、一般名詞としてのデータセットについて説明しています。IBMメインフレームコンピュータに関する用語については「データセット (IBMメインフレーム)」をご覧ください。

データセット（英: data set, dataset）は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる^[1]。

オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータル（英語版）は、50万以上のデータセットを集約している^[2]。データセットの定義は複数提案されているが^[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース^[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。

属性

いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差や尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度（英語版）が含まれる^[5]。

データセットに含まれる値は、例えば、実数または整数などの数値である場合がある（例えば人の身長は、センチメートルという単位を用いて数値で表される）が、他方でカテゴリのような文字列で表現されるラベルである場合もある（例えば、ある人物が属する民族は数値では表せない^{[注釈 1]}）。より一般的には、値は尺度のいずれかに当てはまる^[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある^[7]。

統計学においては、データセットは通常、母集団をサンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある^[8]。

古典的なデータセット

統計学の文献では、古典的なデータセットが広く使用されている。

アイリスフラワーデータセット（英語版） – ロナルド・フィッシャーによって1936年に導入された多変量データセット^[9]。
MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
Categorical data analysis – An Introduction to Categorical Data Analysis（Alan Agresti、2019年）で用いられているデータセット。
Robust statistics – Robust Regression and Outlier Detection（Rousseeuw（英語版）、 Leroy、1986年）で使用されているデータセット。
Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
Extreme values – An Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
Bayesian Data Analysis – 同名の本（A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年）で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。

脚注

出典

^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5.
^ “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
^ “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。^{[リンク切れ]}
^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.
^ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1
^ 平山淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.
^ 株式会社野村総合研究所 2013, p. 23.
^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 2015年7月19日閲覧。
^ Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.

注釈

^ もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。

参考文献

株式会社野村総合研究所 (2013-03) (pdf). 統計データの補完推計に関する調査 (Report). 総務省統計委員会事務局. pp. 1-96 2021年2月24日閲覧。.

外部リンク

Datahub – コミュニティベースでオープンデータを管理しているサービス
Data.gov – アメリカ政府が公開しているオープンデータ
Bayesian Data Analysisの付録

[Editorial-1] Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5.

[2] “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。

[3] “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。^{[リンク切れ]}

[4] Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.

[5] Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1

[7] 平山淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.

[FOOTNOTE株式会社_野村総合研究所201323-8] 株式会社野村総合研究所 2013, p. 23.

[sde-9] United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 2015年7月19日閲覧。

[fisher36-10] Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.

[6] もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。

[1]

[2]

[3]

[4]

[5]

[注釈 1]

[6]

[7]

[8]

[9]


	Copyright © 2025実用日本語表現辞典 All Rights Reserved.
	(C)Shogakukan Inc. 株式会社小学館
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのデータセット (改訂履歴)、データセット (IBMメインフレーム) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのDBペディア (改訂履歴)、中国家庭追跡調査 (改訂履歴)、物体検出 (改訂履歴)、MNISTデータベース (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
TANAKA Corpus	Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います： Creative Commons Attribution (CC-BY) 2.0 France.
京大-NICT 日英中基本文データ	この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
	Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
	Copyright © Benesse Holdings, Inc. All rights reserved.
	Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
	日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved. 「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
	This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

データセットとは？わかりやすく解説

dataset

「dataset」の意味・「dataset」とは

「dataset」の発音・読み方

「dataset」の定義を英語で解説

「dataset」の類語

「dataset」に関連する用語・表現

「dataset」の例文

データ‐セット【data set】