データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/02/25 05:20 UTC 版)
ナビゲーションに移動 検索に移動データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]。
オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータルは、50万以上のデータセットを集約している[2]。データセットの定義は複数提案されているが[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。
属性
いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差や尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度が含まれる[5]。
データセットに含まれる値は、例えば、実数または整数などの数値である場合がある(例えば人の身長は、センチメートルという単位を用いて数値で表される)が、他方でカテゴリのような文字列で表現されるラベルである場合もある(例えば、ある人物が属する民族は数値では表せない[注釈 1])。より一般的には、値は尺度のいずれかに当てはまる[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある[7]。
統計学においては、データセットは通常、母集団をサンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある[8]。
古典的なデータセット
統計学の文献では、古典的なデータセットが広く使用されている。
- アイリスフラワーデータセット – ロナルド・フィッシャーによって1936年に導入された多変量データセット[9]。
- MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
- Categorical data analysis – An Introduction to Categorical Data Analysis(Alan Agresti、2019年)で用いられているデータセット。
- Robust statistics – Robust Regression and Outlier Detection(Rousseeuw、 Leroy、1986年)で使用されているデータセット。
- Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
- Extreme values – An Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
- Bayesian Data Analysis – 同名の本(A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年)で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
- アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。
関連項目
脚注
出典
- ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5 .
- ^ “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
- ^ “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。[リンク切れ]
- ^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.
- ^ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1
- ^ 平山 淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.
- ^ 株式会社 野村総合研究所 2013, p. 23.
- ^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 2015年7月19日閲覧。
- ^ Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.
注釈
- ^ もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。
参考文献
- 株式会社 野村総合研究所 (2013-03) (pdf). 統計データの補完推計に関する調査 (Report). 総務省統計委員会事務局. pp. 1-96 2021年2月24日閲覧。.
外部リンク
- Datahub – コミュニティベースでオープンデータを管理しているサービス
- Data.gov – アメリカ政府が公開しているオープンデータ
- Bayesian Data Analysisの付録
データセット (IBMメインフレーム)
(データ・セット から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/07/12 00:45 UTC 版)
データセット (data set, dataset) という言葉は、IBMメインフレームコンピュータで扱うファイルについて言及するときに使われる言葉である。
それらは、record-oriented file である。DASD や磁気テープにストアされる。データセットという言葉は OS/360 で使い始められ、MVS、OS/390、z/OS に至るまで使い続けられている。
UNIX システム上で使われるファイルとは違い、それらは構造化されていない bytes の羅列ではない。論理的に様々な形に編成されたレコードであり、DCB ( Data Control Block ) のパラメーター DSORG ( data set organization ) や RECFM ( record format ) などとして構造化されたブロックとして定義されたものである。DCB はデータセットにアクセスする際に用いる構造化されたデータの姿である。これらのパラメーターは JCL の DD ステートメントにも指定されていて、データセットをアロケート(配置、割り当て)するのに用いられる。
データセット編成 ( Dataset Organization )
OS/360 では、DCB の DSORG パラメーターは、データセットの編成方法を指定した。
PS ファイル ( physically sequential )、IS ファイル ( indexed sequential )、区分データセット( PO ファイル、partitioned data set )、DA ファイル ( Direct Access ) などである。磁気テープに記録されるのは DSORG=PS 、PS ファイルのみである。どの編成を選ぶかは、そのデータがどのようにアクセスされるか、とりわけ、どのように更新されるかによって決める。
レコードフォーマット ( Record Format, RECFM )
どの編成方法であるかにかかわらず、各々のレコードの物理的な構造は基本的にみな同じであり、データセットを通して一定の形式となっている。それは DCB の RECFM ( record format ) パラメーターによって指定される。
RECFM=F はレコードの固定長 ( fixed length ) を意味し、LRECL ( logical record length ) パラメーターによって長さが指定される。RECFM=V は可変長 ( variable-length ) を意味する。可変長のレコードは、先頭に長さの情報を持っている ( Record Descriptor word )。RECFM=FB はブロック化された固定長 ( fixed-blocked ) を、RECFM=VB はブロック化された可変長 ( variable-blocked ) を意味する。このことは、多様な論理レコードが磁気テープや磁気ディスク上の1つの物理的なブロックにグループされることを意味する。BLKSIZE ( block size ) パラメーターはブロックの最大の長さを指定する。RECFM パラメーターにはまた、FBS ( Fixed-blocked-standard ) という指定もある。これは最後のレコードを除き、フルレングスであることを要求する。RECFM=VBS は、複数のブロックに渡ってレコードが格納される ( Variable-blocked-spanned ) ことを意味する。RDW に記録されたフラグにより レコードのセグメントが次のブロックに続いているか、前のブロックから続いているか を示すことによって、1つの論理レコードが2つ以上のブロックに跨って格納される。
レコードフォーマットのメカニズムは、レコードを分けるための区切り符号 ( delimiter ) を用いる必要性を除去する。いかなる区切り符号をも不要とする。IBMメインフレームコンピュータにおいて、ファイルという言葉は、レコードの集まりを抽象したものである。このことは、Unix や Windows や Mac OS などの小さなコンピュータのシステムに見られる構造化されないバイトの流れ ( stream of bytes ) とは対照をなすものである。これは、誤ったレコードの終わりに遭遇することなしに、データに、バイナリの整数、浮動小数点、文字列を問わず、いかなるタイプであることも許容するものである。
区分データセット ( Partitioned Datasets, PDS )
区分データセット ( PDS, Partitioned Data Set )は、 1つのデータセットの中に複数のメンバー ( member ) 、データセットを分けたサブデータセットを含むデータセットである。
PDS は、他のファイルシステムのディレクトリに似ている。このタイプのデータセットは、実行形式のプログラム、ロードモジュール を保持したりするのに使われる。PDS はまた、ソースプログラムをストアしておくライブラリとして、またアセンブラのマクロ定義を格納しておくライブラリとして用いられる。
1つの 区分データセットは1つのディレクトリ(登録簿)と、ディレクトリ(登録簿)と関連付けたデータセットの中にまとめられた小さなシーケンシャルファイルの集まりとから成っている。各々の小さいシーケンシャルファイルは区分データセットのメンバーとして認知され、区分データセットの持つディレクトリを使ってダイレクトにアクセスされる。メンバーは一度位置を突きとめられたら、メンバーに格納されているデータは PS ファイル(シーケンシャルファイル)と同様に扱われる。
メンバーが削除されても、そのスペースは他のデータによって利用することは出来ない。また、メンバーが更新されたら、そのメンバーは PDS の後ろのほうにある新しい空間にストアされ、元在った場所はデッドスペースとして残される。これを解決するには、全てのメンバーを移動してデータセットのスペースの先頭から並べていき後ろの方に不使用スペースを残すコンプレスという操作を行わなければならない。それもしばしば。PDS ファイルは、個々のメンバーにアクセスするのにディレクトリ構造を使うために、ディスクの上にしか記録出来ない。PDS ファイルは、実行する JCL を保存するのに、IBM メインフレーム ユーティリティプログラムのコントロールステートメントを保存するのに、実行モジュールを保存するのに、最もよく使われる。
MVS/XA から、PDSE ファイル ( Partitioned DATA set Extended, PDS/E ) も使われる。PDSE ファイルの構造はPDS ファイルとよく似ており、また同じタイプのデータをストアするのに用いられる。しかしながら、PDSE ファイルは、定義の際にディレクトリブロックのアロケーションを要求しないという、改善されたディレクトリ構造を持つ。このため、もしディレクトリブロックに充分な量を指定しなくても、ディレクトリブロックを使い尽くすということがない。PDSE ファイルはまた、メンバーをストアするにあたってデッドスペースを再生するコンプレスを必要としない。PDS ファイルと同様に、個々のメンバーにアクセスするのにディレクトリ構造を使うため、ディスクの上にしか記録出来ない。PDSE ファイルはまたライブラリとも呼ばれる。
関連項目
Weblioに収録されているすべての辞書からデータ・セットを検索する場合は、下記のリンクをクリックしてください。

- データ・セットのページへのリンク