dataset
「dataset」の意味・「dataset」とは
「dataset」は、一連のデータの集まりを指す英語の単語である。これらのデータは、一般的には同じ種類の情報を含み、同じ形式で整理されている。例えば、人口統計データ、気象データ、販売データなどが「dataset」の一例である。これらは、分析や研究、機械学習の訓練など、さまざまな目的で使用される。「dataset」の発音・読み方
「dataset」の発音は、IPA表記では /ˈdeɪtəsɛt/ となる。IPAのカタカナ読みでは「デイタセット」と表現され、日本人が発音するカタカナ英語の読み方では「データセット」となる。この単語は発音によって意味や品詞が変わる単語ではない。「dataset」の定義を英語で解説
A "dataset" is a collection of related sets of information that is composed of separate elements but can be manipulated as a unit by a computer. It typically contains information that share the same kind of data and are organized in the same format. For instance, a dataset could be a collection of people's ages, incomes, or education level.「dataset」の類語
「dataset」の類語としては、「data set」、「data collection」、「data pool」、「data array」などがある。これらの語も同様に、一連のデータの集まりを指す。「dataset」に関連する用語・表現
「dataset」に関連する用語としては、「data」、「database」、「big data」、「data analysis」、「data mining」などがある。これらはすべて、データの収集、管理、分析に関連する用語である。「dataset」の例文
1.英語例文(日本語訳): This dataset contains information about the population of each city.(このデータセットには、各都市の人口情報が含まれている。) 2.英語例文(日本語訳): We used a large dataset to train our machine learning model.(私たちは大量のデータセットを使って機械学習モデルを訓練した。) 3.英語例文(日本語訳): The dataset is updated every month.(データセットは毎月更新される。) 4.英語例文(日本語訳): The dataset includes both qualitative and quantitative data.(データセットには定性データと定量データの両方が含まれている。) 5.英語例文(日本語訳): The accuracy of the dataset is crucial for the research.(研究においては、データセットの正確性が重要である。) 6.英語例文(日本語訳): The dataset was collected from various sources.(データセットはさまざまなソースから収集された。) 7.英語例文(日本語訳): The dataset is available for public use.(データセットは公開されており、誰でも利用することができる。) 8.英語例文(日本語訳): The dataset was cleaned before analysis.(分析前にデータセットはクリーニングされた。) 9.英語例文(日本語訳): The dataset is divided into training set and test set.(データセットは訓練セットとテストセットに分けられる。) 10.英語例文(日本語訳): The dataset consists of 1000 samples.(データセットは1000のサンプルで構成されている。)データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/02/25 05:20 UTC 版)
ナビゲーションに移動 検索に移動データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]。
オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータルは、50万以上のデータセットを集約している[2]。データセットの定義は複数提案されているが[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。
属性
いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差や尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度が含まれる[5]。
データセットに含まれる値は、例えば、実数または整数などの数値である場合がある(例えば人の身長は、センチメートルという単位を用いて数値で表される)が、他方でカテゴリのような文字列で表現されるラベルである場合もある(例えば、ある人物が属する民族は数値では表せない[注釈 1])。より一般的には、値は尺度のいずれかに当てはまる[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある[7]。
統計学においては、データセットは通常、母集団をサンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある[8]。
古典的なデータセット
統計学の文献では、古典的なデータセットが広く使用されている。
- アイリスフラワーデータセット – ロナルド・フィッシャーによって1936年に導入された多変量データセット[9]。
- MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
- Categorical data analysis – An Introduction to Categorical Data Analysis(Alan Agresti、2019年)で用いられているデータセット。
- Robust statistics – Robust Regression and Outlier Detection(Rousseeuw、 Leroy、1986年)で使用されているデータセット。
- Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
- Extreme values – An Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
- Bayesian Data Analysis – 同名の本(A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年)で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
- アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。
関連項目
脚注
出典
- ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5 .
- ^ “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
- ^ “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。[リンク切れ]
- ^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.
- ^ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1
- ^ 平山 淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.
- ^ 株式会社 野村総合研究所 2013, p. 23.
- ^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 2015年7月19日閲覧。
- ^ Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.
注釈
- ^ もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。
参考文献
- 株式会社 野村総合研究所 (2013-03) (pdf). 統計データの補完推計に関する調査 (Report). 総務省統計委員会事務局. pp. 1-96 2021年2月24日閲覧。.
外部リンク
- Datahub – コミュニティベースでオープンデータを管理しているサービス
- Data.gov – アメリカ政府が公開しているオープンデータ
- Bayesian Data Analysisの付録
データセット (IBMメインフレーム)
(データ・セット から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/07/12 00:45 UTC 版)
データセット (data set, dataset) という言葉は、IBMメインフレームコンピュータで扱うファイルについて言及するときに使われる言葉である。
それらは、record-oriented file である。DASD や磁気テープにストアされる。データセットという言葉は OS/360 で使い始められ、MVS、OS/390、z/OS に至るまで使い続けられている。
UNIX システム上で使われるファイルとは違い、それらは構造化されていない bytes の羅列ではない。論理的に様々な形に編成されたレコードであり、DCB ( Data Control Block ) のパラメーター DSORG ( data set organization ) や RECFM ( record format ) などとして構造化されたブロックとして定義されたものである。DCB はデータセットにアクセスする際に用いる構造化されたデータの姿である。これらのパラメーターは JCL の DD ステートメントにも指定されていて、データセットをアロケート(配置、割り当て)するのに用いられる。
データセット編成 ( Dataset Organization )
OS/360 では、DCB の DSORG パラメーターは、データセットの編成方法を指定した。
PS ファイル ( physically sequential )、IS ファイル ( indexed sequential )、区分データセット( PO ファイル、partitioned data set )、DA ファイル ( Direct Access ) などである。磁気テープに記録されるのは DSORG=PS 、PS ファイルのみである。どの編成を選ぶかは、そのデータがどのようにアクセスされるか、とりわけ、どのように更新されるかによって決める。
レコードフォーマット ( Record Format, RECFM )
どの編成方法であるかにかかわらず、各々のレコードの物理的な構造は基本的にみな同じであり、データセットを通して一定の形式となっている。それは DCB の RECFM ( record format ) パラメーターによって指定される。
RECFM=F はレコードの固定長 ( fixed length ) を意味し、LRECL ( logical record length ) パラメーターによって長さが指定される。RECFM=V は可変長 ( variable-length ) を意味する。可変長のレコードは、先頭に長さの情報を持っている ( Record Descriptor word )。RECFM=FB はブロック化された固定長 ( fixed-blocked ) を、RECFM=VB はブロック化された可変長 ( variable-blocked ) を意味する。このことは、多様な論理レコードが磁気テープや磁気ディスク上の1つの物理的なブロックにグループされることを意味する。BLKSIZE ( block size ) パラメーターはブロックの最大の長さを指定する。RECFM パラメーターにはまた、FBS ( Fixed-blocked-standard ) という指定もある。これは最後のレコードを除き、フルレングスであることを要求する。RECFM=VBS は、複数のブロックに渡ってレコードが格納される ( Variable-blocked-spanned ) ことを意味する。RDW に記録されたフラグにより レコードのセグメントが次のブロックに続いているか、前のブロックから続いているか を示すことによって、1つの論理レコードが2つ以上のブロックに跨って格納される。
レコードフォーマットのメカニズムは、レコードを分けるための区切り符号 ( delimiter ) を用いる必要性を除去する。いかなる区切り符号をも不要とする。IBMメインフレームコンピュータにおいて、ファイルという言葉は、レコードの集まりを抽象したものである。このことは、Unix や Windows や Mac OS などの小さなコンピュータのシステムに見られる構造化されないバイトの流れ ( stream of bytes ) とは対照をなすものである。これは、誤ったレコードの終わりに遭遇することなしに、データに、バイナリの整数、浮動小数点、文字列を問わず、いかなるタイプであることも許容するものである。
区分データセット ( Partitioned Datasets, PDS )
区分データセット ( PDS, Partitioned Data Set )は、 1つのデータセットの中に複数のメンバー ( member ) 、データセットを分けたサブデータセットを含むデータセットである。
PDS は、他のファイルシステムのディレクトリに似ている。このタイプのデータセットは、実行形式のプログラム、ロードモジュール を保持したりするのに使われる。PDS はまた、ソースプログラムをストアしておくライブラリとして、またアセンブラのマクロ定義を格納しておくライブラリとして用いられる。
1つの 区分データセットは1つのディレクトリ(登録簿)と、ディレクトリ(登録簿)と関連付けたデータセットの中にまとめられた小さなシーケンシャルファイルの集まりとから成っている。各々の小さいシーケンシャルファイルは区分データセットのメンバーとして認知され、区分データセットの持つディレクトリを使ってダイレクトにアクセスされる。メンバーは一度位置を突きとめられたら、メンバーに格納されているデータは PS ファイル(シーケンシャルファイル)と同様に扱われる。
メンバーが削除されても、そのスペースは他のデータによって利用することは出来ない。また、メンバーが更新されたら、そのメンバーは PDS の後ろのほうにある新しい空間にストアされ、元在った場所はデッドスペースとして残される。これを解決するには、全てのメンバーを移動してデータセットのスペースの先頭から並べていき後ろの方に不使用スペースを残すコンプレスという操作を行わなければならない。それもしばしば。PDS ファイルは、個々のメンバーにアクセスするのにディレクトリ構造を使うために、ディスクの上にしか記録出来ない。PDS ファイルは、実行する JCL を保存するのに、IBM メインフレーム ユーティリティプログラムのコントロールステートメントを保存するのに、実行モジュールを保存するのに、最もよく使われる。
MVS/XA から、PDSE ファイル ( Partitioned DATA set Extended, PDS/E ) も使われる。PDSE ファイルの構造はPDS ファイルとよく似ており、また同じタイプのデータをストアするのに用いられる。しかしながら、PDSE ファイルは、定義の際にディレクトリブロックのアロケーションを要求しないという、改善されたディレクトリ構造を持つ。このため、もしディレクトリブロックに充分な量を指定しなくても、ディレクトリブロックを使い尽くすということがない。PDSE ファイルはまた、メンバーをストアするにあたってデッドスペースを再生するコンプレスを必要としない。PDS ファイルと同様に、個々のメンバーにアクセスするのにディレクトリ構造を使うため、ディスクの上にしか記録出来ない。PDSE ファイルはまたライブラリとも呼ばれる。
関連項目
データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/06/05 18:33 UTC 版)
2011年9月 (2011-09)現在[update]、DBペディアのデータセットは364万件以上の事物を扱い、うち183万件が一貫したオントロジーに分類されている。そこには人物416,000件、地理526,000件、音楽アルバム106,000件、映画60,000件、ビデオ・ゲーム17,500件, 組織・団体169,000件、生物種183,000件、そして病気.5,400件が含まれている。DBペディア・データセットは、これら364万件の事物の名前と概要を最大97言語で提供するほか、2,724,000件の画像へのリンクと6,300,000件の外部ウェブ・ページへのリンク、6,200,000件の別のRDFデータセットへの外部リンク、740,000件のウィキペディアのカテゴリ、そして2,900,000件のYAGO2のカテゴリも提供する。このデータセットから、複数ページに分散する情報を抽出することができる。例えば、ある著作者の作品に関するページやその著作者自身に関するページをまとめ上げることができる。 DBペディア・プロジェクトは、RDF (Resource Description Framework) を使用して情報を抽出する。2011年9月 (2011-09)現在[update]、DBペディア・データセットは10億件以上の情報(RDFトリプル)から構成され、うち3億8500万件は英語版ウィキペディアから、6億6500万件は他の言語版からそれぞれ抽出されたものである。 ウィキペディアから情報抽出する際の問題の1つは、例えば「出身地」と「出生地」のように、同一概念が複数のテンプレートで異なるプロパティとして表現され得る、ということである。このため、ある人が生誕した場所を問い合わせる場合、より完全な結果を得るためには、それら両方のプロパティを検索する必要がある。このため、これらのプロパティとオントロジーとのマッピングを行い同義語の数を減らすために、DBペディア・マッピング言語 (DBpedia Mapping Language) が開発された。ウィキペディアで使用されているインフォボックスやプロパティは非常に多様であるため、誰でも参加できるように開発とマッピング改善のプロセスは公開されている。
※この「データセット」の解説は、「DBペディア」の解説の一部です。
「データセット」を含む「DBペディア」の記事については、「DBペディア」の概要を参照ください。
「データセット」の例文・使い方・用例・文例
- データ・セットのページへのリンク