データ・セットとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 日本語表現辞典 > データ・セットの意味・解説 

dataset

別表記:データセット

「dataset」の意味・「dataset」とは

「dataset」は、一連のデータ集まりを指す英語の単語である。これらのデータは、一般的には同じ種類情報含み、同じ形式整理されている。例えば、人口統計データ気象データ販売データなどが「dataset」の一例である。これらは、分析研究機械学習訓練など、さまざまな目的使用される

「dataset」の発音・読み方

「dataset」の発音は、IPA表記では /ˈdeɪtəsɛt/ となる。IPAカタカナ読みでは「デイタセット」と表現され日本人発音するカタカナ英語読み方では「データセット」となる。この単語発音によって意味や品詞が変わる単語ではない。

「dataset」の定義を英語で解説

A "dataset" is a collection of related sets of information that is composed of separate elements but can be manipulated as a unit by a computer. It typically contains information that share the same kind of data and are organized in the same format. For instance, a dataset could be a collection of people's ages, incomes, or education level.

「dataset」の類語

「dataset」の類語としては、「data set」、「data collection」、「data pool」、「data array」などがある。これらの語も同様に一連のデータ集まりを指す。

「dataset」に関連する用語・表現

「dataset」に関連する用語としては、「data」、「database」、「big data」、「data analysis」、「data mining」などがある。これらはすべて、データの収集管理分析関連する用語である。

「dataset」の例文

1.語例文(日本語訳): This dataset contains information about the population of each city.(このデータセットには、各都市人口情報含まれている。) 2.英語例文(日本語訳): We used a large dataset to train our machine learning model.(私たち大量のデータセットを使って機械学習モデル訓練した。) 3.英語例文(日本語訳): The dataset is updated every month.(データセットは毎月更新される。) 4.英語例文(日本語訳): The dataset includes both qualitative and quantitative data.(データセットには定性データ定量データ両方含まれている。) 5.英語例文(日本語訳): The accuracy of the dataset is crucial for the research.(研究においては、データセットの正確性が重要である。) 6.英語例文(日本語訳): The dataset was collected from various sources.(データセットはさまざまなソースから収集された。) 7.英語例文(日本語訳): The dataset is available for public use.(データセットは公開されており、誰でも利用することができる。) 8.英語例文(日本語訳): The dataset was cleaned before analysis.(分析前にデータセットはクリーニングされた。) 9.英語例文(日本語訳): The dataset is divided into training set and test set.(データセットは訓練セットとテストセットに分けられる。) 10.英語例文(日本語訳): The dataset consists of 1000 samples.(データセットは1000サンプル構成されている。)

データ‐セット【data set】

読み方:でーたせっと

コンピューター処理されるデータまとまり。ふつう、属性によって分類されたり、ある目的集められたりしたデータ記録されファイル群を指す。


データセット

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/02/25 05:20 UTC 版)

ナビゲーションに移動 検索に移動

データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]

オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータル英語版は、50万以上のデータセットを集約している[2]。データセットの定義は複数提案されているが[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。

属性

いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度英語版が含まれる[5]

データセットに含まれる値は、例えば、実数または整数などの数値である場合がある(例えば人の身長は、センチメートルという単位を用いて数値で表される)が、他方でカテゴリのような文字列で表現されるラベルである場合もある(例えば、ある人物が属する民族は数値では表せない[注釈 1])。より一般的には、値は尺度のいずれかに当てはまる[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある[7]

統計学においては、データセットは通常、母集団サンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある[8]

古典的なデータセット

統計学の文献では、古典的なデータセットが広く使用されている。

  • アイリスフラワーデータセット英語版ロナルド・フィッシャーによって1936年に導入された多変量データセット[9]
  • MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
  • Categorical data analysisAn Introduction to Categorical Data Analysis(Alan Agresti、2019年)で用いられているデータセット。
  • Robust statisticsRobust Regression and Outlier DetectionRousseeuw英語版、 Leroy、1986年)で使用されているデータセット。
  • Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
  • Extreme valuesAn Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
  • Bayesian Data Analysis – 同名の本(A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年)で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
  • アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。

関連項目

脚注

出典

  1. ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html. 
  2. ^ European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
  3. ^ Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。[リンク切れ]
  4. ^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings. https://project.opendatamonitor.eu/wp-content/uploads/dissemination/OpenDataMonitor_Publication_The-Tau-of-Data.pdf 2021年2月24日閲覧。. 
  5. ^ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1. https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 
  6. ^ 平山 淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1. 
  7. ^ 株式会社 野村総合研究所 2013, p. 23.
  8. ^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522. https://unece.org/fileadmin/DAM/stats/publications/editing/SDE3.pdf 2015年7月19日閲覧。 
  9. ^ Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x. 

注釈

  1. ^ もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。

参考文献

外部リンク


データセット (IBMメインフレーム)

(データ・セット から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/07/12 00:45 UTC 版)

データセット (data set, dataset) という言葉は、IBMメインフレームコンピュータで扱うファイルについて言及するときに使われる言葉である。

それらは、record-oriented file である。DASD磁気テープストアされる。データセットという言葉は OS/360 で使い始められ、MVSOS/390z/OS に至るまで使い続けられている。

UNIX システム上で使われるファイルとは違い、それらは構造化されていない bytes の羅列ではない。論理的に様々な形に編成されたレコードであり、DCB ( Data Control Block ) のパラメーター DSORG ( data set organization ) や RECFM ( record format ) などとして構造化されたブロックとして定義されたものである。DCB はデータセットにアクセスする際に用いる構造化されたデータの姿である。これらのパラメーターは JCL の DD ステートメントにも指定されていて、データセットをアロケート(配置、割り当て)するのに用いられる。

データセット編成 ( Dataset Organization )

OS/360 では、DCB の DSORG パラメーターは、データセットの編成方法を指定した。

PS ファイル ( physically sequential )、IS ファイル ( indexed sequential )、区分データセット( PO ファイル、partitioned data set )、DA ファイル ( Direct Access ) などである。磁気テープに記録されるのは DSORG=PS 、PS ファイルのみである。どの編成を選ぶかは、そのデータがどのようにアクセスされるか、とりわけ、どのように更新されるかによって決める。

レコードフォーマット ( Record Format, RECFM )

どの編成方法であるかにかかわらず、各々のレコードの物理的な構造は基本的にみな同じであり、データセットを通して一定の形式となっている。それは DCB の RECFM ( record format ) パラメーターによって指定される。

RECFM=F はレコードの固定長 ( fixed length ) を意味し、LRECL ( logical record length ) パラメーターによって長さが指定される。RECFM=V は可変長 ( variable-length ) を意味する。可変長のレコードは、先頭に長さの情報を持っている ( Record Descriptor word )。RECFM=FB はブロック化された固定長 ( fixed-blocked ) を、RECFM=VB はブロック化された可変長 ( variable-blocked ) を意味する。このことは、多様な論理レコードが磁気テープや磁気ディスク上の1つの物理的なブロックにグループされることを意味する。BLKSIZE ( block size ) パラメーターはブロックの最大の長さを指定する。RECFM パラメーターにはまた、FBS ( Fixed-blocked-standard ) という指定もある。これは最後のレコードを除き、フルレングスであることを要求する。RECFM=VBS は、複数のブロックに渡ってレコードが格納される ( Variable-blocked-spanned ) ことを意味する。RDW に記録されたフラグにより レコードのセグメントが次のブロックに続いているか、前のブロックから続いているか を示すことによって、1つの論理レコードが2つ以上のブロックに跨って格納される。

レコードフォーマットのメカニズムは、レコードを分けるための区切り符号 ( delimiter ) を用いる必要性を除去する。いかなる区切り符号をも不要とする。IBMメインフレームコンピュータにおいて、ファイルという言葉は、レコードの集まりを抽象したものである。このことは、UnixWindowsMac OS などの小さなコンピュータシステムに見られる構造化されないバイトの流れ ( stream of bytes ) とは対照をなすものである。これは、誤ったレコードの終わりに遭遇することなしに、データに、バイナリの整数、浮動小数点、文字列を問わず、いかなるタイプであることも許容するものである。

区分データセット ( Partitioned Datasets, PDS )

区分データセット ( PDS, Partitioned Data Set )は、 1つのデータセットの中に複数のメンバー ( member ) 、データセットを分けたサブデータセットを含むデータセットである。

PDS は、他のファイルシステムディレクトリに似ている。このタイプのデータセットは、実行形式のプログラム、ロードモジュール を保持したりするのに使われる。PDS はまた、ソースプログラムをストアしておくライブラリとして、またアセンブラのマクロ定義を格納しておくライブラリとして用いられる。

1つの 区分データセットは1つのディレクトリ(登録簿)と、ディレクトリ(登録簿)と関連付けたデータセットの中にまとめられた小さなシーケンシャルファイルの集まりとから成っている。各々の小さいシーケンシャルファイルは区分データセットのメンバーとして認知され、区分データセットの持つディレクトリを使ってダイレクトにアクセスされる。メンバーは一度位置を突きとめられたら、メンバーに格納されているデータは PS ファイル(シーケンシャルファイル)と同様に扱われる。

メンバーが削除されても、そのスペースは他のデータによって利用することは出来ない。また、メンバーが更新されたら、そのメンバーは PDS の後ろのほうにある新しい空間にストアされ、元在った場所はデッドスペースとして残される。これを解決するには、全てのメンバーを移動してデータセットのスペースの先頭から並べていき後ろの方に不使用スペースを残すコンプレスという操作を行わなければならない。それもしばしば。PDS ファイルは、個々のメンバーにアクセスするのにディレクトリ構造を使うために、ディスクの上にしか記録出来ない。PDS ファイルは、実行する JCL を保存するのに、IBM メインフレーム ユーティリティプログラムのコントロールステートメントを保存するのに、実行モジュールを保存するのに、最もよく使われる。

MVS/XA から、PDSE ファイル ( Partitioned DATA set Extended, PDS/E ) も使われる。PDSE ファイルの構造はPDS ファイルとよく似ており、また同じタイプのデータをストアするのに用いられる。しかしながら、PDSE ファイルは、定義の際にディレクトリブロックのアロケーションを要求しないという、改善されたディレクトリ構造を持つ。このため、もしディレクトリブロックに充分な量を指定しなくても、ディレクトリブロックを使い尽くすということがない。PDSE ファイルはまた、メンバーをストアするにあたってデッドスペースを再生するコンプレスを必要としない。PDS ファイルと同様に、個々のメンバーにアクセスするのにディレクトリ構造を使うため、ディスクの上にしか記録出来ない。PDSE ファイルはまたライブラリとも呼ばれる。

関連項目


データセット

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/06/05 18:33 UTC 版)

DBペディア」の記事における「データセット」の解説

2011年9月 (2011-09)現在[update]、DBペディアのデータセットは364件以上の事物扱い、うち183件が一貫したオントロジー分類されている。そこには人物416,000件、地理526,000件、音楽アルバム106,000件、映画60,000件、ビデオ・ゲーム17,500件, 組織団体169,000件、生物種183,000件、そして病気.5,400件が含まれている。DBペディア・データセットは、これら364件の事物の名前と概要最大97言語提供するほか、2,724,000件の画像へのリンクと6,300,000件の外部ウェブ・ページへのリンク、6,200,000件の別のRDFデータセットへの外部リンク740,000件のウィキペディアカテゴリ、そして2,900,000件のYAGO2のカテゴリ提供する。このデータセットから、複数ページ分散する情報抽出することができる。例えば、ある著作者作品に関するページやその著作者自身に関するページまとめ上げることができる。 DBペディア・プロジェクトは、RDF (Resource Description Framework) を使用して情報抽出する2011年9月 (2011-09)現在[update]、DBペディア・データセットは10億件以上の情報RDFトリプル)から構成され、うち3億8500件は英語版ウィキペディアから、6億6500件は他の言語版からそれぞれ抽出されたものであるウィキペディアから情報抽出する際の問題1つは、例えば「出身地」と「出生地」のように、同一概念複数テンプレート異なプロパティとして表現され得る、ということである。このため、ある人が生誕した場所を問い合わせる場合、より完全な結果を得るためには、それら両方プロパティ検索する必要があるこのため、これらのプロパティオントロジーとのマッピング行い同義語の数を減らすために、DBペディア・マッピング言語 (DBpedia Mapping Language) が開発された。ウィキペディア使用されているインフォボックスやプロパティは非常に多様であるため、誰でも参加できるように開発マッピング改善プロセス公開されている。

※この「データセット」の解説は、「DBペディア」の解説の一部です。
「データセット」を含む「DBペディア」の記事については、「DBペディア」の概要を参照ください。

ウィキペディア小見出し辞書の「データ・セット」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ

「データセット」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「データ・セット」の関連用語

データ・セットのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



データ・セットのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
実用日本語表現辞典実用日本語表現辞典
Copyright © 2025実用日本語表現辞典 All Rights Reserved.
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのデータセット (改訂履歴)、データセット (IBMメインフレーム) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのDBペディア (改訂履歴)、中国家庭追跡調査 (改訂履歴)、物体検出 (改訂履歴)、MNISTデータベース (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS