dataset
「dataset」の意味・「dataset」とは
「dataset」は、一連のデータの集まりを指す英語の単語である。これらのデータは、一般的には同じ種類の情報を含み、同じ形式で整理されている。例えば、人口統計データ、気象データ、販売データなどが「dataset」の一例である。これらは、分析や研究、機械学習の訓練など、さまざまな目的で使用される。「dataset」の発音・読み方
「dataset」の発音は、IPA表記では /ˈdeɪtəsɛt/ となる。IPAのカタカナ読みでは「デイタセット」と表現され、日本人が発音するカタカナ英語の読み方では「データセット」となる。この単語は発音によって意味や品詞が変わる単語ではない。「dataset」の定義を英語で解説
A "dataset" is a collection of related sets of information that is composed of separate elements but can be manipulated as a unit by a computer. It typically contains information that share the same kind of data and are organized in the same format. For instance, a dataset could be a collection of people's ages, incomes, or education level.「dataset」の類語
「dataset」の類語としては、「data set」、「data collection」、「data pool」、「data array」などがある。これらの語も同様に、一連のデータの集まりを指す。「dataset」に関連する用語・表現
「dataset」に関連する用語としては、「data」、「database」、「big data」、「data analysis」、「data mining」などがある。これらはすべて、データの収集、管理、分析に関連する用語である。「dataset」の例文
1.英語例文(日本語訳): This dataset contains information about the population of each city.(このデータセットには、各都市の人口情報が含まれている。) 2.英語例文(日本語訳): We used a large dataset to train our machine learning model.(私たちは大量のデータセットを使って機械学習モデルを訓練した。) 3.英語例文(日本語訳): The dataset is updated every month.(データセットは毎月更新される。) 4.英語例文(日本語訳): The dataset includes both qualitative and quantitative data.(データセットには定性データと定量データの両方が含まれている。) 5.英語例文(日本語訳): The accuracy of the dataset is crucial for the research.(研究においては、データセットの正確性が重要である。) 6.英語例文(日本語訳): The dataset was collected from various sources.(データセットはさまざまなソースから収集された。) 7.英語例文(日本語訳): The dataset is available for public use.(データセットは公開されており、誰でも利用することができる。) 8.英語例文(日本語訳): The dataset was cleaned before analysis.(分析前にデータセットはクリーニングされた。) 9.英語例文(日本語訳): The dataset is divided into training set and test set.(データセットは訓練セットとテストセットに分けられる。) 10.英語例文(日本語訳): The dataset consists of 1000 samples.(データセットは1000のサンプルで構成されている。)データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/02/25 05:20 UTC 版)
データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]。
出典
- ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5 .
- ^ “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
- ^ “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。[リンク切れ]
- ^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.
- ^ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1
- ^ 平山 淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.
- ^ 株式会社 野村総合研究所 2013, p. 23.
- ^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 2015年7月19日閲覧。
- ^ Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.
注釈
- ^ もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。
- 1 データセットとは
- 2 データセットの概要
- 3 参考文献
データセット (IBMメインフレーム)
データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/06/05 18:33 UTC 版)
2011年9月 (2011-09)現在[update]、DBペディアのデータセットは364万件以上の事物を扱い、うち183万件が一貫したオントロジーに分類されている。そこには人物416,000件、地理526,000件、音楽アルバム106,000件、映画60,000件、ビデオ・ゲーム17,500件, 組織・団体169,000件、生物種183,000件、そして病気.5,400件が含まれている。DBペディア・データセットは、これら364万件の事物の名前と概要を最大97言語で提供するほか、2,724,000件の画像へのリンクと6,300,000件の外部ウェブ・ページへのリンク、6,200,000件の別のRDFデータセットへの外部リンク、740,000件のウィキペディアのカテゴリ、そして2,900,000件のYAGO2のカテゴリも提供する。このデータセットから、複数ページに分散する情報を抽出することができる。例えば、ある著作者の作品に関するページやその著作者自身に関するページをまとめ上げることができる。 DBペディア・プロジェクトは、RDF (Resource Description Framework) を使用して情報を抽出する。2011年9月 (2011-09)現在[update]、DBペディア・データセットは10億件以上の情報(RDFトリプル)から構成され、うち3億8500万件は英語版ウィキペディアから、6億6500万件は他の言語版からそれぞれ抽出されたものである。 ウィキペディアから情報抽出する際の問題の1つは、例えば「出身地」と「出生地」のように、同一概念が複数のテンプレートで異なるプロパティとして表現され得る、ということである。このため、ある人が生誕した場所を問い合わせる場合、より完全な結果を得るためには、それら両方のプロパティを検索する必要がある。このため、これらのプロパティとオントロジーとのマッピングを行い同義語の数を減らすために、DBペディア・マッピング言語 (DBpedia Mapping Language) が開発された。ウィキペディアで使用されているインフォボックスやプロパティは非常に多様であるため、誰でも参加できるように開発とマッピング改善のプロセスは公開されている。
※この「データセット」の解説は、「DBペディア」の解説の一部です。
「データセット」を含む「DBペディア」の記事については、「DBペディア」の概要を参照ください。
データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/09 16:20 UTC 版)
データセットは、中国家庭追跡調査のWebサイトから入手可能である。
※この「データセット」の解説は、「中国家庭追跡調査」の解説の一部です。
「データセット」を含む「中国家庭追跡調査」の記事については、「中国家庭追跡調査」の概要を参照ください。
データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/17 07:31 UTC 版)
機械学習においては主にモデルの学習とその評価について、データセット(英語版)を用いる。一般に提案手法を公平に評価するため、一定の難易度があるデータセットをベンチマークとして用いることは重要である。また深層学習は大量の学習データを必要とするが、一般に物体検出のためのラベル付けは画像分類のラベル付けと比べると、画像に含まれる物体の種別を選択するだけでなく、その位置まで特定して描画する必要があり難易度がより高い。また、バウンディングボックスの付与はより物体領域を正確に囲うほど良いため、品質とコストの釣り合いを取ることが難しい。機械学習全体の課題として大規模なデータセットを単独で構築することが難しいということもあり、ラベル付けが行われた大量のデータにオンラインでアクセスできる環境が整うことで研究・開発が進むという側面もある。例えば2017年に発表された顔検出のためのデータセットであるUMD Facesというデータセットは、従来の大規模なデータセットの中には公表されていないものもあり、特に研究機関が自由にアクセスできる動画を含むデータセットを作成することを一つの目的として発表したとしている。また特に研究が盛んな特定の分野では、その分野に特有の物体を詳細にラベル付けしたデータセットが作成されることもある。以下では一般物体検出のためのデータセットに加え、分野別のデータセットについても述べる。
※この「データセット」の解説は、「物体検出」の解説の一部です。
「データセット」を含む「物体検出」の記事については、「物体検出」の概要を参照ください。
データセット
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/24 16:39 UTC 版)
「MNISTデータベース」の記事における「データセット」の解説
MNISTデータベースには、NISTの2つのデータベース(Special Database 1とSpecial Database 3)の組み合わせからなる画像群が含まれている。2つのデータベースはそれぞれ、高校生と米国国勢調査局の従業員が手で書いた数字の画像で構成されている。
※この「データセット」の解説は、「MNISTデータベース」の解説の一部です。
「データセット」を含む「MNISTデータベース」の記事については、「MNISTデータベース」の概要を参照ください。
「 データセット」の例文・使い方・用例・文例
- データセットのページへのリンク