整然データ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/01/13 20:11 UTC 版)
整然データには、1つの構造上の単位と1つの意味上の単位とが対応しているという特徴がある。例えば、整然データにおいては、1つの列という構造上の単位が、1つの変数というデータの意味上の単位に必ず対応する。構造と意味とが合致していると、分析は非常に容易になる。 そもそも、我々がデータ分析を行う目的は、多くの場合、データにおける意味上の関係を見いだすことに帰結する。構造上の関係を見たいのではなく、意味上の関係を見たいのである。我々は、例えば、7列目が12列目にどう影響するかといった構造上の関係を知りたいのではなく、学歴が年収にどう影響するかといった意味上の関係を知りたいのである。 しかし、分析プログラムを書く場合は、19列目と38列目の差を求めさせるといった形で、構造上の単位をもって記述することが多くなる。つまり、本当は意味上の関係を知りたいのだが、計算機に対しては構造上の関係を分析させることになるのである。 ここで、構造と意味とが合致していなければ、人間が考えていることを計算機に理解させるための余計な翻訳をはさむ必要が出てくる。しかし、整然データのように、構造と意味が合致していれば、人間が考えた意味をほとんどそのまま計算機にわたす構造とすることができるのだ。
※この「整然データ」の解説は、「Tidy data」の解説の一部です。
「整然データ」を含む「Tidy data」の記事については、「Tidy data」の概要を参照ください。
- 整然データのページへのリンク