missing dataとは? わかりやすく解説

Weblio 辞書 > 学問 > OR事典 > missing dataの意味・解説 

欠損データ

読み方けっそんでーた
【英】:missing data

あるべきデータない場合に, そのデータを欠損データと呼ぶ. このときデータがなくても他にかわるデータがあればよいが, ない場合にはそのデータある意味推定してそのもと解析をする必要が生じる. したがって,そのデータの値の推定方法によってその解析結果ちがってくる. AHP場合の欠損データは, そのデータがちょう推定したウェイトの比\hat{w}_i/\hat{w}_jとして 表せるものとしてウェイト推定するハーカー法がよく利用される


欠測データ

(missing data から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/05/27 16:27 UTC 版)

欠測データ(けっそくデータ、英語:missing data)または欠測値(けっそくち、英語:missing values)は、観測において、変数に値が格納されないときに発生する。欠損データ、欠落データなどとも訳される。データの欠測はよくあることであり、データから引き出す結論に甚大な影響を与える場合がある。

概要

無回答は、対象の一つ以上の項目について情報が全く得られないことを意味し、欠測の原因となる。例えば、収入などのプライベートな項目は、無回答となりやすい。

漸減は、縦断的研究における欠測の原因となる。例えば、一定期間後に測定が繰り返される発達の研究では、テストが終了する前に参加者が脱落することで欠測となる。

経済学社会学政治学の研究では、政府や民間団体が重要な統計を報告しないことを選択した、報告できなかった、情報が得られなかった、などの理由から、データが欠落していることがよくある。データ収集が不適切だった、データ入力に誤りがあった、など、研究者が欠測値を引き起こすこともある。 [1]

これらの欠落の形式にはさまざまなタイプがあり、研究からの結論の妥当性にさまざまな影響を与える。 欠測データは打ち切りデータと同様に処理することができる。

欠測の種類

データが欠落している理由を理解することは、残りのデータを正しく処理するために重要である。欠測が完全にランダムである場合、標本は母集団を表しているといえる。 ただし、値が体系的に欠落している場合は、分析にバイアスがかかる可能性がある。たとえば、IQと収入の関係の調査で、IQ の高い参加者に収入を答えない傾向があった場合、この欠損値のタイプ(MAR として以下に記述)を念頭に置かなければ、IQと給与の間の正の相関を見逃してしまう可能性がある。こうしたことから、方法論者は、欠測値の発生を最小限に抑えるための研究を設計するように研究者に日常的にアドバイスしている。 [1]

図を使用して、欠損データメカニズムを詳細に説明することができる。 [2]

60症例の集団における、うつ病の重症度の推定値の確率分布を示している。真の母集団を標準正規分布、無回答となる確率をうつ病の重症度のロジスティック関数(うつ病が重症であるほど無回答になりやすい)と仮定する。 欠測データが多いほど推定の偏りが大きくなり、うつ病の重症度を過小評価する。

MCAR

完全にランダムな欠測(missing completely at random, MCAR)は、特定のデータ項目が失われる原因となるイベントが、観察可能か不可能かに関わらず全ての変数に依存せず、完全にランダムに発生する場合を指す [3] 。 MCAR であれば、無作為抽出した標本に相当し、バイアスのない解析が可能となるが、実際に MCAR であることは稀である。

MAR

ランダムな欠測(missing at random, MAR)は、欠測が完全にはランダムではないが、欠失のない変数を用いて欠落を完全に説明できる場合を指す。 MAR は統計的に検証することが不可能な仮定であり、合理的に仮定する必要がある。

MNAR

ランダムではない欠測(missing not at random, MNAR)は、無視できない無回答とも呼ばれ、MCAR にも MAR にも該当しない場合を意味する。すなわち、欠落している変数の値は欠落している理由に関連している [3]

「男性がうつ病調査に記入する可能性は低い」「男性の方がうつ病の重症度が高い」という事象を仮定すると、うつ病の重症度が高い方が(男性の可能性が高いので)欠測率が高くなることが想定され、MCAR にはならない。

ここで、「性別で層別化すると うつ病の重症度と欠測率とに関連がみられない」という事象が確認された場合、MAR とみなされる。

一方で、「性別で層別化しても うつ病の重症度と欠測率とに関連がみられる」という事象が確認された場合、「うつ病が重症すぎるから うつ病調査に記入できない」といった因果関係を想定すると、うつ病の重症度が欠測している以上、MNAR となる。

欠測データを処理する手法

欠測データによって、標本の代表性が低下するため、母集団に関する推論を歪める可能性がある。 一般的に、欠測データを処理するには3つの主要なアプローチがある。(1) 代入法 - 欠測データの代わりに値を代入する (2) 欠落 - 無効なデータを含むサンプルが以降の分析から破棄される (3) 解析法 - 欠測データの影響を受けない手法を直接適用する。

実験者は欠測の程度を制御し、データ収集前に欠測値を防ぐことができる場合がある。 コンピュータのアンケートでは、質問に答えないと次へ進むことができないようにすることが多い。こうしたアンケートにより参加者に起因する欠測値を排除することができるが、研究を監督する倫理委員会によって許可されない場合もある。調査研究では、対象となる個々人に連絡するため手を尽くすことが一般的であり、参加しない人に手紙を郵送して考えを変えるように説得する。 ただし、説得に応じる人たちと応じない人たちとでは背景が大きく異なる場合があるため、欠測データの影響をかえって増やしてしまう可能性もある 。

欠測値が発生する可能性が高い状況では、研究者はしばしば、欠測に対して堅牢なデータ分析手法を用いた研究計画を立てるようにアドバイスされる。 手法の主要な仮定に対する軽度から中程度の違反によって生じる偏りや結論の歪みがあってもわずかである場合、分析は堅牢であるといえる。

代入法 Imputation

欠測に対して堅牢ではないデータ解析手法に対しては、欠測データを「埋める」、すなわち代入する必要がある。欠測値に対して単一の値を代入する単一代入法(simple imputation)と、複数の値を代入する多重代入法(multiple imputation)とが知られている。

Rubin は、5回以下であっても、代入を繰り返すことで推定の質が大幅に向上すると主張した[1]。 実用上、2、3回の代入だけでも、多数回の代入と同等の効果が得られる。 ただし、代入の回数が少なすぎると、 統計的検出力が大幅に失われる可能性があり、20〜100回以上の代入を推奨している学者もいる。 多重代入法を用いた場合は代入したデータセットごとに解析を繰り返す必要があり、その解析結果を統合するのには複雑な手法が必要となる場合もある 。

期待値最大化アルゴリズムは、完全なデータセットが利用可能である場合に計算される統計量が、欠測データのパターンを考慮して推定(代入)される手法であり、欠測値そのものは代入されない。

補間 Interpolation

数値解析の数学的分野では、 補間は、既知のデータポイントの範囲内で新しいデータポイントを構築する方法である。

部分削除 Partial deletion

欠測値のないデータセットへと削減する手法には、次のものがある。

  • リストワイズ削除 / ケースワイズ削除
  • ペアワイズ削除

完全な分析 Full analysis

入手可能な情報を全て考慮する手法であり、代入された値を用いることによる歪みが生じない。

部分的な識別方法も使用できる。

モデルベースの手法

モデルベースの手法では、多くの場合、グラフを使用して欠測データの種類(MCAR、MAR、MNAR)をテストし、欠測データ下でパラメータを推定するためのツールを提供する。

3つの変数



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

「missing data」に関係したコラム

辞書ショートカット

すべての辞書の索引

「missing data」の関連用語

missing dataのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



missing dataのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
日本オペレーションズ・リサーチ学会日本オペレーションズ・リサーチ学会
Copyright (C) 2025 (社)日本オペレーションズ・リサーチ学会 All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの欠測データ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS