欠損データ
欠測データ
欠測データ(けっそくデータ、英語:missing data)または欠測値(けっそくち、英語:missing values)は、観測において、変数に値が格納されないときに発生する。欠損データ、欠落データなどとも訳される。データの欠測はよくあることであり、データから引き出す結論に甚大な影響を与える場合がある。
概要
無回答は、対象の一つ以上の項目について情報が全く得られないことを意味し、欠測の原因となる。例えば、収入などのプライベートな項目は、無回答となりやすい。
漸減は、縦断的研究における欠測の原因となる。例えば、一定期間後に測定が繰り返される発達の研究では、テストが終了する前に参加者が脱落することで欠測となる。
経済学、社会学、政治学の研究では、政府や民間団体が重要な統計を報告しないことを選択した、報告できなかった、情報が得られなかった、などの理由から、データが欠落していることがよくある。データ収集が不適切だった、データ入力に誤りがあった、など、研究者が欠測値を引き起こすこともある。 [1]
これらの欠落の形式にはさまざまなタイプがあり、研究からの結論の妥当性にさまざまな影響を与える。 欠測データは打ち切りデータと同様に処理することができる。
欠測の種類
データが欠落している理由を理解することは、残りのデータを正しく処理するために重要である。欠測が完全にランダムである場合、標本は母集団を表しているといえる。 ただし、値が体系的に欠落している場合は、分析にバイアスがかかる可能性がある。たとえば、IQと収入の関係の調査で、IQ の高い参加者に収入を答えない傾向があった場合、この欠損値のタイプ(MAR として以下に記述)を念頭に置かなければ、IQと給与の間の正の相関を見逃してしまう可能性がある。こうしたことから、方法論者は、欠測値の発生を最小限に抑えるための研究を設計するように研究者に日常的にアドバイスしている。 [1]
図を使用して、欠損データメカニズムを詳細に説明することができる。 [2]

MCAR
完全にランダムな欠測(missing completely at random, MCAR)は、特定のデータ項目が失われる原因となるイベントが、観察可能か不可能かに関わらず全ての変数に依存せず、完全にランダムに発生する場合を指す [3] 。 MCAR であれば、無作為抽出した標本に相当し、バイアスのない解析が可能となるが、実際に MCAR であることは稀である。
MAR
ランダムな欠測(missing at random, MAR)は、欠測が完全にはランダムではないが、欠失のない変数を用いて欠落を完全に説明できる場合を指す。 MAR は統計的に検証することが不可能な仮定であり、合理的に仮定する必要がある。
MNAR
ランダムではない欠測(missing not at random, MNAR)は、無視できない無回答とも呼ばれ、MCAR にも MAR にも該当しない場合を意味する。すなわち、欠落している変数の値は欠落している理由に関連している [3] 。
例
「男性がうつ病調査に記入する可能性は低い」「男性の方がうつ病の重症度が高い」という事象を仮定すると、うつ病の重症度が高い方が(男性の可能性が高いので)欠測率が高くなることが想定され、MCAR にはならない。
ここで、「性別で層別化すると うつ病の重症度と欠測率とに関連がみられない」という事象が確認された場合、MAR とみなされる。
一方で、「性別で層別化しても うつ病の重症度と欠測率とに関連がみられる」という事象が確認された場合、「うつ病が重症すぎるから うつ病調査に記入できない」といった因果関係を想定すると、うつ病の重症度が欠測している以上、MNAR となる。
欠測データを処理する手法
欠測データによって、標本の代表性が低下するため、母集団に関する推論を歪める可能性がある。 一般的に、欠測データを処理するには3つの主要なアプローチがある。(1) 代入法 - 欠測データの代わりに値を代入する (2) 欠落 - 無効なデータを含むサンプルが以降の分析から破棄される (3) 解析法 - 欠測データの影響を受けない手法を直接適用する。
実験者は欠測の程度を制御し、データ収集前に欠測値を防ぐことができる場合がある。 コンピュータのアンケートでは、質問に答えないと次へ進むことができないようにすることが多い。こうしたアンケートにより参加者に起因する欠測値を排除することができるが、研究を監督する倫理委員会によって許可されない場合もある。調査研究では、対象となる個々人に連絡するため手を尽くすことが一般的であり、参加しない人に手紙を郵送して考えを変えるように説得する。 ただし、説得に応じる人たちと応じない人たちとでは背景が大きく異なる場合があるため、欠測データの影響をかえって増やしてしまう可能性もある 。
欠測値が発生する可能性が高い状況では、研究者はしばしば、欠測に対して堅牢なデータ分析手法を用いた研究計画を立てるようにアドバイスされる。 手法の主要な仮定に対する軽度から中程度の違反によって生じる偏りや結論の歪みがあってもわずかである場合、分析は堅牢であるといえる。
代入法 Imputation
欠測に対して堅牢ではないデータ解析手法に対しては、欠測データを「埋める」、すなわち代入する必要がある。欠測値に対して単一の値を代入する単一代入法(simple imputation)と、複数の値を代入する多重代入法(multiple imputation)とが知られている。
Rubin は、5回以下であっても、代入を繰り返すことで推定の質が大幅に向上すると主張した[1]。 実用上、2、3回の代入だけでも、多数回の代入と同等の効果が得られる。 ただし、代入の回数が少なすぎると、 統計的検出力が大幅に失われる可能性があり、20〜100回以上の代入を推奨している学者もいる。 多重代入法を用いた場合は代入したデータセットごとに解析を繰り返す必要があり、その解析結果を統合するのには複雑な手法が必要となる場合もある 。
期待値最大化アルゴリズムは、完全なデータセットが利用可能である場合に計算される統計量が、欠測データのパターンを考慮して推定(代入)される手法であり、欠測値そのものは代入されない。
補間 Interpolation
数値解析の数学的分野では、 補間は、既知のデータポイントの範囲内で新しいデータポイントを構築する方法である。
部分削除 Partial deletion
欠測値のないデータセットへと削減する手法には、次のものがある。
- リストワイズ削除 / ケースワイズ削除
- ペアワイズ削除
完全な分析 Full analysis
入手可能な情報を全て考慮する手法であり、代入された値を用いることによる歪みが生じない。
- 生成的アプローチ:
- 期待値最大化アルゴリズム
- 完全な情報の最尤推定
- 識別的アプローチ:
- 欠測データの最大マージン分類
部分的な識別方法も使用できる。
モデルベースの手法
モデルベースの手法では、多くの場合、グラフを使用して欠測データの種類(MCAR、MAR、MNAR)をテストし、欠測データ下でパラメータを推定するためのツールを提供する。
3つの変数
「missing data」に関係したコラム
FXのチャート分析ソフトMT4で10分足や2時間足などを表示するには
FX(外国為替証拠金取引)のチャート分析ソフトMT4(Meta Trader 4)では、次の時間足の表示ができます。ティック1分足5分足15分足30分足1時間足4時間足日足週足MT4では、10分足や1...
- missing dataのページへのリンク