モデルベースの手法
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/27 06:32 UTC 版)
モデルベースの手法では、多くの場合、グラフを使用して欠測データの種類(MCAR、MAR、MNAR)をテストし、欠測データ下でパラメータを推定するためのツールを提供する。 3つの変数 X {\displaystyle X} 、 Y {\displaystyle Y} 、 Z {\displaystyle Z} について、 X {\displaystyle X} と Y {\displaystyle Y} のみに欠測値がある場合、欠測データの種類が MAR または MCAR となるためには、以下の条件を満たす必要がある。 X ⊥ ⊥ R y | ( R x , Z ) {\displaystyle X\perp \!\!\!\perp R_{y}\,|\,(R_{x},Z)} 言い換えると、 X {\displaystyle X} の観測された部分は、 Z {\displaystyle Z} のすべての値を条件として、 Y {\displaystyle Y} の欠落ステータスに依存しないはずであり、この条件を満たすことができない場合は、欠測データの種類が MNAR であることを示している。これらのテストは、イベントベースの MAR とはわずかに異なる、変数ベースの MAR に必要とされる。 データが MNAR カテゴリに分類される場合でも、特定の条件がモデルに当てはまる場合、パラメータを一貫して推定するための手法を利用できる 。たとえば、 Y {\displaystyle Y} が X {\displaystyle X} の欠測の理由となり、 Y {\displaystyle Y} 自体に欠測値がある場合、 Y {\displaystyle Y} の欠測がランダムであるならば、 X {\displaystyle X} と Y {\displaystyle Y} の同時確率分布を推定することができる。 この場合の推定値は次のようになる。 P ( X , Y ) = P ( X | Y ) P ( Y ) = P ( X | Y , R x = 0 , R y = 0 ) P ( Y | R y = 0 ) {\displaystyle {\begin{aligned}P(X,\,Y)&=P(X\,|\,Y)\,P(Y)\\&=P(X\,|\,Y,\,R_{x}=0,\,R_{y}=0)\,P(Y\,|\,R_{y}=0)\end{aligned}}} ここで、 R x = 0 {\displaystyle R_{x}=0} と R y = 0 {\displaystyle R_{y}=0} は、それぞれの変数の観測された部分を示す。 一貫した推定が可能であっても、モデル構造によって推定値も推定手順も異なる可能性がある。 前述の推定では、まずは欠測のないデータから P ( X | Y ) {\displaystyle P(X\,|\,Y)} を推定し、 X {\displaystyle X} によらない Y {\displaystyle Y} の確率である P ( Y ) {\displaystyle P(Y)} を乗じる必要がある。さらに、一貫した推定値を得るには、最初の項が P ( Y | X ) {\displaystyle P(Y\,|\,X)} ではなく P ( X | Y ) {\displaystyle P(X\,|\,Y)} である必要がある。 多くの場合、モデルベースの手法では、モデル構造に対して検証することができる 。欠測値のある変数 X {\displaystyle X} と別の変数 Y {\displaystyle Y} の欠測インジケーター R y {\displaystyle R_{y}} との間の独立性を暗示するモデルでは、次の仮説を提示することができる。 X ⊥ ⊥ R y | R x = 0 {\displaystyle X\perp \!\!\!\perp R_{y}\,|\,R_{x}=0} 最後に、これらの手法から得られる推定値は閉じた形式で導出され、局所最適化の影響を受けやすい期待値最大化などの反復手順を必要としない。 欠測率が時間に依存する場合、特別な問題が発生する。 たとえば、外傷データベースでは、外傷のアウトカムに関するデータの欠測率は、外傷後の経過日数によって異なる。こうした場合、さまざまな非定常マルコフ連鎖モデルが適用される。
※この「モデルベースの手法」の解説は、「欠測データ」の解説の一部です。
「モデルベースの手法」を含む「欠測データ」の記事については、「欠測データ」の概要を参照ください。
- モデルベースの手法のページへのリンク