分散拡大係数
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/09/30 04:08 UTC 版)
定義
以下の k 個の独立変数を持った線形モデル(linear model)を考える。
Y = β0 + β1 X1 + β2 X 2 + ... + βk Xk + ε.
推定値 βj の標準誤差は s2(X′X)−1 の j+1, j+1 要素の平方根である。ここで、 s は2乗平均平方根誤差(RMSE)である(RMSE2 は誤差項の真の分散 の一致推定量である)。X は計画行列である。βj の推定量の分散は次式で表される。
ここで、Rj2 は、他の共変量に対する Xj の回帰における決定係数である(目的変数の Y は回帰に含めない)。これにより、係数推定の分散に関していくつかの因子の影響を分離する。
- s2: 回帰面のデータの散らばりが大きくなると、係数の推定値の分散が大きくなる。
- n: サンプルサイズが大きくなると、係数の推定値の分散が小さくなる。
- : 共変量の分散が大きいと、係数の推定値の分散が小さくなる。
残りの項の 1 / (1 − Rj2) が VIF である。係数の推定の不確かさに影響を与えるほかのすべての因子を反映している。ベクトル Xj が他の共変量に対する Xj の回帰における計画行列の各々の列に対して直交しているとき、 VIF が 1 となる。そうでない場合は、1 より大きくなる。VIF は変量のスケールに対して不変である(VIFを変えずに、定数 cj によって Xj のスケーリングが可能)。
計算と分析
以下の3ステップにより、k 個の VIF を計算することができる。
ステップ1
最初に、Xiを目的変数とし、他の変数を説明変数とした最小二乗回帰を行う。 i = 1 であれば、以下のような等式となる。
ここで、c0 は定数であり、e は誤差である。
ステップ2
次式により、 に対する VIF ファクターを計算する。
ここで、R2i はステップ1における回帰の決定係数である。
ステップ3
の大きさを考慮し、多重共線性の程度を分析する。経験的に、 であれば多重共線性の程度は大きい。 ソフトウェアによっては、VIFの逆数である許容誤差を計算する。
- 1 分散拡大係数とは
- 2 分散拡大係数の概要
- 3 解釈
- 分散拡大係数のページへのリンク