誤差と残差
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/04/11 01:18 UTC 版)
「スチューデント化残差」の記事における「誤差と残差」の解説
誤差と残差の違いを理解することは非常に重要である。簡単な線形回帰モデル Y i = α 0 + α 1 x i + ε i , {\displaystyle Y_{i}=\alpha _{0}+\alpha _{1}x_{i}+\varepsilon _{i},} を考えよう。ここで「誤差」 εi , i = 1, ... , n は統計的に独立 ですべて同じ分散 σ2 をもつものとする。 残差は真でなく観測もできない誤差ではなく、観測可能なデータに基く誤差の推定値である。最小二乗法で α0 と α1を推定したとき、(誤差と異なり)残差は、独立ではありえない。なぜなら残差は以下の 2 つの拘束条件を満たすからである。 ∑ i = 1 n ε ^ i = 0 , ∑ i = 1 n ε ^ i x i = 0 {\displaystyle \sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}=0,\qquad \sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}x_{i}=0} ここで ε i {\displaystyle \varepsilon _{i}} は i 番目の誤差、 ε ^ i {\displaystyle {\widehat {\varepsilon }}_{i}} は i 番目の残差を表す。 さらに、誤差と異なり残差は、同じ分散を持たない。分散は対応する x-値が x-値の平均から遠ざかるにつれ減少する。これは回帰分析の予測値が、説明変数の分布する領域の端の方であるほどより影響を受けることと、データの回帰係数に及ぼす影響力が高いほど変わりやすいということによるものである。これは説明変数の分布の端の方のデータにおける残差はまた傾きの推定値によって大きく影響を受けるが、説明変数の分布の平均辺りのデータにおける残差は傾きによる影響をあまり受けないということによっても確認できる。真の誤差の分散がすべて等しいにもかかわらず残差の分散が異なるという事実は、スチューデント化が必要な主要な理由である。これは単に母集団パラメータ(平均と標準偏差)が未知であるという問題ではなく、一変量分布についての点推定のように同じ残差分布をデータが共有するのとは異なり、回帰分析するということが異なるデータポイントに対して異なる残差分布を生み出してしまうということである。
※この「誤差と残差」の解説は、「スチューデント化残差」の解説の一部です。
「誤差と残差」を含む「スチューデント化残差」の記事については、「スチューデント化残差」の概要を参照ください。
- 誤差と残差のページへのリンク