二乗誤差のバイアス-バリアンス分解
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/08/04 14:39 UTC 版)
「偏りと分散」の記事における「二乗誤差のバイアス-バリアンス分解」の解説
データとして入力 x 1 , … , x n {\displaystyle x_{1},\dots ,x_{n}} があり、出力は y i {\displaystyle y_{i}} とする。真の関数 y = f ( x ) + ε {\displaystyle y=f(x)+\varepsilon } が存在し、 ε {\displaystyle \varepsilon } は平均0分散 σ 2 {\displaystyle \sigma ^{2}} のノイズである。 真の関数 f ( x ) {\displaystyle f(x)} を可能な限り近似した f ^ ( x ) {\displaystyle {\hat {f}}(x)} を推定したいとする。可能な限りの意味として、ここでは二乗誤差 ( y − f ^ ( x ) ) 2 {\displaystyle (y-{\hat {f}}(x))^{2}} を訓練データだけでなく、全てのデータにおいて最小化したいとする。ここで y i {\displaystyle y_{i}} はノイズ ε {\displaystyle \varepsilon } を含んでいるので、原理上、完璧に推定することは不可能である。 訓練データから f ^ {\displaystyle {\hat {f}}} を推定する教師あり学習のアルゴリズムは無数にあるが、どのアルゴリズムであっても、二乗誤差の期待値は以下のように分解できる。 E [ ( y − f ^ ( x ) ) 2 ] = ( Bias [ f ^ ( x ) ] ) 2 + Var [ f ^ ( x ) ] + σ 2 {\displaystyle \operatorname {E} {\Big [}{\big (}y-{\hat {f}}(x){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}{\Big )}^{2}+\operatorname {Var} {\big [}{\hat {f}}(x){\big ]}+\sigma ^{2}} Bias [ f ^ ( x ) ] = E [ f ^ ( x ) ] − f ( x ) {\displaystyle \operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}=\operatorname {E} {\big [}{\hat {f}}(x){\big ]}-f(x)} Var [ f ^ ( x ) ] = E [ f ^ ( x ) 2 ] − E [ f ^ ( x ) ] 2 . {\displaystyle \operatorname {Var} {\big [}{\hat {f}}(x){\big ]}=\operatorname {E} [{\hat {f}}(x)^{2}]-\operatorname {E} [{\hat {f}}(x)]^{2}.}
※この「二乗誤差のバイアス-バリアンス分解」の解説は、「偏りと分散」の解説の一部です。
「二乗誤差のバイアス-バリアンス分解」を含む「偏りと分散」の記事については、「偏りと分散」の概要を参照ください。
- 二乗誤差のバイアス-バリアンス分解のページへのリンク