統計および機械学習における正則化
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/08/04 02:01 UTC 版)
「正則化」の記事における「統計および機械学習における正則化」の解説
統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。 機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数(英語版) E ( w ) {\displaystyle E({\boldsymbol {w}})} の代わりに、 E ( w ) + λ 1 p ‖ w ‖ p p = E ( w ) + λ 1 p ∑ i | w i | p {\displaystyle E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\|{\boldsymbol {w}}\|_{p}^{p}=E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\sum _{i}|w_{i}|^{p}} を使用する。 w {\displaystyle {\boldsymbol {w}}} はパラメータのベクトルで、 ‖ ⋅ ‖ p {\displaystyle \|\cdot \|_{p}} は L1 ノルム (p=1) や L2 ノルム (p=2) などである。 λ {\displaystyle \lambda } はハイパーパラメータで、正の定数で、大きくするほど正則化の効果が強くなるが、交差確認などで決める。 損失関数をパラメータで偏微分すると、 L2 正則化の場合 ∂ E ( w ) ∂ w i + λ w i {\displaystyle {\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda w_{i}} L1 正則化の場合 ∂ E ( w ) ∂ w i + λ sgn ( w i ) {\displaystyle {\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda \operatorname {sgn}(w_{i})} となり、これは、最急降下法や確率的勾配降下法を使用する場合は、L2 正則化はパラメータの大きさに比例した分だけ、L1 正則化は λ {\displaystyle \lambda } だけ 0 に近づけることを意味する。 この手法は様々なモデルで利用できる。線形回帰モデルに利用した場合は、L1 の場合は Lasso、L2 の場合はリッジ回帰と呼ぶ。ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン、条件付き確率場 などでも使われる。ニューラルネットワークの世界では、L2 正則化は荷重減衰(英: weight decay)とも呼ばれる。
※この「統計および機械学習における正則化」の解説は、「正則化」の解説の一部です。
「統計および機械学習における正則化」を含む「正則化」の記事については、「正則化」の概要を参照ください。
- 統計および機械学習における正則化のページへのリンク