正則化双対平均化法(Regularized Dual Averaging Method)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/12 04:04 UTC 版)
「確率的勾配降下法」の記事における「正則化双対平均化法(Regularized Dual Averaging Method)」の解説
2009年に Lin Xiao が発表した方法。目的関数が下記のように汎化能力を高めるために L1 正則化を含む場合、確率的勾配降下法だとパラメータが 0 になりにくく、そのための対策をした方法。以下、この手法では Q(w) には λ ‖ w ‖ 1 {\displaystyle \lambda \|w\|_{1}} を含めずに、L1 正則化の効果を実現する。 Q ( w ) + λ ‖ w ‖ 1 {\displaystyle Q(w)+\lambda \|w\|_{1}} まず、勾配の平均を計算する。 g ¯ t = 1 t ∑ t ′ = 1 t ∇ Q ( w ) t ′ {\displaystyle {\overline {g}}_{t}={\frac {1}{t}}\sum _{t'=1}^{t}\nabla Q(w)_{t'}} その上で、パラメータの更新は以下の通り。ここでパラメータの初期値は0としている。 w i := { 0 if | g ¯ t , i | ≤ λ , − t γ ( g ¯ t , i − λ sgn ( g ¯ t , i ) ) otherwise. {\displaystyle w_{i}:={\begin{cases}0&{\text{if }}|{\overline {g}}_{t,i}|\leq \lambda ,\\-{\dfrac {\sqrt {t}}{\gamma }}\left({\overline {g}}_{t,i}-\lambda \operatorname {sgn}({\overline {g}}_{t,i})\right)&{\text{otherwise.}}\end{cases}}} L1 正則化と L2 正則化を Q ( w ) + λ ‖ w ‖ 1 + σ 2 ‖ w ‖ 2 2 {\displaystyle Q(w)+\lambda \|w\|_{1}+{\frac {\sigma }{2}}\|w\|_{2}^{2}} の形で混ぜる場合は、このようになる。 w i := { 0 if | g ¯ t , i | ≤ λ , − 1 σ ( g ¯ t , i − λ sgn ( g ¯ t , i ) ) otherwise. {\displaystyle w_{i}:={\begin{cases}0&{\text{if }}|{\overline {g}}_{t,i}|\leq \lambda ,\\-{\dfrac {1}{\sigma }}\left({\overline {g}}_{t,i}-\lambda \operatorname {sgn}({\overline {g}}_{t,i})\right)&{\text{otherwise.}}\end{cases}}} 以下のように、 λ {\displaystyle \lambda } を少しずつ大きくしていくと、疎になる度合いを徐々に高めていける。 λ = λ 0 + ρ / t {\displaystyle \lambda =\lambda _{0}+\rho /{\sqrt {t}}}
※この「正則化双対平均化法(Regularized Dual Averaging Method)」の解説は、「確率的勾配降下法」の解説の一部です。
「正則化双対平均化法(Regularized Dual Averaging Method)」を含む「確率的勾配降下法」の記事については、「確率的勾配降下法」の概要を参照ください。
- 正則化双対平均化法のページへのリンク