AdaGrad
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/12 04:04 UTC 版)
2011年に John Duchi らが発表した方法。 ∘ {\displaystyle \circ } はアダマール積(要素ごとの積)。下記計算、全てパラメータごと(要素ごと)に計算する。 ϵ {\displaystyle \epsilon } は無限大に発散させないための正の小さな定数。 r 0 = ϵ r t = r t − 1 + ∇ Q i ( w ) ∘ ∇ Q i ( w ) η t = η 0 r t w t + 1 = w t − η t ∘ ∇ Q i ( w ) {\displaystyle {\begin{aligned}r_{0}&=\epsilon \\r_{t}&=r_{t-1}+\nabla Q_{i}(w)\circ \nabla Q_{i}(w)\\\eta _{t}&={\frac {\eta _{0}}{\sqrt {r_{t}}}}\\w_{t+1}&=w_{t}-\eta _{t}\circ \nabla Q_{i}(w)\end{aligned}}} 正則化双対平均化法と AdaGrad を組み合わせる方法が、AdaGrad の発表と共に2011年に出ている。 u := u + ∇ Q ( w ) r := r + ∇ Q i ( w ) ∘ ∇ Q i ( w ) w i := { 0 if | u i | / t ≤ λ , − sgn ( u i ) η t r i ( | u i | t − λ ) otherwise. {\displaystyle {\begin{aligned}u&:=u+\nabla Q(w)\\r&:=r+\nabla Q_{i}(w)\circ \nabla Q_{i}(w)\\w_{i}&:={\begin{cases}0&{\text{if }}|u_{i}|/t\leq \lambda ,\\-\operatorname {sgn}(u_{i}){\dfrac {\eta t}{\sqrt {r_{i}}}}\left({\dfrac {|u_{i}|}{t}}-\lambda \right)&{\text{otherwise.}}\end{cases}}\end{aligned}}}
※この「AdaGrad」の解説は、「確率的勾配降下法」の解説の一部です。
「AdaGrad」を含む「確率的勾配降下法」の記事については、「確率的勾配降下法」の概要を参照ください。
- AdaGradのページへのリンク