AdaDelta
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/12 04:04 UTC 版)
「確率的勾配降下法」の記事における「AdaDelta」の解説
2012年に Matthew D. Zeiler が発表した方法。AdaGrad や RMSProp の変形。初期学習率のハイパーパラメータがなくなっている。 r t = β r t − 1 + ( 1 − β ) ∇ Q i ( w ) ∘ ∇ Q i ( w ) v t = s t + ϵ r t + ϵ ∘ ∇ Q i ( w ) s t + 1 = β s t + ( 1 − β ) v t ∘ v t w t + 1 = w t − v t {\displaystyle {\begin{aligned}r_{t}&=\beta r_{t-1}+(1-\beta )\nabla Q_{i}(w)\circ \nabla Q_{i}(w)\\v_{t}&={\frac {{\sqrt {s_{t}}}+\epsilon }{{\sqrt {r_{t}}}+\epsilon }}\circ \nabla Q_{i}(w)\\s_{t+1}&=\beta s_{t}+(1-\beta )v_{t}\circ v_{t}\\w_{t+1}&=w_{t}-v_{t}\end{aligned}}}
※この「AdaDelta」の解説は、「確率的勾配降下法」の解説の一部です。
「AdaDelta」を含む「確率的勾配降下法」の記事については、「確率的勾配降下法」の概要を参照ください。
- AdaDeltaのページへのリンク