AdaGradとは? わかりやすく解説

AdaGrad

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/12 04:04 UTC 版)

確率的勾配降下法」の記事における「AdaGrad」の解説

2011年John Duchi らが発表した方法。 ∘ {\displaystyle \circ } はアダマール積要素ごとの積)。下記計算全てパラメータごと(要素ごと)に計算する。 ϵ {\displaystyle \epsilon } は無限大発散させないための正の小さな定数r 0 = ϵ r t = r t − 1 + ∇ Q i ( w ) ∘ ∇ Q i ( w ) η t = η 0 r t w t + 1 = w t − η t ∘ ∇ Q i ( w ) {\displaystyle {\begin{aligned}r_{0}&=\epsilon \\r_{t}&=r_{t-1}+\nabla Q_{i}(w)\circ \nabla Q_{i}(w)\\\eta _{t}&={\frac {\eta _{0}}{\sqrt {r_{t}}}}\\w_{t+1}&=w_{t}-\eta _{t}\circ \nabla Q_{i}(w)\end{aligned}}} 正則化双対平均化法と AdaGrad を組み合わせる方法が、AdaGrad の発表と共に2011年出ている。 u := u + ∇ Q ( w ) r := r + ∇ Q i ( w ) ∘ ∇ Q i ( w ) w i := { 0 if  | u i | / t ≤ λ , − sgn ⁡ ( u i ) η t r i ( | u i | t − λ ) otherwise. {\displaystyle {\begin{aligned}u&:=u+\nabla Q(w)\\r&:=r+\nabla Q_{i}(w)\circ \nabla Q_{i}(w)\\w_{i}&:={\begin{cases}0&{\text{if }}|u_{i}|/t\leq \lambda ,\\-\operatorname {sgn}(u_{i}){\dfrac {\eta t}{\sqrt {r_{i}}}}\left({\dfrac {|u_{i}|}{t}}-\lambda \right)&{\text{otherwise.}}\end{cases}}\end{aligned}}}

※この「AdaGrad」の解説は、「確率的勾配降下法」の解説の一部です。
「AdaGrad」を含む「確率的勾配降下法」の記事については、「確率的勾配降下法」の概要を参照ください。

ウィキペディア小見出し辞書の「AdaGrad」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「AdaGrad」の関連用語

AdaGradのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



AdaGradのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの確率的勾配降下法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS