学習率の調整方法とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > 学習率の調整方法の意味・解説 

学習率の調整方法

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/04 07:58 UTC 版)

バックプロパゲーション」の記事における「学習率の調整方法」の解説

学習率の調整方法として2011年John DuchiらがAdaGrad発表し2012年RMSProp発表された。ヤン・ルカンらは1998年パラメータごとに学習率を変えた方が良い述べているが、これらもパラメータごとに学習率を変えている。これらの手法のコンセプト勾配なめらかな所で学習率を高めることにある。 AdaGradは以下の方法学習率 η t {\displaystyle \eta _{t}} をパラメータごとに設定していく。方法としてはパラメータごとに誤差関数勾配二乗累積和計算し学習率はその平方根で割る。 ϵ {\displaystyle \epsilon } はrが0に近い時に学習率が無限大行かないようにするために入れる物で、例え10 − 4 {\displaystyle 10^{-4}} 等の小さな数値入れる。 η 0 {\displaystyle \eta _{0}} は全パラメータ共通の学習率の初期値。tはエポック数。 r t = r t − 1 + ( ∂ E t ∂ w ) 2 η t = η 0 r t + ϵ {\displaystyle {\begin{aligned}r_{t}&=r_{t-1}+\left({\frac {\partial E_{t}}{\partial w}}\right)^{2}\\\eta _{t}&={\frac {\eta _{0}}{\sqrt {r_{t}+\epsilon }}}\end{aligned}}} RMSPropは以下の方法学習率 η t {\displaystyle \eta _{t}} をパラメータごとに設定していく。AdaGrad との違いは、誤差関数勾配二乗を扱う際に累積和ではなく指数移動平均を使うことにある。追加になったハイパーパラメータは β {\displaystyle \beta } で0.9等を使う。AdaGradでは学習率は常に減少していくが、指数移動平均使ったことにより、増減するようになったr t = β r t − 1 + ( 1 − β ) ( ∂ E t ∂ w ) 2 η t = η 0 r t + ϵ {\displaystyle {\begin{aligned}r_{t}&=\beta r_{t-1}+(1-\beta )\left({\frac {\partial E_{t}}{\partial w}}\right)^{2}\\\eta _{t}&={\frac {\eta _{0}}{\sqrt {r_{t}+\epsilon }}}\end{aligned}}}

※この「学習率の調整方法」の解説は、「バックプロパゲーション」の解説の一部です。
「学習率の調整方法」を含む「バックプロパゲーション」の記事については、「バックプロパゲーション」の概要を参照ください。

ウィキペディア小見出し辞書の「学習率の調整方法」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「学習率の調整方法」の関連用語

学習率の調整方法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



学習率の調整方法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのバックプロパゲーション (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS