価値反復法とは? わかりやすく解説

価値反復法

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)

マルコフ決定過程」の記事における「価値反復法」の解説

価値反復法 (value iteration)は後ろ向き帰納法 (backward induction) とも呼ばれベルマン方程式満たす価値関数繰り返し計算により求める。 ロイド・シャープレー1953年発表した確率ゲーム英語版に関する論文には価値反復法の特殊な場合含まれるが、このことが認知されたのは後になってからである. ステップ i {\displaystyle i} における価値関数計算結果V i ( s ) {\displaystyle V_{i}(s)} と表記すると、価値反復法における更新式はつぎのように記述される: V i + 1 ( s )max a ∈ A s ∑ s ′ ∈ S T ( s , a , s ′ ) ( R ( s , a , s ′ ) + γ V i ( s ′ ) ) ∀ s ∈ S {\displaystyle V_{i+1}(s)\leftarrow \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V_{i}(s'){\Big )}\quad \forall s\in S} 上式をすべての状態において値が収束するまで繰り返したときの値を V ∞ ( s ) {\displaystyle V^{\infty }(s)} とし、最適政策 π ∗ {\displaystyle \pi ^{*}} を次式で求める。 π ∗ ( s )argmax a ∈ A s ∑ s ′ ∈ S T ( s , a , s ′ ) ( R ( s , a , s ′ ) + γ V ∞ ( s ′ ) ) ∀ s ∈ S {\displaystyle \pi ^{*}(s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\infty }(s'){\Big )}\quad \forall s\in S}

※この「価値反復法」の解説は、「マルコフ決定過程」の解説の一部です。
「価値反復法」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「価値反復法」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「価値反復法」の関連用語

価値反復法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



価値反復法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのマルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS