政策反復法とは? わかりやすく解説

政策反復法

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)

マルコフ決定過程」の記事における「政策反復法」の解説

政策反復法 (policy iteration)では、政策固定の下で行われる価値関数更新 (policy evaluation) と、価値関数固定のもとで行われる政策更新 (policy improvement) を交互に行うことで最適政策求める。 次の線形方程式解き価値関数更新する V π ( s ) = R π ( s ) + γ ∑ a ∈ A ∑ s ′ ∈ S π ( s , a ) T ( s , a , s ′ ) V π ( s ′ ) {\displaystyle V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')} 政策を次式で更新する π ( s ) ← argmax a ∈ A s ∑ s ′ ∈ S T ( s , a , s ′ ) ( R ( s , a , s ′ ) + γ V π ( s ′ ) ) ∀ s ∈ S {\displaystyle \pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S} これらの操作を π {\displaystyle \pi } がすべての状態に対し変化しなくなるまで繰り返すことで、最適政策を得る。政策反復法は離散値を取る政策の値が変化しなくなるという明確な終了条件を持つため有限時間アルゴリズム終了するという利点を持つ。

※この「政策反復法」の解説は、「マルコフ決定過程」の解説の一部です。
「政策反復法」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「政策反復法」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「政策反復法」の関連用語

政策反復法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



政策反復法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのマルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS