政策反復法とは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

政策反復法

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/05/05 04:50 UTC 版)

政策反復法 (policy iteration)では、政策固定の下で行われる価値関数の更新 (policy evaluation) と、価値関数固定のもとで行われる政策の更新 (policy improvement) を交互に行うことで最適政策を求める。次の線形方程式を解き、価値関数を更新する V π ( s ) = R π ( s ) + γ ∑ a ∈ A ∑ s ′ ∈ S π ( s , a ) T ( s , a , s ′ ) V π ( s ′ ) {\displaystyle V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')} 政策を次式で更新する π ( s ) ← arg ⁡ max a ∈ A s ∑ s ′ ∈ S T ( s , a , s ′ ) ( R ( s , a , s ′ ) + γ V π ( s ′ ) ) ∀ s ∈ S {\displaystyle \pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S} これらの操作を π {\displaystyle \pi } がすべての状態に対し変化しなくなるまで繰り返すことで、最適政策を得る。政策反復法は離散値を取る政策の値が変化しなくなるという明確な終了条件を持つため有限時間でアルゴリズムが終了するという利点を持つ。

※この「政策反復法」の解説は、「マルコフ決定過程」の解説の一部です。
「政策反復法」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「政策反復法」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのマルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。