政策反復法
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)
政策反復法 (policy iteration)では、政策固定の下で行われる価値関数の更新 (policy evaluation) と、価値関数固定のもとで行われる政策の更新 (policy improvement) を交互に行うことで最適政策を求める。 次の線形方程式を解き、価値関数を更新する V π ( s ) = R π ( s ) + γ ∑ a ∈ A ∑ s ′ ∈ S π ( s , a ) T ( s , a , s ′ ) V π ( s ′ ) {\displaystyle V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')} 政策を次式で更新する π ( s ) ← arg max a ∈ A s ∑ s ′ ∈ S T ( s , a , s ′ ) ( R ( s , a , s ′ ) + γ V π ( s ′ ) ) ∀ s ∈ S {\displaystyle \pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S} これらの操作を π {\displaystyle \pi } がすべての状態に対し変化しなくなるまで繰り返すことで、最適政策を得る。政策反復法は離散値を取る政策の値が変化しなくなるという明確な終了条件を持つため有限時間でアルゴリズムが終了するという利点を持つ。
※この「政策反復法」の解説は、「マルコフ決定過程」の解説の一部です。
「政策反復法」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。
- 政策反復法のページへのリンク