動的決定問題
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/03 14:35 UTC 版)
時刻 t {\displaystyle t} における状態を x t {\displaystyle x_{t}} とする。時刻0から始まる決定問題において、初期状態 x 0 {\displaystyle x_{0}} は与えられているものとする。任意の時間において、選択可能なアクションはその時の状態の関数であり、 a t ∈ Γ ( x t ) {\displaystyle a_{t}\in \Gamma (x_{t})} と表すことができる。 a t {\displaystyle a_{t}} は一つ以上の制御変数を表している。アクション a {\displaystyle a} が選ばれると、それによって状態は x {\displaystyle x} から新しい状態 T ( x , a ) {\displaystyle T(x,a)} へと変化するものとする。さらに、状態 x {\displaystyle x} においてアクション a {\displaystyle a} をとった時の損得を F ( x , a ) {\displaystyle F(x,a)} で表す。最後に、我々は性急さ(せっかちさ)の度合いが、割引率(discount factor) 0 < β < 1 {\displaystyle 0<\beta <1} で表されるものとする。 これらの仮定の下で、無限の未来までを考慮した決定問題(無限期間の最適化問題) は次式となる。 V ( x 0 ) = max { a t } t = 0 ∞ ∑ t = 0 ∞ β t F ( x t , a t ) , {\displaystyle V(x_{0})\;=\;\max _{\left\{a_{t}\right\}_{t=0}^{\infty }}\sum _{t=0}^{\infty }\beta ^{t}F(x_{t},a_{t}),} ただし次の条件のもとで: a t ∈ Γ ( x t ) , x t + 1 = T ( x t , a t ) , ∀ t = 0 , 1 , 2 , … {\displaystyle a_{t}\in \Gamma (x_{t}),\;x_{t+1}=T(x_{t},a_{t}),\;\forall t=0,1,2,\dots } 想定された拘束条件のもとで目的関数を最適化した結果としての、最適な値を表現するものとして V ( x 0 ) {\displaystyle V(x_{0})} を定義したことに注意しよう。この関数を価値関数 (value function)と呼ぶ。最適値は初期状態によって変化するから、価値関数 V ( x 0 ) {\displaystyle V(x_{0})} は初期状態 x 0 {\displaystyle x_{0}} の関数となる。
※この「動的決定問題」の解説は、「ベルマン方程式」の解説の一部です。
「動的決定問題」を含む「ベルマン方程式」の記事については、「ベルマン方程式」の概要を参照ください。
- 動的決定問題のページへのリンク