ハミルトン–ヤコビ–ベルマン–アイザックス方程式
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/04/19 10:25 UTC 版)
「ハミルトン-ヤコビ-ベルマン方程式」の記事における「ハミルトン–ヤコビ–ベルマン–アイザックス方程式」の解説
プレイヤー1と2の二人からなる非協力ゼロサムゲームを考える。ミニマックス原理はこの設定でも成立し、プレイヤー1の最適制御問題はプレイヤー1の制御変数を u {\displaystyle u} として以下のように表される。 max u min v E { ∫ 0 T C ( t , X t , u t , v t ) d t + D ( X T ) } {\displaystyle \max _{u}\min _{v}\operatorname {E} \left\{\int _{0}^{T}C(t,X_{t},u_{t},v_{t})\,dt+D(X_{T})\right\}} ただし、状態変数 ( X t ) t ∈ [ 0 , T ] {\displaystyle (X_{t})_{t\in [0,T]}\,\!} は次の確率微分方程式に従うとする。 d X t = μ ( t , X t , u t , v t ) d t + σ ( t , X t , u t , v t ) d w t {\displaystyle dX_{t}=\mu (t,X_{t},u_{t},v_{t})dt+\sigma (t,X_{t},u_{t},v_{t})dw_{t}} この問題においてはプレイヤー2の制御変数 v {\displaystyle v} が問題に導入されている。プレイヤー1の問題の価値関数は以下のハミルトン–ヤコビ–ベルマン–アイザックス方程式(HJBI方程式、英: Hamilton–Jacobi–Bellman–Isaacs equation (HJBI equation))の粘性解となる。 − ∂ V ( x , t ) ∂ t − max u min u { A u , v V ( x , t ) + C ( t , x , u , v ) } = 0 , {\displaystyle -{\frac {\partial V(x,t)}{\partial t}}-\max _{u}\min _{u}\left\{{\mathcal {A}}^{u,v}V(x,t)+C(t,x,u,v)\right\}=0,} ここで、 A u , v {\displaystyle {\mathcal {A}}^{u,v}} は無限小生成作用素で以下のように表される。 A u , v V ( x , t ) := μ ( t , x , u , v ) ∂ V ( x , t ) ∂ x + 1 2 ( σ ( t , x , u , v ) ) 2 ∂ 2 V ( x , t ) ∂ x 2 {\displaystyle {\mathcal {A}}^{u,v}V(x,t):=\mu (t,x,u,v){\frac {\partial V(x,t)}{\partial x}}+{\frac {1}{2}}{\Big (}\sigma (t,x,u,v){\Big )}^{2}{\frac {\partial ^{2}V(x,t)}{\partial x^{2}}}} 終端条件は次式である。 V ( x , T ) = D ( x ) . {\displaystyle V(x,T)=D(x)\,\!.} HJBI方程式に含まれる u , v {\displaystyle u,v} についての最大化問題と最小化問題の解がこのゲームの(マルコフ)ナッシュ均衡となる。
※この「ハミルトン–ヤコビ–ベルマン–アイザックス方程式」の解説は、「ハミルトン-ヤコビ-ベルマン方程式」の解説の一部です。
「ハミルトン–ヤコビ–ベルマン–アイザックス方程式」を含む「ハミルトン-ヤコビ-ベルマン方程式」の記事については、「ハミルトン-ヤコビ-ベルマン方程式」の概要を参照ください。
- ハミルトン–ヤコビ–ベルマン–アイザックス方程式のページへのリンク