HJB方程式の導出
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/04/19 10:25 UTC 版)
「ハミルトン-ヤコビ-ベルマン方程式」の記事における「HJB方程式の導出」の解説
直感的には、HJB方程式は以下のように導出できる。 V ( x ( t ) , t ) {\displaystyle V(x(t),t)} が上述の価値関数(すなわち最小コスト)であったとすれば、Richard-Bellmanの「最適性の原理」から、 時間 t {\displaystyle t} から t + d t {\displaystyle t+dt} までの変化は次式で表現できる。 V ( x ( t ) , t ) = min u { ∫ t t + d t C ( x ( s ) , u ( s ) ) d s + V ( x ( t + d t ) , t + d t ) } . {\displaystyle V(x(t),t)=\min _{u}\left\{\int _{t}^{t+dt}\!\!\!\!\!\!\!\!C(x(s),u(s))\,ds\;\;+\;\;V(x(t\!+\!dt),t\!+\!dt)\right\}.} 右辺の第二項が次のように テイラー展開 できることに注目しよう。 V ( x ( t + d t ) , t + d t ) = V ( x ( t ) , t ) + V ˙ ( x ( t ) , t ) d t + ∇ V ( x ( t ) , t ) ⋅ x ˙ ( t ) d t + o ( d t ) , {\displaystyle V(x(t\!+\!dt),t\!+\!dt)\;=\;V(x(t),t)+{\dot {V}}(x(t),t)\,dt+\nabla V(x(t),t)\cdot {\dot {x}}(t)\,dt\;+\;o(dt),} o ( d t ) {\displaystyle o(dt)} はテイラー展開の2次以上の高次項をランダウ記法で表現したものなので無視することにする。価値関数の式にこれを代入した後、 両辺の V ( x ( t ) , t ) {\displaystyle V(x(t),t)} を相殺し、 d t {\displaystyle dt} で割ってゼロに漸近させれば、上述のHJB方程式が導出できる。
※この「HJB方程式の導出」の解説は、「ハミルトン-ヤコビ-ベルマン方程式」の解説の一部です。
「HJB方程式の導出」を含む「ハミルトン-ヤコビ-ベルマン方程式」の記事については、「ハミルトン-ヤコビ-ベルマン方程式」の概要を参照ください。
- HJB方程式の導出のページへのリンク