確率的な問題におけるベルマン方程式
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/03 14:35 UTC 版)
「ベルマン方程式」の記事における「確率的な問題におけるベルマン方程式」の解説
「マルコフ過程」も参照 決定論的な条件では、上述の最適制御問題を解くために動的計画法以外の手法を用いることが出来る。ある種の問題に対しては、この手法は便利であるが、確率過程のもつ性質に注意する必要がある。 経済学における具体的な例題として、時刻 0 {\displaystyle 0} において初期富(初期資産) a 0 {\displaystyle a_{0}} を持ち、無限の寿命を持つ消費者を考える。彼は、瞬間的効用関数 u ( c ) {\displaystyle u(c)} を持つとする。ただし、 c {\displaystyle c} は消費額を表し、次の時刻における割引率を 0 < β < 1 {\displaystyle 0<\beta <1} とする。時刻 t {\displaystyle t} において消費されなかった富は、金利 r {\displaystyle r} と共に次の時刻に繰り越される。すると消費者の効用最大化問題は、消費計画 { c t } {\displaystyle \{c_{t}\}} を次式によって決定する問題となる。 max ∑ t = 0 ∞ β t u ( c t ) {\displaystyle \max \sum _{t=0}^{\infty }\beta ^{t}u(c_{t})} ただし次の条件のもとで: a t + 1 = ( 1 + r ) ( a t − c t ) , c t ≥ 0 , {\displaystyle a_{t+1}=(1+r)(a_{t}-c_{t}),\;c_{t}\geq 0,} および lim t → ∞ a t ≥ 0. {\displaystyle \lim _{t\rightarrow \infty }a_{t}\geq 0.} 最初の条件は、問題設定に記述された資本の蓄積を示し、二つ目の条件は消費者が人生の終わりに置いて負債を先送りできないという横断性条件(英語版)を示す。 ベルマン方程式は次式となる。 V ( a ) = max 0 ≤ c ≤ a { u ( c ) + β V ( ( 1 + r ) ( a − c ) ) } , {\displaystyle V(a)=\max _{0\leq c\leq a}\{u(c)+\beta V((1+r)(a-c))\},} この代わりに、同じ問題を例えばハミルトン方程式で扱う事もできる。 今、金利が時間とともに変化するとすれば、消費者は確率的最適化問題に直面する。金利 r {\displaystyle r} がマルコフ過程に従い、その推移確率測度を Q ( r , d μ r ) {\displaystyle Q(r,d\mu _{r})} 、ただし、 d μ r {\displaystyle d\mu _{r}} を現在の金利が r {\displaystyle r} の時に次の時刻の金利の変動を決定する確率測度であるとしよう。このモデルでは、現在の金利が示された直後に、消費者が決定を下すものとする。 この場合、単純な消費の系列 { c t } {\displaystyle \{c_{t}\}} を選ぶ代わりに、消費者は彼/彼女の全人生にわたる効用の期待値が最大となるように { c t } {\displaystyle \{c_{t}\}} を各時点でのあり得る利率 { r t } {\displaystyle \{r_{t}\}} に応じて選ばなくてはならない。 max E ( ∑ t = 0 ∞ β t u ( c t ) ) . {\displaystyle \max \mathbb {E} {\bigg (}\sum _{t=0}^{\infty }\beta ^{t}u(c_{t}){\bigg )}.} 期待値 E {\displaystyle \mathbb {E} } は、金利 r {\displaystyle r} の系列に関して Q {\displaystyle Q} で与えられる確率測度に関して計算される。 r {\displaystyle r} はマルコフ過程なので、問題は動的計画法によって劇的に単純化される。ベルマン方程式は単に以下の形となる。 V ( a , r ) = max 0 ≤ c ≤ a { u ( c ) + β ∫ V ( ( 1 + r ) ( a − c ) , r ′ ) Q ( r , d μ r ) } . {\displaystyle V(a,r)=\max _{0\leq c\leq a}\{u(c)+\beta \int V((1+r)(a-c),r')Q(r,d\mu _{r})\}.} ある一般的な仮定のもとで、結果として得られる最適な方策関数 g ( a , r ) {\displaystyle g(a,r)} は可測となる。 マルコフ的なショックを伴い、主体が事後に選択を行うような一般的な確率的時系列の最適化問題に対しては、ベルマン方程式は非常に良く似た形をとる。 V ( x , z ) = max c ∈ Γ ( x , z ) F ( x , c , z ) + β ∫ V ( T ( x , c ) , z ′ ) d μ z ( z ′ ) . {\displaystyle V(x,z)=\max _{c\in \Gamma (x,z)}F(x,c,z)+\beta \int V(T(x,c),z')d\mu _{z}(z').}
※この「確率的な問題におけるベルマン方程式」の解説は、「ベルマン方程式」の解説の一部です。
「確率的な問題におけるベルマン方程式」を含む「ベルマン方程式」の記事については、「ベルマン方程式」の概要を参照ください。
- 確率的な問題におけるベルマン方程式のページへのリンク