動的決定問題とは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

動的決定問題

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/03/03 14:35 UTC 版)

時刻 t {\displaystyle t} における状態を x t {\displaystyle x_{t}} とする。時刻0から始まる決定問題において、初期状態 x 0 {\displaystyle x_{0}} は与えられているものとする。任意の時間において、選択可能なアクションはその時の状態の関数であり、 a t ∈ Γ ( x t ) {\displaystyle a_{t}\in \Gamma (x_{t})} と表すことができる。 a t {\displaystyle a_{t}} は一つ以上の制御変数を表している。アクション a {\displaystyle a} が選ばれると、それによって状態は x {\displaystyle x} から新しい状態 T ( x , a ) {\displaystyle T(x,a)} へと変化するものとする。さらに、状態 x {\displaystyle x} においてアクション a {\displaystyle a} をとった時の損得を F ( x , a ) {\displaystyle F(x,a)} で表す。最後に、我々は性急さ（せっかちさ）の度合いが、割引率（discount factor） 0 < β < 1 {\displaystyle 0<\beta <1} で表されるものとする。これらの仮定の下で、無限の未来までを考慮した決定問題（無限期間の最適化問題) は次式となる。 V ( x 0 ) = max { a t } t = 0 ∞ ∑ t = 0 ∞ β t F ( x t , a t ) , {\displaystyle V(x_{0})\;=\;\max _{\left\{a_{t}\right\}_{t=0}^{\infty }}\sum _{t=0}^{\infty }\beta ^{t}F(x_{t},a_{t}),} ただし次の条件のもとで： a t ∈ Γ ( x t ) , x t + 1 = T ( x t , a t ) , ∀ t = 0 , 1 , 2 , … {\displaystyle a_{t}\in \Gamma (x_{t}),\;x_{t+1}=T(x_{t},a_{t}),\;\forall t=0,1,2,\dots } 想定された拘束条件のもとで目的関数を最適化した結果としての、最適な値を表現するものとして V ( x 0 ) {\displaystyle V(x_{0})} を定義したことに注意しよう。この関数を価値関数 (value function)と呼ぶ。最適値は初期状態によって変化するから、価値関数 V ( x 0 ) {\displaystyle V(x_{0})} は初期状態 x 0 {\displaystyle x_{0}} の関数となる。

※この「動的決定問題」の解説は、「ベルマン方程式」の解説の一部です。
「動的決定問題」を含む「ベルマン方程式」の記事については、「ベルマン方程式」の概要を参照ください。

ウィキペディア小見出し辞書の「動的決定問題」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

>> 「動的決定問題」を含む用語の索引
動的決定問題のページへのリンク

動的決定問題とは？わかりやすく解説

動的決定問題

「動的決定問題」の関連用語


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのベルマン方程式 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

動的決定問題とは？ わかりやすく解説

動的決定問題

急上昇のことば

「動的決定問題」の関連用語

動的決定問題とは？わかりやすく解説