動的決定問題とは? わかりやすく解説

動的決定問題

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/03 14:35 UTC 版)

ベルマン方程式」の記事における「動的決定問題」の解説

時刻 t {\displaystyle t} における状態を x t {\displaystyle x_{t}} とする。時刻0から始まる決定問題において、初期状態 x 0 {\displaystyle x_{0}} は与えられているものとする任意の時間において、選択可能なアクションその時の状態の関数であり、 a t ∈ Γ ( x t ) {\displaystyle a_{t}\in \Gamma (x_{t})} と表すことができる。 a t {\displaystyle a_{t}} は一つ上の制御変数表している。アクション a {\displaystyle a} が選ばれると、それによって状態は x {\displaystyle x} から新しい状態 T ( x , a ) {\displaystyle T(x,a)} へと変化するものとする。さらに、状態 x {\displaystyle x} においてアクション a {\displaystyle a} をとった時の損得を F ( x , a ) {\displaystyle F(x,a)} で表す。最後に、我々は性急さ(せっかちさ)の度合いが、割引率discount factor) 0 < β < 1 {\displaystyle 0<\beta <1} で表されるものとする。 これらの仮定の下で、無限の未来までを考慮した決定問題(無限期間の最適化問題) は次式となる。 V ( x 0 ) = max { a t } t = 0 ∞ ∑ t = 0 ∞ β t F ( x t , a t ) , {\displaystyle V(x_{0})\;=\;\max _{\left\{a_{t}\right\}_{t=0}^{\infty }}\sum _{t=0}^{\infty }\beta ^{t}F(x_{t},a_{t}),} ただし次の条件のもとで: a t ∈ Γ ( x t ) , x t + 1 = T ( x t , a t ) , ∀ t = 0 , 1 , 2 , … {\displaystyle a_{t}\in \Gamma (x_{t}),\;x_{t+1}=T(x_{t},a_{t}),\;\forall t=0,1,2,\dots } 想定され拘束条件のもとで目的関数最適化した結果としての、最適な値を表現するものとして V ( x 0 ) {\displaystyle V(x_{0})} を定義したことに注意しよう。この関数価値関数 (value function)と呼ぶ。最適値は初期状態によって変化するから、価値関数 V ( x 0 ) {\displaystyle V(x_{0})} は初期状態 x 0 {\displaystyle x_{0}} の関数となる。

※この「動的決定問題」の解説は、「ベルマン方程式」の解説の一部です。
「動的決定問題」を含む「ベルマン方程式」の記事については、「ベルマン方程式」の概要を参照ください。

ウィキペディア小見出し辞書の「動的決定問題」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「動的決定問題」の関連用語

動的決定問題のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



動的決定問題のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのベルマン方程式 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS