動的計画とは? わかりやすく解説

Weblio 辞書 > 学問 > OR事典 > 動的計画の意味・解説 

動的計画

読み方どうてきけいかく
【英】:dynamic programming

概要

1957年, ベルマン (R.E. Bellman) によって提案され多変最適化問題を解くための手法. 目的関数再帰性(可分性)と単調性があり, 制約式が逐次的であるとき, 原問題をある部分問題群に埋め込んで, 各部問題最適値を定義し, 相隣る問題最適値間の関係式(再帰式)を導く. これを逐次解いて, 最後に問題最適解求め方法である. 解法効率化のためには, 決定変数, 状態変数, 評価関数などの選択設定個々創意工夫要する.

詳説

 多変最適化問題目的関数再帰性(可分性)と単調性をもち, 制約条件逐次性があるとき, 再帰式導いて, これを1変数ずつ解いて最後に問題最適解求めようとする方法を, 動的計画(dynamic programming)と呼ぶ. 原理としては \mbox{(i)}\, 最適性の原理 (principle of optimality), \mbox{(ii)}\, 不変埋没原理(principle of invariant imbedding), \mbox{(iii)}\, 因果律原理(principle of causality), の三つに基づく[1]. 最適性の原理には \mbox{(1)}\, オリジナル版, \mbox{(2)}\, シンプル版, \mbox{ (3)}\, "\mbox{Life}\, "版, \mbox{(4)}\, 構造解析版, \mbox{(5)}\, 数学版, などがある[9]. 数学的にマックスマックス定理遡ることができる[2][4]. 応用面では, 逐次決定過程 [3][6]の基本原理として用いられ, マルコフ決定過程政策改良法, 最短経路問題ダイクストラ法, 巡回セールスマン問題など種々の最適化問題解法としてアルゴリズム組み込まれている.

 一般に, 再帰型関数 h : [0, \infty)^{N} \to \mathbf{R}^{1}\,


h(x_{1}, x_{2}, \ldots , x_{N}) =
 h_{1}(x_{1};h_{2}(x_{2};\ldots , h_{N-1}(x_{N-1};h_{N}(x_{N})) \ldots ))\,


で表わされる. このとき, 部分関数 h_{n} : [0, \infty)^{N-n+1} \to \mathbf{R}^{1}\,


h_{n}(x_{n}, \ldots , x_{N}) := h_{n}(x_{n};\ldots ,
 h_{N-1}(x_{N-1};h_{N}(x_{N})) \ldots )\,


定義する. 構成要素の1変数関数 h_{n}(x;\cdot), h_{N}(\cdot)\, がすべて単調な(狭義単調な)とき, 特に単調性(狭義単調性)をもつ再帰型関数という. 単調性をもつ再帰型関数 f,\, g目的式と制約式にする主問題


\mbox{P}(c) \quad
\begin{array}{lll}
\mbox{max.} & f(x_{1}, x_{2}, \ldots , x_{N}) \\
\mbox{s. t.}& g(x_{1}, x_{2}, \ldots , x_{N}) \le c, & x_{1},x_{2},\ldots ,x_{N} \ge 0, 
\end{array}\,


の解(最大値関数最大関数)は次のように求められる

問題 \mbox{P}(c)\, 部分問題{\mathbf P} = \{\mbox{P}_{n}(c)\}:\,


\mbox{P}_{n}(c) \quad
\begin{array}{lll}
\mbox{max.} & f_{n}(x_{n}, \ldots , x_{N}) \\
\mbox{s. t.}& g_{n}(x_{n}, \ldots , x_{N}) \le c, & x_{n}, \ldots ,x_{N} \ge 0, 
\end{array}\,


埋め込み, この最大値u_{n}(c)\, とする. このとき, 制約式の狭義単調性両式連続性仮定すると, 再帰式


u_{n}(c) =\max_{x \ge 0} \, f_{n}(\,x\,; 
u_{n+1}(g_{nx}^{-1}(c))) \quad 1 \le n \le N-1\,
u_{N}(c) =f_{N}(g_{N}^{-1}(c))\,


成り立つ. ただし, g^{-1}_{nx}(\cdot)\, g_{n}(x;\cdot)\, 逆関数. この再帰式を後向き解いて, 最後に問題最大値 u_{1}(c)\, 得られる. これが動的計画法である. さらに, 主問題 \mbox{P}(c)\, 逆問題


\mbox{I}(c) \quad
\begin{array}{lll}
\mbox{min.} & g(x_{1}, x_{2}, \ldots , x_{N}) \\
\mbox{s. t.}& f(x_{1}, x_{2}, \ldots , x_{N}) \ge c, & x_{1},x_{2},\ldots ,x_{N} \ge 0, 
\end{array}\,


の解(最小値関数最小関数)の間には互いに逆関数の関係にある(逆定理 [5]). これは線形計画における双対定理類似して, 動的計画の双対定理考えられる[11].

 また, 狭義単調性をもつ再帰型関数 h\, 終端k\, をもつときは


h(x_{1}, \ldots , x_{N}, k) = h_{1}(x_{1};\ldots , h_{N-1}(x_{N-1};h_{N}(x_{N};k)) \ldots )\,


で表わされる. これに対して反転関数(逐次パラメトリック逆関数) h^{-1} : \mathbf{R}^{N+1} \to \mathbf{R}^{1}\,


h^{-1}(x_{N}, \ldots , x_{2}, x_{1}, c) 
:\;=\; h^{-1}_{N}(x_{N};\ldots , h^{-1}_{2}(x_{2};h^{-1}_{1}(x_{1};c)) \ldots
 )\,


定義する. このとき, 目的f\, , 制約g\, (ただし g_{N}(x_{N};l)
 := g_{N}(x_{N}) + l )\, をもつ主問題反転問題


\mbox{R}(c) \quad
\begin{array}{lll}
\mbox{min.} & f^{-1}(x_{N}, \ldots , x_{1}, u_{1}^{-1}(c)) \\
\mbox{s. t.}& g^{-1}(x_{N}, \ldots , x_{1}, c) = 0, & x_{N},\ldots ,x_{1} \ge 0, 
\end{array}\,


考えると, 反転問題最小値は主問題終端値となる (反転定理 [7]).

 さらに, 準線形化, 最大変換(共役変換)による双対理論組み込んだ三面鏡理論 [8]が制御過程上で展開されている. 逆問題, 反転問題, 双対問題基本的に動的計画法で解くことができるが, それぞれの問題最適解直接解くことなく, 対応する定理によって得られる[7].

 再帰性, 単調性ない場合最適化としては, 非可分性との関連結合性などの下で事前条件付き決定過程, 事後条件付き決定過程[10]がファジィ動的計画, 非加法再帰的効用関数経済学などで研究されている. これらの問題マルコフ政策クラス再帰式導かれる.



参考文献

[1] R. Bellman, Dynamic Programming, Princeton Univ. Press, 1957.

[2] G. H. Hardy, J. E. littlewood and G.lya, Inequalities, 2nd ed., Cambridge Univ. Press, 1952.

[3] 茨木俊秀,『組合せ最適化理論』, 電子通信学会, 1979.

[4] 伊理正夫ほか, 座談会最大問題最小問題めぐって」,『数学セミナー』, 7月号 (1966), 40-48.

[5] S. Iwamoto, "Inverse Theorems in Dynamic Programming I, II, III," Journal of Mathematical Analysis and Applications, 58 (1977), 113-134, 249-279, 439-448.

[6] 岩本誠一,「逐次決定過程としての動的計画論I,II」,『オペレーションズ・リサーチ』, 22 (1977), 427-434, 496-501.

[7] 岩本誠一,『動的計画論』, 九州大学出版会(経済工学シリーズ), 1987.

[8] S. Iwamoto, "A three mirror problem on dynamic programming," in Proceedings of the Third Bellman Continuum Workshop, 363-382, 1989.

[9] 岩本誠一,「動的計画の最近の進歩」, 第2回RAMPシンポジウム論文集, 129-140, 1990.

[10] S. Iwamoto, "Conditional decision processes with recursive reward function,"Journal of Mathematical Analysis and Applications, 230 (1999), 193-210.

[11] 近藤次郎,『最適化法』, コロナ社, 1984.




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「動的計画」の関連用語

動的計画のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



動的計画のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
日本オペレーションズ・リサーチ学会日本オペレーションズ・リサーチ学会
Copyright (C) 2024 (社)日本オペレーションズ・リサーチ学会 All rights reserved.

©2024 GRAS Group, Inc.RSS