マルコフ決定過程
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/06 03:52 UTC 版)
概要
マルコフ決定過程は離散時間における確率制御過程 (stochastic control process) である。 各時刻において過程 (process) はある状態 (state) を取り、意思決定者 (decision maker) はその状態において利用可能な行動 (action) を任意に選択する。 その後過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬 (reward) を受けとる。
遷移後の状態 、および得られる報酬の値 は現在の状態 と行動 のみに依存し、 と が与えられたもとでそれより過去の状態および行動と条件付き独立となる。 言い換えると、マルコフ決定過程の状態遷移はマルコフ性を満たす。
マルコフ決定過程はマルコフ連鎖に(選択可能な)行動、および(行動を計画する動機を与える)報酬を追加し拡張したものであると解釈できる。 逆に言えば、各ステップにとる行動がそのステップにおける状態のみ依存するとき、マルコフ決定過程は等価なマルコフ連鎖に置き換えることが出来る。
定義
有限マルコフ決定過程 (finite Markov decision process; finite MDP) は4つの要素の組 で表される。ここで各要素はそれぞれ次を意味する。
- : 状態の有限集合
- : 行動の有限集合
- : 遷移関数 (transition function)
- : 報酬関数 (reward function)
遷移関数 は状態 にあり行動 を取ったときの状態 への状態遷移確率 である。 また報酬関数 は状態 から に行動 を伴い遷移する際に得られる即時報酬 (immediate reward) 、またはその期待値 を表す。
問題設定
MDP における基本的な問題設定は、現在の状態が が与えられたときに意思決定者の取る行動 を既定する方策 (policy) を求めることである。 方策は通常 の条件付き分布 として規定され、状態 に 行動 を取る確率を と表記する。
方策を求める際に用いられるゴール(目的関数)は、典型的には現在時刻から無限区間先の未来までにおける「割引された」報酬の累積値が用いられる:
ここで は割引率 (discount rate) と呼ばれる値であり、現在の報酬と未来の報酬との間における重要度 (importance) の差異を表している。 状態が確率的に遷移することから上の値は確率変数となるため、通常はその期待値が用いられる。
- 1 マルコフ決定過程とは
- 2 マルコフ決定過程の概要
- 3 アルゴリズム
- 4 拡張と一般化
- 5 参考文献
- 6 外部リンク
マルコフ決定過程と同じ種類の言葉
- マルコフ決定過程のページへのリンク