マルコフ決定過程とは？わかりやすく解説

マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた^[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する^[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。

概要

マルコフ決定過程は離散時間における確率制御過程 (stochastic control process) である。各時刻において過程 (process) はある状態 (state) を取り、意思決定者 (decision maker) はその状態において利用可能な行動 (action) を任意に選択する。その後過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬 (reward) を受けとる。

遷移後の状態 $s'$ カテゴリ

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[1]

[2]

マルコフ決定過程とは？ わかりやすく解説

マルコフ決定過程

概要

急上昇のことば

「マルコフ決定過程」の関連用語

マルコフ決定過程とは？わかりやすく解説