マルコフ決定過程
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/06 03:52 UTC 版)
マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。
- 1 マルコフ決定過程とは
- 2 マルコフ決定過程の概要
- 3 アルゴリズム
- 4 拡張と一般化
- 5 参考文献
- 6 外部リンク
マルコフ決定過程と同じ種類の言葉
Weblioに収録されているすべての辞書からマルコフ決定過程を検索する場合は、下記のリンクをクリックしてください。
全ての辞書からマルコフ決定過程を検索
- マルコフ決定過程のページへのリンク