マルコフ決定過程とは? わかりやすく解説

Weblio 辞書 > 同じ種類の言葉 > 人文 > 高等数学 > 過程 > マルコフ決定過程の意味・解説 

マルコフ決定過程

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/18 18:47 UTC 版)

マルコフ決定過程(マルコフけっていかてい、: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学製造業を含む幅広い分野で用いられている。

概要

3つの状態と2つの行動をもつ簡単な MDP の例

マルコフ決定過程は離散時間における確率制御過程 (stochastic control process) である。 各時刻において過程 (process) はある状態 (state) を取り、意思決定者 (decision maker) はその状態において利用可能な行動 (action) を任意に選択する。 その後過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬 (reward) を受けとる。

遷移後の状態 カテゴリ





マルコフ決定過程と同じ種類の言葉

このページでは「ウィキペディア」からマルコフ決定過程を検索した結果を表示しています。
Weblioに収録されているすべての辞書からマルコフ決定過程を検索する場合は、下記のリンクをクリックしてください。
 全ての辞書からマルコフ決定過程 を検索

英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「マルコフ決定過程」の関連用語

マルコフ決定過程のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



マルコフ決定過程のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのマルコフ決定過程 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS