部分観測マルコフ決定過程
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/09/29 11:32 UTC 版)
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程 (MDP) の一般化であり、状態を直接観測できないような意思決定過程におけるモデル化の枠組みを与える。
POMDP は実世界におけるあらゆる逐次的な意思決定過程をモデル化するのに十分であり、ロボットのナビゲーションや機械整備 (machine maintenance)、および不確実な状況下でのプランニングなどに応用されている。 POMDP はオペレーションズリサーチを起源とし、のちに人工知能や自動計画のコミュニティに引き継がれた。
定義
POMDP は、マルコフ決定過程に観測を表現するための要素を追加することで定義される[1]。
まず、マルコフ決定過程は次に挙げる 4 つの要素の組 カテゴリ
部分観測マルコフ決定過程
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)
「マルコフ決定過程」の記事における「部分観測マルコフ決定過程」の解説
「部分観測マルコフ決定過程」も参照 MDP では政策 π ( s ) {\displaystyle \pi (s)} を計算する際に現在の状態 s {\displaystyle s} が既知であることを仮定している。実際には状態観測に不確実性が伴う場合などこの仮定が成り立たない場合が多く、このような場合の一般化として部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) が用いられる。
※この「部分観測マルコフ決定過程」の解説は、「マルコフ決定過程」の解説の一部です。
「部分観測マルコフ決定過程」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。
- 部分観測マルコフ決定過程のページへのリンク