マルコフ決定過程
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/06 03:52 UTC 版)
拡張と一般化
部分観測マルコフ決定過程
MDP では方策 を計算する際に現在の状態 が既知であることを仮定している。 実際には状態観測に不確実性が伴う場合などこの仮定が成り立たない場合が多く、このような場合の一般化として部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) が用いられる。
強化学習
状態遷移確率 や報酬関数 が未知の場合,環境との相互作用を通じてこれらの情報を得ながら行動を決定する必要がしばしば生じる.このような問題は強化学習の枠組みで議論される[6].
強化学習における代表的な学習アルゴリズムはQ学習と呼ばれるものである。 Q学習では、行動価値関数 (action-value function) と呼ばれる関数 に着目する。ここで は次のように定義される:
いま,最適方策のもとでの行動価値関数 は を満たす。 すなわち、 を学習することができれば(モデルのパラメータを直接求めることなく)最適方策を獲得することができる。 Q学習では、各試行における遷移前後の状態と入力、および試行で得られる即時報酬の実現値をもとに の値を逐次更新する。 実際の学習プロセスでは、すべての状態を十分サンプリングするため確率的なゆらぎを含むよう学習時の行動が選択される。
強化学習では最適化に必要なパラメータの学習を状態遷移確率・報酬関数を介することなくおこなうことが出来る(価値反復法や方策反復法ではそれらの明示的な仕様(各状態間の遷移可能性,報酬関数の関数形など)を与える必要がある)。 状態数(および行動の選択肢)が膨大な場合、強化学習はしばしばニューラルネットワークなどの関数近似と組み合わせられる。
学習オートマトン
機械学習理論における MDP のもう一つの応用は学習オートマトン (Learning Automata) と呼ばれる。 これは環境が確率的な挙動を示す場合における強化学習の一つでもある。 学習オートマトンに関する最初の詳細な論文は 1974 年に Narendra と Thathachar によりまとめられた[7](そこでは有限状態オートマトンと明示的に記載されている)。 強化学習と同様,学習オートマトンのアルゴリズムも確率や報酬が未知の場合の問題を解くことができる。 Q学習の違いは,価値関数ではく学習の結果を探すために行動の確率を直接求めることである。 学習オートマトンは収束性が解析学の要領で厳密に証明されている[8].
制約付きマルコフ決定過程
制約付きマルコフ決定過程 (Constrained Markov Decision Process; CMDP) はマルコフ決定過程の拡張である。 MDP と CMDP には3つの基本的な違いがある[9]:
- ある行動をほかのものの代わりに適用した後で(複数の)コストが発生する
- CMDP は線形計画法のみで解くことが出来る(動的計画法を用いることはできない)
- 終端時刻における方策が初期状態に依存する
CMDP の応用例は数多く存在し、最近ではロボット工学におけるモーションプランニングに用いられている[10]。
マルコフ決定過程と同じ種類の言葉
- マルコフ決定過程のページへのリンク