マルコフ両決定過程
【英】:Markov bidecision process
いわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 が状態と決定に依存して「割引き関数」
になって, 負値をもとる過程を, マルコフ両決定過程という. この過程では最大化部分問題群ばかりでなく最小化部分問題群までを考えて埋め込む必要がある. このとき両最適値関数間に連立した再帰式(両帰式)が成り立つ.
動的・確率・多目的計画: | パレート最適解 ファジィ動的計画 マックスマックス定理 マルコフ両決定過程 マルコフ政策 一般政策 三面鏡理論 |
マルコフ両決定過程と同じ種類の言葉
- マルコフ両決定過程のページへのリンク