「マルコフ決定過程」を解説文に含む見出し語の検索結果(11~20/296件中)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「政策反復法」の解説政策反復法 (policy ite...
読み方:まるこふりょうけっていかてい【英】:Markov bidecision processいわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 が状態と決定に依存して「割引...
読み方:まるこふりょうけっていかてい【英】:Markov bidecision processいわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 が状態と決定に依存して「割引...
読み方:まるこふりょうけっていかてい【英】:Markov bidecision processいわゆるマルコフ決定過程では割引き総利得の期待値を最大化している. 割引き率 が状態と決定に依存して「割引...
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「強化学習」の解説「強化学習」および「Q学習」も参照 ...
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/15 05:04 UTC 版)「部分観測マルコフ決定過程」の記事における「Belief MDP」の解説すべての状態に関...
読み方:かくりつどうてきけいかく【英】:stochastic dynamic programmingシステムの状態推移が確率的なとき, 多段階にわたる評価の期待値を最適化する方法で, マルコフ決定過程...
読み方:かくりつどうてきけいかく【英】:stochastic dynamic programmingシステムの状態推移が確率的なとき, 多段階にわたる評価の期待値を最適化する方法で, マルコフ決定過程...
読み方:かくりつどうてきけいかく【英】:stochastic dynamic programmingシステムの状態推移が確率的なとき, 多段階にわたる評価の期待値を最適化する方法で, マルコフ決定過程...
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/01/16 01:19 UTC 版)「自動計画」の記事における「不確実性のある環境でのプランニング」の解説アクションの実行結...