「状態遷移確率」を解説文に含む見出し語の検索結果(1~10/13件中)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/08/05 00:36 UTC 版)「強化学習」の記事における「動的計画法」の解説動的計画法(dynamic program...
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「強化学習」の解説「強化学習」および「Q学習」も参照 ...
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/03/15 05:04 UTC 版)「部分観測マルコフ決定過程」の記事における「Belief MDP」の解説すべての状態に関...
マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、...
マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、...
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...
階層型強化学習(Hierarchical Reinforcement Learning、HRL)は、複雑な強化学習問題を、より単純な部分問題の階層に分解して解くためのアプローチである。これにより、エー...
.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...
.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...
< 前の結果 | 次の結果 >