状態遷移確率を解説文に含む用語の検索結果

「状態遷移確率」を解説文に含む見出し語の検索結果(1～10/13件中)

動的計画法 - ウィキペディア小見出し辞書

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/08/05 00:36 UTC 版)「強化学習」の記事における「動的計画法」の解説動的計画法（dynamic program...

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「強化学習」の解説「強化学習」および「Q学習」も参照 ...

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2019/03/15 05:04 UTC 版)「部分観測マルコフ決定過程」の記事における「Belief MDP」の解説すべての状態に関...

マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、...

部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...

部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...

階層型強化学習（Hierarchical Reinforcement Learning、HRL）は、複雑な強化学習問題を、より単純な部分問題の階層に分解して解くためのアプローチである。これにより、エー...

.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...

.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...

< 前の結果 | 次の結果 >