「価値反復法」を解説文に含む見出し語の検索結果(1~10/13件中)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「価値反復法」の解説価値反復法 (value iter...
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「強化学習」の解説「強化学習」および「Q学習」も参照 ...
マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、...
マルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、...
.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...
.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...
ベイズ強化学習(Bayesian Reinforcement Learning, BRL)とは、強化学習の領域において、ベイズ推定の手法を応用することで、学習プロセスにおける不確実性を明示的に扱い、か...
ベイズ強化学習(Bayesian Reinforcement Learning, BRL)とは、強化学習の領域において、ベイズ推定の手法を応用することで、学習プロセスにおける不確実性を明示的に扱い、か...
< 前の結果 | 次の結果 >