価値反復法を解説文に含む用語の検索結果

「価値反復法」を解説文に含む見出し語の検索結果(1～10/13件中)

価値反復法 - ウィキペディア小見出し辞書

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「価値反復法」の解説価値反復法 (value iter...

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/05/05 04:50 UTC 版)「マルコフ決定過程」の記事における「強化学習」の解説「強化学習」および「Q学習」も参照 ...

マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、...

.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...

.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f...

部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...

部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程...

ベイズ強化学習（Bayesian Reinforcement Learning, BRL）とは、強化学習の領域において、ベイズ推定の手法を応用することで、学習プロセスにおける不確実性を明示的に扱い、か...

< 前の結果 | 次の結果 >