学習オートマトン
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)
「マルコフ決定過程」の記事における「学習オートマトン」の解説
機械学習理論における MDP のもう一つの応用は学習オートマトン (Learning Automata) と呼ばれる。これは環境が確率的な挙動を示す場合における強化学習の一つでもある。学習オートマトンに関する最初の詳細な論文は 1974 年に Narendra と Thathachar によりまとめられた(そこでは有限状態オートマトンと明示的に記載されている)。強化学習と同様,学習オートマトンのアルゴリズムも確率や報酬が未知の場合の問題を解くことができる。Q学習の違いは,価値関数ではく学習の結果を探すために行動の確率を直接求めることである。学習オートマトンは収束性が解析学の要領で厳密に証明されている.
※この「学習オートマトン」の解説は、「マルコフ決定過程」の解説の一部です。
「学習オートマトン」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。
- 学習オートマトンのページへのリンク