時間差分学習
(TD学習 から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/03 05:48 UTC 版)
- ^ Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2nd ed.). Cambridge, MA: MIT Press. p. 133
- ^ Sutton, Richard S. (1988-08-01). “Learning to predict by the methods of temporal differences”. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009 .
- 1 時間差分学習とは
- 2 時間差分学習の概要
- 3 アルゴリズム
- 4 関連項目
TD学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/08/05 00:36 UTC 版)
TD学習(temporal difference learning)は報酬経験だけを頼りにエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。
※この「TD学習」の解説は、「強化学習」の解説の一部です。
「TD学習」を含む「強化学習」の記事については、「強化学習」の概要を参照ください。
- TD学習のページへのリンク