TD学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/08/05 00:36 UTC 版)
TD学習(temporal difference learning)は報酬経験だけを頼りにエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。
※この「TD学習」の解説は、「強化学習」の解説の一部です。
「TD学習」を含む「強化学習」の記事については、「強化学習」の概要を参照ください。
Weblioに収録されているすべての辞書からTD学習を検索する場合は、下記のリンクをクリックしてください。

- TD学習のページへのリンク