Q学習
(Q-learning から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/02 17:28 UTC 版)
- ^ Christopher J. C. H. Watkins. “PhD Thesis: Learning from Delayed Rewards”. cs.rhul.ac.uk. 2023年11月30日閲覧。
- ^ Watkins, Christopher J. C. H.; Dayan, Peter (1992-05-01). “Q-learning”. Machine Learning 8 (3): 279–292. doi:10.1007/BF00992698.
[続きの解説]
- Q-learningのページへのリンク