Q学習
(Q-learning から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/06/04 03:44 UTC 版)
- ^ Christopher J. C. H. Watkins. “PhD Thesis: Learning from Delayed Rewards”. cs.rhul.ac.uk. 2023年11月30日閲覧。
- ^ Richard S. Sutton; Andrew G. Barto (2018). Reinforcement Learning, second edition: An Introduction. Bradford Books. ISBN 978-0262039246
- ^ Watkins, Christopher J. C. H.; Dayan, Peter (1992-05-01). “Q-learning”. Machine Learning 8 (3): 279–292. doi:10.1007/BF00992698.
[続きの解説]
- Q-learningのページへのリンク