きょうか‐がくしゅう〔キヤウクワガクシフ〕【強化学習】
強化学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/12/08 07:15 UTC 版)
機械学習および データマイニング |
---|
Category:データマイニング |
強化学習(きょうかがくしゅう、英: reinforcement learning、RL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。
強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]。
この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとして時間差分学習(TD学習)やQ学習が知られている。
導入
強化学習はその一般性から、ゲーム理論、制御理論、オペレーションズ・リサーチ、情報理論、シミュレーションに基づく最適化、マルチエージェントシステム、群知能、統計学など、多くの分野で研究されている。オペレーションズ・リサーチや制御の文献では、強化学習は近似動的計画法(approximate dynamic programming)あるいはニューロダイナミック・プログラミング(neuro-dynamic programming)と呼ばれている。強化学習の問題は最適制御理論でも研究されており、主に最適解の存在と特徴づけや、その厳密な計算のためのアルゴリズムを対象するが、(特に環境の数学的モデルがない場合の)学習や近似への関心は高くない。また、経済学やゲーム理論では、限定合理性のもとで均衡がどのように生じるかを説明するために、強化学習が用いられることがある。
基本的な強化学習は、マルコフ決定過程(Markov decision process、MDP)としてモデル化される。
- この節は検証可能な参考文献や出典が全く示されていないか、不十分です。(2023年5月)
研究テーマを次に列挙する。
- アクター・クリティック法[23]
- 少ないパラメータでも多数の条件下で動作する適応的手法
- ソフトウェアプロジェクトにおけるバグ検出[24]
- 継続的な学習[25]
- ロジックベースフレームワークとの組み合わせ[26]
- 大規模MDPでの探索
- 人間のフィードバックからの強化学習[27]
- スキル獲得における暗黙知と明示知の相互作用
- 情報探索-好奇心型行動と、タスク依存型-目的指向型行動とを区別する内発的動機付け (人工知能)の大規模な経験的評価
- 大きな(または連続的な)行動空間
- モジュール型および階層型な強化学習[28]
- マルチエージェント・分散型強化学習は、関心を集めて話題で、応用が拡大している[29]
- 乗員主体の制御
- コンピューティング資源の最適化[30][31][32]
- 部分情報(predictive state representation、POMDP)。たとえば予測的状態表現(PSR)を使用する。
- 新規情報の最大化することに基づく報酬関数[33][34][35]
- サンプルベースの計画(たとえばモンテカルロ木探索に基づく)
- 証券取引[36]
- 転位学習[37]
- 脳内のドーパミンを利用した学習をモデル化したTD学習。黒質緻密部から大脳基底核へのドーパミン作動性投射は予測誤差である。
- 価値関数と方策の探索方法[38]
強化学習アルゴリズムの比較
アルゴリズム 説明 学習方策の分離性 行動空間 状態空間 作用素の軸となる統計量 モンテカルロ法 逐次訪問モンテカルロ法 いずれでも 離散 離散 状態価値もしくは行動価値のサンプル平均 TD学習 状態-行動-報酬-状態 オンポリシー 離散 離散 状態価値 Q学習 状態-行動-報酬-状態 オフポリシー 離散 離散 行動価値 SARSA 状態-行動-報酬-状態-行動 オンポリシー 離散 離散 行動価値 Q学習(λ) 状態-行動-報酬-適格性トレースを含む状態 オフポリシー 離散 離散 行動価値 SARSA(λ) 状態-行動-報酬-状態-行動と適格性トレース オンポリシー 離散 離散 行動価値 DQN ディープQネットワーク オフポリシー 離散 連続 行動価値 DDPG ディープ決定論的方策勾配 オフポリシー 連続 連続 行動価値 A3C 非同期アドバンテージ・アクター・クリティック・アルゴリズム オンポリシー 連続 連続 アドバンテージ
(=行動価値 - 状態価値)NAF 正規化アドバンテージ関数を使用したQ学習 オフポリシー 連続 連続 アドバンテージ TRPO 信頼領域方策最適化 オンポリシー 連続 連続 アドバンテージ PPO 近位方策最適化 オンポリシー 連続 連続 アドバンテージ TD3 ツイン遅延ディープ決定論方策勾配法 オフポリシー 連続 連続 行動価値 SAC ソフト・アクター・クリティック法 オフポリシー 連続 連続 アドバンテージ DSAC 分布ソフト・アクター・クリティック法 オフポリシー 連続 連続 アドバンテージ分布 連想強化学習
連想強化学習タスク(associative reinforcement learning)は、確率的学習オートマトンタスクと教師あり学習パターン分類タスクの側面をあわせ持っている。連想強化学習タスクでは、学習システムは閉ループで環境と相互作用する[39]。
深層強化学習
深層強化学習(deep reinforcement learning) (en:英語版) は、ディープニューラルネットワークを使用し、状態空間を明示的に設計することなく、強化学習を拡張するものである[40]。Google DeepMindによってAtari 2600のゲームの強化学習が研究(Deep Q-Network)されたことで、深層強化学習やエンドツーエンド強化学習が注目されるようになった[41]。
敵対的深層強化学習
敵対的深層強化学習(adversarial deep reinforcement learning)は、学習された方策の脆弱性(ぜいじゃくせい)に焦点を当てた強化学習の活発な研究分野である。この研究領域では、当初、強化学習方策がわずかな敵対的操作の影響を受けやすいことがいくつかの研究で示されていた[42][43][44]。これらの脆弱性を克服するためにいくつか方法が提案されているが、最新の研究では、これらの提案された解決策は、深層強化学習方策の現在の脆弱性を正確に表すには程遠いことが示された[45]。
ファジィ強化学習
強化学習にファジィ推論を導入することで[46]、連続空間におけるファジィルールで状態-行動価値関数を近似することが可能になる。ファジィルールの IF - THEN 形式は、自然言語に近い形式で結果を表現するのに適している。ファジィルール補間によるファジィ強化学習(fuzzy reinforcement learning、FRL)への拡張により[47]、サイズが縮小されたスパース・ファジィ・ルールベースを使用して、基本ルール(最も重要な状態-行動価値)に重点を置くことができるようになった。
逆強化学習
逆強化学習(inverse reinforcement learning、IRL)では報酬関数が与えられない。その代わり、専門家が観察した行動から報酬関数を推測する。このアイディアは観察された行動を模倣することであり、多くの場合、最適または最適に近い行動となる[48]。
安全な強化学習
安全な強化学習(safe reinforcement learning、SRL)とは、システムの訓練や配置の過程で、その合理的な性能を確保し安全制約を尊重することが重要な問題において、期待収益を最大化する方策を学習する過程と定義することができる[49]。
参考項目
- 時間差分学習(TD学習)
- Q学習
- State–action–reward–state–action(SARSA法)
- 人間のフィードバックによる強化学習
- エンドツーエンドの強化学習
- 仮想プレイ
- 学習分類子システム
- 最適制御
- 動的治療計画
- 誤差駆動型学習
- マルチエージェント強化学習
- マルチエージェントシステム
- 分散型人工知能
- 内発的動機付け (人工知能)
- 遺伝的アルゴリズム
- 徒弟学習
- モデルフリー (強化学習)
脚注
- ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. オリジナルの2001-11-20時点におけるアーカイブ。 .
- ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. 12. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6
- ^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4
- ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). “Neural Basis of Reinforcement Learning and Decision Making”. Annual Review of Neuroscience 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543 .
- ^ Xie, Zhaoming, et al. "ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills." Computer Graphics Forum. Vol. 39. No. 8. 2020.
- ^ Sutton & Barto 1998, Chapter 11.
- ^ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7
- ^ a b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimal adaptive policies for Markov Decision Processes”, Mathematics of Operations Research 22: 222–255, doi:10.1287/moor.22.1.222
- ^ Tokic, Michel; Palm, Günther (2011), “Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax”, KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, pp. 335–346, ISBN 978-3-642-24455-1
- ^ a b “Reinforcement learning: An introduction”. 2023年5月12日閲覧。
- ^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.
- ^ Sutton & Barto 1998, §6. Temporal-Difference Learning.
- ^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Learning to predict by the method of temporal differences”. Machine Learning 22: 33–57. doi:10.1023/A:1018056104778.
- ^ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
- ^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). “Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy 24 (8): 1168. Bibcode: 2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832 .
- ^ Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871。
- ^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
- ^ Juliani, Arthur (2016年12月17日). “Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. 2018年2月22日閲覧。
- ^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051
- ^ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
- ^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699。
- ^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
- ^ “05mm029.pdf”. 南山大学(情報理工学部・数理情報学部). 2024年11月23日閲覧。
- ^ https://arxiv.org/pdf/2105.12787
- ^ “On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment” (英語). cie.acm.org. 2018年11月27日閲覧。
- ^ Riveret, Regis; Gao, Yang (2019). “A probabilistic argumentation framework for reinforcement learning agents” (英語). Autonomous Agents and Multi-Agent Systems 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2.
- ^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 November 2021). "Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills". arXiv:2111.08596 [cs.LG]。
- ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16 (USA: Curran Associates Inc.): 3682–3690. arXiv:1604.06057. Bibcode: 2016arXiv160406057K. ISBN 978-1-5108-3881-9 .
- ^ “Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. 2017年8月6日閲覧。
- ^ Quested, Tony. “Smartphones get smarter with Essex innovation”. Business Weekly. 2021年6月17日閲覧。
- ^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). “User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7 .
- ^ Williams, Rhiannon (2020年7月21日). “Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'” (英語). i. 2021年6月17日閲覧。
- ^ Kaplan, F.; Oudeyer, P. (2004). “Maximizing learning progress: an internal reward system for development”. In Iida, F.; Pfeifer, R.; Steels, L. et al.. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6
- ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE 3 (12): e4018. Bibcode: 2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219 .
- ^ Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems. Berlin; Heidelberg: Springer. pp. 17–47
- ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). “Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance 1. SSRN 3374766.
- ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Self-organizing maps for storage and transfer of knowledge in reinforcement learning” (英語). Adaptive Behavior 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123.
- ^ https://www.ipsj.or.jp/award/9faeag0000004f1r-att/CF-002.pdf
- ^ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X
- ^ Francois-Lavet, Vincent (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071.
- ^ Mnih, Volodymyr (2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. Bibcode: 2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670 .
- ^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). “Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572.
- ^ Behzadan, Vahid; Munir, Arslan (2017). “Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0.
- ^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905
- ^ Korkmaz, Ezgi (2022). “Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684.
- ^ Berenji, H.R. (1994). “Fuzzy Q-learning: a new approach for fuzzy dynamic programming”. Proc. IEEE 3rd International Fuzzy Systems Conference (Orlando, FL, USA: IEEE): 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X .
- ^ Vincze, David (2017). “Fuzzy rule interpolation and reinforcement learning”. 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2
- ^ Ng, A. Y.; Russell, S. J. (2000). “Algorithms for Inverse Reinforcement Learning”. Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN 1-55860-707-2
- ^ García, Javier; Fernández, Fernando (1 January 2015). “A comprehensive survey on safe reinforcement learning”. The Journal of Machine Learning Research 16 (1): 1437–1480 .
推薦文献
- Annaswamy, Anuradha M. (3 May 2023). “Adaptive Control and Intersections with Reinforcement Learning” (英語). Annual Review of Control, Robotics, and Autonomous Systems 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153. ISSN 2573-5144 .
- Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). “Near-optimal regret bounds for reinforcement learning”. Journal of Machine Learning Research 11: 1563–1600 .
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071.
- Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience
- Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 ed.). MIT Press. ISBN 978-0-262-03924-6
- Sutton, Richard S. (1988). “Learning to predict by the method of temporal differences”. Machine Learning 3: 9–44. doi:10.1007/BF00115009 .
- Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. pp. 1031–1038. 2010年7月14日時点のオリジナル (PDF)よりアーカイブ。
外部リンク
- Reinforcement Learning Repository
- Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
- Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
- Real-world reinforcement learning experiments Archived 2018-10-08 at the Wayback Machine. at Delft University of Technology
- Stanford University Andrew Ng Lecture on Reinforcement Learning
- Dissecting Reinforcement Learning Series of blog post on RL with Python code
- A (Long) Peek into Reinforcement Learning
- Reinforcement Learning - スカラーペディア百科事典「強化学習」の項目。
- 強化学習とは? 木村 元ら
- 強化学習FAQ Suttonの強化学習FAQ(英語)の日本語訳
強化学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)
「強化学習」および「Q学習」も参照 状態遷移確率 T ( s , a , s ′ ) {\displaystyle T(s,a,s')} や報酬関数 R ( s , a , s ′ ) {\displaystyle R(s,a,s')} が未知の場合,環境との相互作用を通じてこれらの情報を得ながら行動を決定する必要がしばしば生じる.このような問題は強化学習の枠組みで議論される. 強化学習における代表的な学習アルゴリズムはQ学習と呼ばれるものである。Q学習では、行動価値関数 (action-value function) と呼ばれる関数 Q π ( s , a ) {\displaystyle Q^{\pi }(s,a)} に着目する。ここで Q π ( s , a ) {\displaystyle Q^{\pi }(s,a)} は次のように定義される: Q π ( s , a ) = E π [ ∑ t = 0 ∞ γ t r t + 1 | s 0 = s , a 0 = a ] {\displaystyle Q^{\pi }(s,a)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}|s_{0}=s,a_{0}=a]} いま,最適政策のもとでの行動価値関数 Q ∗ ( s , a ) = max π Q π ( s , a ) {\displaystyle Q^{*}(s,a)=\max _{\pi }Q^{\pi }(s,a)} は V ∗ ( s ) = max a Q ∗ ( s , a ) {\displaystyle V^{*}(s)=\max _{a}Q^{*}(s,a)} を満たす。すなわち、 Q ∗ {\displaystyle Q^{*}} を学習することができれば(モデルのパラメータを直接求めることなく)最適政策を獲得することができる。Q学習では、各試行における遷移前後の状態と入力、および試行で得られる即時報酬の実現値をもとに Q ( s , a ) {\displaystyle Q(s,a)} の値を逐次更新する。実際の学習プロセスでは、すべての状態を十分サンプリングするため確率的なゆらぎを含むよう学習時の行動が選択される。 強化学習では最適化に必要なパラメータの学習を状態遷移確率・報酬関数を介することなくおこなうことが出来る(価値反復法や政策反復法ではそれらの明示的な仕様(各状態間の遷移可能性,報酬関数の関数形など)を与える必要がある)。状態数(および行動の選択肢)が膨大な場合、強化学習はしばしばニューラルネットワークなどの関数近似と組み合わせられる。
※この「強化学習」の解説は、「マルコフ決定過程」の解説の一部です。
「強化学習」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。
強化学習と同じ種類の言葉
- 強化学習のページへのリンク