深層強化学習とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > 深層強化学習の意味・解説 

しんそうきょうか‐がくしゅう〔シンソウキヤウクワガクシフ〕【深層強化学習】

読み方:しんそうきょうかがくしゅう

人工知能における、コンピューターによる機械学習一種ディープラーニング強化学習組み合わせた技術手法を指す。試行錯誤ののち、正し選択をした場合報酬与えコンピューター自ら、より正確で効率的な判断ができるよう学んでいく。囲碁対局用のアルファ碁自動運転車自動運転技術応用される


エンドツーエンドの強化学習

(深層強化学習 から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/01/14 06:13 UTC 版)

エンドツーエンドの強化学習では、エンドツーエンドのプロセス、つまり、ロボットまたはエージェントのセンサーからモーターまでのプロセス全体が、モジュール化されていない単一の層状またはリカレントニューラルネットワークを含み、 強化学習(RL)によってトレーニングされる。 このアプローチは長い間提案されてきたが、 アタリビデオゲーム(2013–15)[1] [2] [3] [4] およびGoogle DeepMindによるAlphaGo (2016)[5] の学習で成功した結果によって再び隆盛した。

RLは従来、状態空間とアクション空間の明示的な設計を必要とする一方、状態空間からアクション空間へのマッピングは学習により行われるものであった[6]。したがって、RLはアクションの学習に限定されるものであり、人間の設計者は、センサー信号から状態空間を構築する方法を設計し、学習前に各アクションのモーションコマンドを生成する方法を提供する必要があった。RLでは、次元の呪いを回避するための非線形関数の近似を提供する目的で、ニューラルネットワークがよく用いられてきた 。また主に知覚的エイリアシングまたは部分観測マルコフ決定過程 (POMDP)を回避するために、リカレントニューラルネットワークも採用されてきた[7] [8] [9] [10] [11]

エンドツーエンドRLは、RLを、アクションのみの学習から、他の機能から独立して開発することが困難な高レベルの機能を含む、センサーからモーターまでのプロセス全体の学習にまで拡張する。 高レベルの機能は、センサーやモーターのいずれにも直接接続されないため、入力と出力を与えることさえ困難である。

歴史

このアプローチはTD-Gammon (1992)[12] で始まった。 バックギャモンでは、セルフプレイ中のゲーム状況の評価は、階層型ニューラルネットワークを用いたTD(

  • ^ a b c Mnih, Volodymyr (December 2013). “Playing Atari with Deep Reinforcement Learning”. NIPS Deep Learning Workshop 2013. https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 
  • ^ Mnih, Volodymyr (2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. Bibcode2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670. 
  • ^ V. Mnih (2015年2月26日). Performance of DQN in the Game Space Invaders. http://www.nature.com/nature/journal/v518/n7540/extref/nature14236-sv1.mov 
  • ^ a b c V. Mnih (2015年2月26日). Demonstration of Learning Progress in the Game Breakout. http://www.nature.com/nature/journal/v518/n7540/extref/nature14236-sv2.mov 
  • ^ Sutton, Richard S.; Barto, Andrew G. (1998). Reinforcement Learning: An Introduction. MIT Press. ISBN 978-0262193986 
  • ^ Lin, Long-Ji; Mitchell, Tom M. (1993). “Reinforcement Learning with Hidden States”. 2. 271–280 
  • ^ Onat, Ahmet; Kita, Hajime (1998). “Q-learning with Recurrent Neural Networks as a Controller for the Inverted Pendulum Problem”. The 5th International Conference on Neural Information Processing (ICONIP). pp. 837–840 
  • ^ Onat, Ahmet; Kita, Hajime (1998). “Recurrent Neural Networks for Reinforcement Learning: Architecture, Learning Algorithms and Internal Representation”. International Joint Conference on Neural Networks (IJCNN). pp. 2010–2015. doi:10.1109/IJCNN.1998.687168 
  • ^ Bakker, Bram; Linaker, Fredrik (2002). “Reinforcement Learning in Partially Observable Mobile Robot Domains Using Unsupervised Event Extraction”. 2002 IEEE/RSJ International Conference on. Intelligent Robots and Systems (IROS). pp. 938–943. ftp://ftp.idsia.ch/pub/juergen/bakkeriros2002.pdf 
  • ^ Bakker, Bram; Zhumatiy, Viktor (2003). “A Robot that Reinforcement-Learns to Identify and Memorize Important Previous Observation”. 2003 IEEE/RSJ International Conference on. Intelligent Robots and Systems (IROS). pp. 430–435. ftp://ftp.idsia.ch/pub/juergen/bakkeriros2003.pdf 
  • ^ Tesauro, Gerald (March 1995). “Temporal Difference Learning and TD-Gammon”. Communications of the ACM 38 (3): 58–68. doi:10.1145/203330.203343. http://www.bkgm.com/articles/tesauro/tdl.html 2017年3月10日閲覧。. 
  • ^ Shibata, Katsunari; Okabe, Yoichi (1997). “Reinforcement Learning When Visual Sensory Signals are Directly Given as Inputs”. International Conference on Neural Networks (ICNN) 1997. http://shws.cc.oita-u.ac.jp/~shibata/pub/ICNN97.pdf 
  • ^ Shibata, Katsunari; Iida, Masaru (2003). “Acquisition of Box Pushing by Direct-Vision-Based Reinforcement Learning”. SICE Annual Conference 2003. http://shws.cc.oita-u.ac.jp/~shibata/pub/SICE03.pdf 
  • ^ Utsunomiya, Hiroki; Shibata, Katsunari (2008). “Contextual Behavior and Internal Representations Acquired by Reinforcement Learning with a Recurrent Neural Network in a Continuous State and Action Space Task”. International Conference on Neural Information Processing (ICONIP) '08. http://shws.cc.oita-u.ac.jp/~shibata/pub/ICONIP98Utsunomiya.pdf [リンク切れ]
  • ^ Shibata, Katsunari; Kawano, Tomohiko (2008). “Learning of Action Generation from Raw Camera Images in a Real-World-like Environment by Simple Coupling of Reinforcement Learning and a Neural Network”. International Conference on Neural Information Processing (ICONIP) '08. http://shws.cc.oita-u.ac.jp/~shibata/pub/ICONIP98.pdf 
  • ^ Shibata, Katsunari (7 March 2017). "Functions that Emerge through End-to-End Reinforcement Learning". arXiv:1703.02239 [cs.AI]。
  • ^ Shibata, Katsunari (10 March 2017). "Communications that Emerge through Reinforcement Learning Using a (Recurrent) Neural Network". arXiv:1703.03543 [cs.AI]。


  • 英和和英テキスト翻訳>> Weblio翻訳
    英語⇒日本語日本語⇒英語
      

    辞書ショートカット

    すべての辞書の索引

    「深層強化学習」の関連用語

    深層強化学習のお隣キーワード
    検索ランキング

       

    英語⇒日本語
    日本語⇒英語
       



    深層強化学習のページの著作権
    Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

       
    デジタル大辞泉デジタル大辞泉
    (C)Shogakukan Inc.
    株式会社 小学館
    ウィキペディアウィキペディア
    All text is available under the terms of the GNU Free Documentation License.
    この記事は、ウィキペディアのエンドツーエンドの強化学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

    ©2025 GRAS Group, Inc.RSS