DQN (コンピュータ)
(Deep Q-network から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/11/28 03:06 UTC 版)
Deep Q-Network(略称:DQN[1])とは、Googleの子会社ディープマインドが開発した数理モデルである。深層強化学習アルゴリズムを利用したもので、このモデルで学習したエージェントは、一部の電子ゲームにおいて人間以上のスコアを獲得できている[1][2]。
概要
深層学習と強化学習(Q学習)を組み合わせたアルゴリズムであるDQNで学習したエージェントは、ゲームのルールを教えていない場合でも、どのように操作すれば高得点を目指すことができるのかを判断することができる[3]。この際に、今までの経験をもとにトレーニングを行う「experience replay」と呼ばれるアルゴリズムが大きく貢献していることが分かった[1]。
あるプログラムはAtari 2600の49種類のゲーム中43種類で従来の人工知能による得点を上回り、29のゲームではプロゲーマーと同等またはそれ以上のパフォーマンスを見せた[1]。特にブロック崩しでは、400回プレイするとボールの取りこぼしがなくなり、600回のプレイの後には次々と攻略法を生み出し、高得点を取るようになった[2]。またもっとも上達したピンボールでは人間の25倍のスコアを取った[4]。
これらの研究成果は、Nature電子版に、2015年2月26日付で掲載された。
なお、2008年の時点で、日本の別のグループが、実ロボット (AIBO)の行動学習タスクにおいて、画像入力の5層全結合ニューラルネットワークを用いた強化学習 (Q学習)をすでに使っている[5]。また、2001年の時点には、画像入力の多層全結合ニューラルネットワークを用いた強化学習 (Actor Critic)を使って、シミュレーション上でロボットの行動学習をさせている[6]。
開発
開発元のディープマインド社は2011年に設立され、2014年にGoogleによって5億ドルで買収された人工知能 (AI)関連のベンチャー企業で[7][8]、買収後Google傘下でAtari 2600のゲームをプレイさせ、AI開発を続けた[9]。
弱点
DQNを用いて学習したプログラムは、従来の人工知能とは違い、ゲームのルールをあらかじめ教わることなく全てランダムで操作を行った。そのため、パックマン風のゲーム(ミズ・パックマン)ではスコアを伸ばせず、数秒先の事でも考えることができないというDQNの弱点が示されている[9]。これは、ランダムな操作では得点を得ることが難しいので、システムが学習できなかったため[10]。
関連項目
- Google
- AlphaGo - DeepMindが開発した人工知能。
- 人工知能
- DQN(ドキュン) - 粗暴な若者を指す日本のインターネットスラング。日本語圏ではこの人工知能に対して「すごく頭悪そう〜」「命名事故?」などのコメントが寄せられた[2][11]。なお、人工知能「DQN」の開発者の一人であるデミス・ハサビスは日本で使われる「DQN」(ドキュン)という語を知っている模様[12]。
脚注・出典
- ^ a b c d “Google、「DQN」という人工知能を開発、ゼロからゲームをプレイして自力で攻略方法を見つける”. Internet Watch (2015年2月26日). 2015年2月27日閲覧。
- ^ a b c “グーグルAI、その名もDQN! 超高性能だが、「頭悪そう〜」”. 産経ニュース. (2015年2月26日) 2015年2月27日閲覧。
- ^ “人工知能「DQN」が成長しながらレトロゲームを次々とクリア”. Livedoor News (2015年2月28日). 2015年2月28日閲覧。
- ^ “グーグル、自ら学ぶ人工知能開発 ゲーム繰り返し遊んで攻略”. 日本経済新聞. (2015年2月26日) 2015年2月27日閲覧。
- ^ Katsunari Shibata and Tomohiko Kawano (2009) “Learning of Action Generation from Raw Camera Images in a Real-World-like Environment by Simple Coupling of Reinforcement Learning and a Neural Network”, Advances in Neuro-Information Processing (Proc. of ICONIP’08), Lecture Notes in Computer Science, Vol. 5506, pp. 755-762, 200
- ^ 柴田克成, 岡部洋一, 伊藤宏司 (2001) “ニューラルネットワークを用いたDirect-Vision-Based強化学習 -センサからモータまで-”, 計測自動制御学会論文集, Vol.37, No.2, pp.168-177
- ^ “グーグル、AI研究開発のディープマインドを買収 - 買収額は4億ドル以上”. WirelessWireNews (2014年1月27日). 2015年2月27日閲覧。
- ^ “英ディープマインド、AIでコンピューターゲームの遊び方を自動習得するアルゴリズム”. 日刊工業新聞. (2015年2月26日) 2015年2月27日閲覧。
- ^ a b “グーグルの人工知能「DQN」、ピンボールは得意でもパックマンは苦手”. GIZMODO (2015年2月27日). 2015年2月27日閲覧。
- ^ “自力で学習する人工知能「DQN」、ゲーム攻略で習熟力披露”. AFP BBニュース. (2015年2月28日) 2015年2月28日閲覧。
- ^ “グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」” (2015年2月26日). 20152-27閲覧。
- ^ 羽生善治、NHKスペシャル取材班『人工知能の核心』NHK出版、2017年、51頁。ISBN 978-4-14-088511-6。
外部リンク
- Natureに掲載された論文(英語)
- DQN (コンピュータ)のページへのリンク