AlphaZeroとは? わかりやすく解説

AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/04/07 10:25 UTC 版)

AlphaZero(アルファゼロ)は、DeepMindによって開発されたコンピュータプログラムである。汎化されたAlphaGo Zeroのアプローチを使用している。 2017年12月5日、DeepMindチームはAlphaGo Zeroのアプローチを汎化したプログラムであるAlphaZeroの論文をarXiv上で発表した。AlphaZeroは、24時間以内にチェス将棋囲碁の世界チャンピオンプログラムであるStockfishelmo、3日間学習させたAlphaGo Zeroを破るレベルに達した[1]。具体的には、2時間で将棋、4時間でチェスの最高峰のAIに勝利し、AlphaGo Zeroも8時間で上回った。

AlphaZeroは、オープニングブック(序盤定跡データベース)とエンドゲームの表(終盤を解析したデータベース)を参照せずに、4時間の自己対戦だけでStockfishを凌駕した[2][3]

それまでチェスおよび将棋のAIで一般的であったアルファ・ベータ探索ではなく、囲碁AIで成功を収めたモンテカルロ木探索モンテカルロ法の応用)とディープラーニングをこれらのゲームに対して適用しても強いAIが作れることを実証した。

手法

モンテカルロ木探索を使用した自己対戦によって、ディープラーニングを用いた強化学習をする。

AlphaGo Zeroとの関係

AlphaZero (AZ) は、AlphaGo Zero (AGZ) アルゴリズムのより汎化された変種であり、囲碁とともに将棋とチェスがプレーできる。AZとAGZとの間の違いには以下の内容が含まれる[1]

  • AZは探索ハイパーパラメータ英語版の設定のためにハードコードされている。
  • ニューラルネットワークは絶えず更新される。
  • (チェスと異なり)囲碁は任意の鏡映と回転下で対称である。AGZはこれらの対称性をうまく利用するようにプログラムされている。AZはされていない。
  • (囲碁と異なり)チェスには引き分けがある。したがって、AZは引き分けの可能性が考慮できる。

性能

囲碁

囲碁を8時間自己学習した後に前バージョンのAlphaGo Zeroと対戦して、AlphaZeroは60勝40敗であった[4]

将棋

将棋プログラムelmoとの100局において、AlphaZeroは90勝8敗2分であった[4]。このとき、思考時間はチェス同様一手ごとに1分与えられた。

チェス

AlphaZeroとStockfishとのチェス対局において、それぞれのプログラムは一手ごとに1分の思考時間が与えられた。AlphaZeroは白(先手)で25勝、黒(後手)で3勝し、残りの72局で引き分けた[4]

AlphaZeroはStockfishを初めて打ち負かしたプログラムではない。Komodo英語版と呼ばれるプログラムが、今回より前にStockfishを破っていた[4]。Komodoのラリー・カウフマン英語版はAlphaZeroの勝利を重要視せず、「AlphaZeroは効果的に自分のオープニングブックを構築しているので、オープニングブックを用いるトップエンジンに対してよりフェアに戦えたのだろう」と主張した[5]

評価

新聞は、訓練にわずか4時間しかかからなかったとの大見出しを付けた: 『朝食と昼食の間と大差ない時間でやってのけた』[2][6]WIRED誌は、AlphaZeroを「初のマルチスキルAIボードゲームチャンピオン」として大々的に宣伝した[7]。AI専門家のJoanna Bysoは、Googleは「パブリシティ(宣伝)の才覚」によって競合他社に対して有利な立場に立ったと述べた。「すぐれたプログラマーを雇えるだけではありません。AI部門に注目する各国政府や規制当局者との交渉においてできる限り強い立場に立つ上でも有益なので、非常に政治的でもあるのです。」[4]

オランダのチェスグランドマスターであるピーター・ハイネ・ニールセン英語版はBBCのインタビューに対して、「私はいつも、人間より優れた生命が地球に降り立ち、チェスをどうプレーするのか見せてくれたらどんな風になるのだろうと思っていました。今、わかりました」と語った[4]。ノルウェーのグランドマスターであるヨン・ルズヴィ・ハンメル英語版はAlphaZeroの特徴について、深遠なポジショナルプレイ(駒の位置を良くする指し方)を用いながらの「常軌を逸した攻撃的チェス」と述べた[2]

脚注

  1. ^ a b Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]。
  2. ^ a b c Knapton, Sarah; Watson, Leon (2017年12月6日). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (英語). Telegraph.co.uk. http://www.telegraph.co.uk/science/2017/12/06/entire-human-chess-knowledge-learned-surpassed-deepminds-alphazero/ 2017年12月6日閲覧。 
  3. ^ Vincent, James (2017年12月6日). “DeepMind’s AI became a superhuman chess player in a few hours, just for fun”. The Verge. https://www.theverge.com/2017/12/6/16741106/deepmind-ai-chess-alphazero-shogi-go 2017年12月6日閲覧。 
  4. ^ a b c d e f “'Superhuman' Google AI claims chess crown”. BBC News. (2017年12月6日). http://www.bbc.com/news/technology-42251535 2017年12月7日閲覧。 
  5. ^ “Google's AlphaZero Destroys Stockfish In 100-Game Match - Chess.com”. Chess.com. https://www.chess.com/news/view/google-s-alphazero-destroys-stockfish-in-100-game-match 2017年12月7日閲覧。 
  6. ^ Badshah, Nadeem (2017年12月7日). “Google's DeepMind robot becomes world-beating chess grandmaster in four hours”. The Times. https://www.thetimes.co.uk/article/google-s-deepmind-alphazero-becomes-world-beating-chess-grandmaster-in-four-hours-hcppp9vr2 2017年12月7日閲覧。 
  7. ^ “Alphabet's Latest AI Show Pony Has More Than One Trick”. WIRED. (2017年12月6日). https://www.wired.com/story/alphabets-latest-ai-show-pony-has-more-than-one-trick/ 2017年12月7日閲覧。 

AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/25 01:56 UTC 版)

コンピュータチェス」の記事における「AlphaZero」の解説

将棋チェス囲碁対戦可能なプログラム各分野において2017年時点の最強プログラムチェスではStockfish)を破っている。

※この「AlphaZero」の解説は、「コンピュータチェス」の解説の一部です。
「AlphaZero」を含む「コンピュータチェス」の記事については、「コンピュータチェス」の概要を参照ください。


AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/04 04:32 UTC 版)

AlphaGo」の記事における「AlphaZero」の解説

詳細は「AlphaZero」を参照 5代目バージョン。TPU5000台を使用2017年12月発表された。AlphaGo Zeroアプローチ汎用化させ、2時間将棋4時間でチェス最高峰AI勝利しAlphaGo Zeroも8時間上回った

※この「AlphaZero」の解説は、「AlphaGo」の解説の一部です。
「AlphaZero」を含む「AlphaGo」の記事については、「AlphaGo」の概要を参照ください。


AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/04 04:32 UTC 版)

AlphaGo」の記事における「AlphaZero」の解説

AlphaGo Zeroアルゴリズムチェス将棋にも応用したAlphaZeroについて書かれ論文「A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play」の著者は以下のメンバーである。この論文では、著者のうち冒頭3名の貢献度等価であると記されている。 デイビッド・シルバー / David Silver トマ・ユベール / Thomas Hubert ユリアン・シュリットヴィーザー / Julian Schrittwieser イオアニス・アントノグロウ / Ioannis Antonoglou マシュー・ライ / Matthew Lai アーサー・ゲズ / Arthur Guez マルク・ランクトー / Marc Lanctot ローレン・シフレ / Laurent Sifre ダルシャン・クマラン / Dharshan Kumaran ソーレ・グリーペル / Thore Graepel ティモシー・リリクラップ / Timothy Lillicrap カレン・シモニャン / Karen Simonyan デミス・ハサビス / Demis Hassabis

※この「AlphaZero」の解説は、「AlphaGo」の解説の一部です。
「AlphaZero」を含む「AlphaGo」の記事については、「AlphaGo」の概要を参照ください。


AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/10 02:35 UTC 版)

モンテカルロ木探索」の記事における「AlphaZero」の解説

David Silver らが AlphaZero にて2017年採用した方法PUCT を更に改変していて、以下の評価値子ノード選択する。 Q ( s , a ) + C ( s ) P ( a ∣ s ) N ( s ) 1 + N ( s , a ) {\displaystyle Q(s,a)+C(s)P(a\mid s){\frac {\sqrt {N(s)}}{1+N(s,a)}}} C ( s ) = log ⁡ 1 + N ( s ) + c base c base + c init {\displaystyle C(s)=\log {\frac {1+N(s)+c_{\mbox{base}}}{c_{\mbox{base}}}}+c_{\mbox{init}}} 関数以下の通り。 Q ( s , a ) {\displaystyle Q(s,a)} - 状態 s で行為 a を行った際の平均報酬 P ( a ∣ s ) {\displaystyle P(a\mid s)} - 状態 s で行為 a を選択する確率ニューラルネットワーク出力 N ( s ) {\displaystyle N(s)} と N ( s , a ) {\displaystyle N(s,a)} - 訪問回数

※この「AlphaZero」の解説は、「モンテカルロ木探索」の解説の一部です。
「AlphaZero」を含む「モンテカルロ木探索」の記事については、「モンテカルロ木探索」の概要を参照ください。


AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/07/01 16:03 UTC 版)

KataGo」の記事における「AlphaZero」の解説

「AlphaZero」も参照 オープンソースオープンデータ加えてKataGoとAlphaZeroの主な違いは、強化学習コスト大幅に削減されるため、自宅PCでも比較的高いレベル強化学習行える。数日アマチュア高段者に到達した

※この「AlphaZero」の解説は、「KataGo」の解説の一部です。
「AlphaZero」を含む「KataGo」の記事については、「KataGo」の概要を参照ください。


AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/16 15:13 UTC 版)

コンピュータ囲碁」の記事における「AlphaZero」の解説

詳細は「AlphaZero」を参照 2017年12月5日DeepMind開発チームAlphaGo Zeroからさらに汎化したアプローチ使用したAlphaZeroが、チェス将棋囲碁世界チャンピオンプログラム(当時)であるStockfishelmoAlphaGo Zero3日学習)を破った発表した

※この「AlphaZero」の解説は、「コンピュータ囲碁」の解説の一部です。
「AlphaZero」を含む「コンピュータ囲碁」の記事については、「コンピュータ囲碁」の概要を参照ください。


AlphaZero

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/17 08:15 UTC 版)

AlphaGo Zero」の記事における「AlphaZero」の解説

詳細は「AlphaZero」を参照 2017年12月DeepMindチーム汎化されたAlphaGo Zeroアプローチ用いたプログラムであるAlphaZeroの論文arXiv上で発表した。AlphaZeroは24時間以内チェス将棋囲碁世界チャンピオンプログラムであるStockfishelmo3日学習させたAlphaGo Zeroを破る超人的レベル達した

※この「AlphaZero」の解説は、「AlphaGo Zero」の解説の一部です。
「AlphaZero」を含む「AlphaGo Zero」の記事については、「AlphaGo Zero」の概要を参照ください。

ウィキペディア小見出し辞書の「AlphaZero」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「AlphaZero」の関連用語

AlphaZeroのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



AlphaZeroのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのAlphaZero (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのコンピュータチェス (改訂履歴)、AlphaGo (改訂履歴)、モンテカルロ木探索 (改訂履歴)、KataGo (改訂履歴)、コンピュータ囲碁 (改訂履歴)、AlphaGo Zero (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS