AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/04/07 10:25 UTC 版)
人工知能 |
---|
カテゴリ |
AlphaZero(アルファゼロ)は、DeepMindによって開発されたコンピュータプログラムである。汎化されたAlphaGo Zeroのアプローチを使用している。 2017年12月5日、DeepMindチームはAlphaGo Zeroのアプローチを汎化したプログラムであるAlphaZeroの論文をarXiv上で発表した。AlphaZeroは、24時間以内にチェス、将棋、囲碁の世界チャンピオンプログラムであるStockfish、elmo、3日間学習させたAlphaGo Zeroを破るレベルに達した[1]。具体的には、2時間で将棋、4時間でチェスの最高峰のAIに勝利し、AlphaGo Zeroも8時間で上回った。
AlphaZeroは、オープニングブック(序盤定跡データベース)とエンドゲームの表(終盤を解析したデータベース)を参照せずに、4時間の自己対戦だけでStockfishを凌駕した[2][3]。
それまでチェスおよび将棋のAIで一般的であったアルファ・ベータ探索ではなく、囲碁AIで成功を収めたモンテカルロ木探索(モンテカルロ法の応用)とディープラーニングをこれらのゲームに対して適用しても強いAIが作れることを実証した。
手法
この節の加筆が望まれています。 |
モンテカルロ木探索を使用した自己対戦によって、ディープラーニングを用いた強化学習をする。
AlphaGo Zeroとの関係
AlphaZero (AZ) は、AlphaGo Zero (AGZ) アルゴリズムのより汎化された変種であり、囲碁とともに将棋とチェスがプレーできる。AZとAGZとの間の違いには以下の内容が含まれる[1]。
- AZは探索ハイパーパラメータの設定のためにハードコードされている。
- ニューラルネットワークは絶えず更新される。
- (チェスと異なり)囲碁は任意の鏡映と回転下で対称である。AGZはこれらの対称性をうまく利用するようにプログラムされている。AZはされていない。
- (囲碁と異なり)チェスには引き分けがある。したがって、AZは引き分けの可能性が考慮できる。
性能
囲碁
囲碁を8時間自己学習した後に前バージョンのAlphaGo Zeroと対戦して、AlphaZeroは60勝40敗であった[4]。
将棋
将棋プログラムelmoとの100局において、AlphaZeroは90勝8敗2分であった[4]。このとき、思考時間はチェス同様一手ごとに1分与えられた。
チェス
AlphaZeroとStockfishとのチェス対局において、それぞれのプログラムは一手ごとに1分の思考時間が与えられた。AlphaZeroは白(先手)で25勝、黒(後手)で3勝し、残りの72局で引き分けた[4]。
AlphaZeroはStockfishを初めて打ち負かしたプログラムではない。Komodoと呼ばれるプログラムが、今回より前にStockfishを破っていた[4]。Komodoのラリー・カウフマンはAlphaZeroの勝利を重要視せず、「AlphaZeroは効果的に自分のオープニングブックを構築しているので、オープニングブックを用いるトップエンジンに対してよりフェアに戦えたのだろう」と主張した[5]。
評価
新聞は、訓練にわずか4時間しかかからなかったとの大見出しを付けた: 『朝食と昼食の間と大差ない時間でやってのけた』[2][6]。WIRED誌は、AlphaZeroを「初のマルチスキルAIボードゲームチャンピオン」として大々的に宣伝した[7]。AI専門家のJoanna Bysoは、Googleは「パブリシティ(宣伝)の才覚」によって競合他社に対して有利な立場に立ったと述べた。「すぐれたプログラマーを雇えるだけではありません。AI部門に注目する各国政府や規制当局者との交渉においてできる限り強い立場に立つ上でも有益なので、非常に政治的でもあるのです。」[4]
オランダのチェスグランドマスターであるピーター・ハイネ・ニールセンはBBCのインタビューに対して、「私はいつも、人間より優れた生命が地球に降り立ち、チェスをどうプレーするのか見せてくれたらどんな風になるのだろうと思っていました。今、わかりました」と語った[4]。ノルウェーのグランドマスターであるヨン・ルズヴィ・ハンメルはAlphaZeroの特徴について、深遠なポジショナルプレイ(駒の位置を良くする指し方)を用いながらの「常軌を逸した攻撃的チェス」と述べた[2]。
脚注
- ^ a b Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]。
- ^ a b c Knapton, Sarah; Watson, Leon (2017年12月6日). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (英語). Telegraph.co.uk 2017年12月6日閲覧。
- ^ Vincent, James (2017年12月6日). “DeepMind’s AI became a superhuman chess player in a few hours, just for fun”. The Verge 2017年12月6日閲覧。
- ^ a b c d e f “'Superhuman' Google AI claims chess crown”. BBC News. (2017年12月6日) 2017年12月7日閲覧。
- ^ “Google's AlphaZero Destroys Stockfish In 100-Game Match - Chess.com”. Chess.com 2017年12月7日閲覧。
- ^ Badshah, Nadeem (2017年12月7日). “Google's DeepMind robot becomes world-beating chess grandmaster in four hours”. The Times 2017年12月7日閲覧。
- ^ “Alphabet's Latest AI Show Pony Has More Than One Trick”. WIRED. (2017年12月6日) 2017年12月7日閲覧。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/25 01:56 UTC 版)
「コンピュータチェス」の記事における「AlphaZero」の解説
将棋、チェス、囲碁の対戦が可能なプログラム。各分野において2017年時点の最強プログラム(チェスではStockfish)を破っている。
※この「AlphaZero」の解説は、「コンピュータチェス」の解説の一部です。
「AlphaZero」を含む「コンピュータチェス」の記事については、「コンピュータチェス」の概要を参照ください。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/04 04:32 UTC 版)
「AlphaGo」の記事における「AlphaZero」の解説
詳細は「AlphaZero」を参照 5代目バージョン。TPU5000台を使用。 2017年12月に発表された。AlphaGo Zeroのアプローチを汎用化させ、2時間で将棋、4時間でチェスの最高峰のAIに勝利し、AlphaGo Zeroも8時間で上回った。
※この「AlphaZero」の解説は、「AlphaGo」の解説の一部です。
「AlphaZero」を含む「AlphaGo」の記事については、「AlphaGo」の概要を参照ください。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/04 04:32 UTC 版)
「AlphaGo」の記事における「AlphaZero」の解説
AlphaGo Zeroのアルゴリズムをチェスと将棋にも応用したAlphaZeroについて書かれた論文「A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play」の著者は以下のメンバーである。この論文では、著者のうち冒頭3名の貢献度が等価であると記されている。 デイビッド・シルバー / David Silver トマ・ユベール / Thomas Hubert ユリアン・シュリットヴィーザー / Julian Schrittwieser イオアニス・アントノグロウ / Ioannis Antonoglou マシュー・ライ / Matthew Lai アーサー・ゲズ / Arthur Guez マルク・ランクトー / Marc Lanctot ローレン・シフレ / Laurent Sifre ダルシャン・クマラン / Dharshan Kumaran ソーレ・グリーペル / Thore Graepel ティモシー・リリクラップ / Timothy Lillicrap カレン・シモニャン / Karen Simonyan デミス・ハサビス / Demis Hassabis
※この「AlphaZero」の解説は、「AlphaGo」の解説の一部です。
「AlphaZero」を含む「AlphaGo」の記事については、「AlphaGo」の概要を参照ください。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/10 02:35 UTC 版)
「モンテカルロ木探索」の記事における「AlphaZero」の解説
David Silver らが AlphaZero にて2017年に採用した方法は PUCT を更に改変していて、以下の評価値で子ノードを選択する。 Q ( s , a ) + C ( s ) P ( a ∣ s ) N ( s ) 1 + N ( s , a ) {\displaystyle Q(s,a)+C(s)P(a\mid s){\frac {\sqrt {N(s)}}{1+N(s,a)}}} C ( s ) = log 1 + N ( s ) + c base c base + c init {\displaystyle C(s)=\log {\frac {1+N(s)+c_{\mbox{base}}}{c_{\mbox{base}}}}+c_{\mbox{init}}} 関数は以下の通り。 Q ( s , a ) {\displaystyle Q(s,a)} - 状態 s で行為 a を行った際の平均報酬 P ( a ∣ s ) {\displaystyle P(a\mid s)} - 状態 s で行為 a を選択する確率。ニューラルネットワークの出力 N ( s ) {\displaystyle N(s)} と N ( s , a ) {\displaystyle N(s,a)} - 訪問回数
※この「AlphaZero」の解説は、「モンテカルロ木探索」の解説の一部です。
「AlphaZero」を含む「モンテカルロ木探索」の記事については、「モンテカルロ木探索」の概要を参照ください。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/07/01 16:03 UTC 版)
「AlphaZero」も参照 オープンソースとオープンデータに加えて、KataGoとAlphaZeroの主な違いは、強化学習のコストが大幅に削減されるため、自宅のPCでも比較的高いレベルの強化学習を行える。数日でアマチュア高段者に到達した。
※この「AlphaZero」の解説は、「KataGo」の解説の一部です。
「AlphaZero」を含む「KataGo」の記事については、「KataGo」の概要を参照ください。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/16 15:13 UTC 版)
「コンピュータ囲碁」の記事における「AlphaZero」の解説
詳細は「AlphaZero」を参照 2017年12月5日、DeepMindの開発チームはAlphaGo Zeroからさらに汎化したアプローチを使用したAlphaZeroが、チェス、将棋、囲碁の世界チャンピオンプログラム(当時)であるStockfish、elmo、AlphaGo Zero(3日間学習)を破ったと発表した。
※この「AlphaZero」の解説は、「コンピュータ囲碁」の解説の一部です。
「AlphaZero」を含む「コンピュータ囲碁」の記事については、「コンピュータ囲碁」の概要を参照ください。
AlphaZero
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/17 08:15 UTC 版)
「AlphaGo Zero」の記事における「AlphaZero」の解説
詳細は「AlphaZero」を参照 2017年12月、DeepMindチームは汎化されたAlphaGo Zeroのアプローチを用いたプログラムであるAlphaZeroの論文をarXiv上で発表した。AlphaZeroは24時間以内にチェス、将棋、囲碁の世界チャンピオンプログラムであるStockfish、elmo、3日間学習させたAlphaGo Zeroを破る超人的レベルに達した。
※この「AlphaZero」の解説は、「AlphaGo Zero」の解説の一部です。
「AlphaZero」を含む「AlphaGo Zero」の記事については、「AlphaGo Zero」の概要を参照ください。
- AlphaZeroのページへのリンク