DeepStack
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/03/27 05:37 UTC 版)
DeepStack(ディープスタック)は、2人用ポーカー、特にヘッズアップ・ノーリミット・テキサス・ホールデムをプレイするために設計された人工知能プログラムである[1]。本作は、このゲームにおいて人間のプロを凌駕した最初のコンピュータプログラムである。
背景
ポーカーは学術界における重要なベンチマークゲームであり、最悪の敵に対する最適戦略を見出すために膨大な研究が行われてきた[2]。
チェスのような完全情報ゲームでは、数十年前に人間のプロが追い越されたが、不完全情報ゲームはより複雑な再帰的推論を必要とする。
以前の一般的なアプローチは、主に抽象化を用いてゲームを簡略化することに依存していた。しかし、不完全情報ゲームにおける抽象化は、しばしば付け入る隙の大きい戦略を生み出す。 代わりに、DeepStackはニューラルネットワークの使用や継続的再解決(continual resolving)といったいくつかのアルゴリズムの革新を利用している。
本プログラムは、カレル大学、チェコ工科大学、アルバータ大学の国際チームによって開発された。
アルゴリズム
プログラムの中核は、特定のカードの組み合わせの価値を決定するためのニューラルネットワークの使用にある。
ネットワークは少数のゲーム状態のみで学習され、学習中には見られなかった状況へと一般化するために使用される。
本プログラムは、ニューラルネットワークを用いた探索と継続的再解決を使用し、各ステップで見出された戦略が前のステップで使用された戦略と一貫していることを保証する。
探索手順では、反実仮想後悔最小化(CFR)[3]を用いて先読みツリーの戦略を反復的に更新し、ニューラルネットワークを末端ノードの評価に使用する。
末端ノードの評価では、ある一定の深さ以降の計算を高速な近似推定に置き換えることで、ゲームの残り全体についての推論を回避している。
2016年のプロプレイヤーとのトーナメント
2016年12月に完了した研究において、DeepStackは4万4,000ハンドのポーカーをプレイし、11人のプロポーカープレイヤーを破った。全ゲームを通じて、DeepStackは100ハンドあたり49ビッグブラインド(bb/100)を獲得し(常にフォールドした場合は75 bb/100の損失となる)、ゼロから4標準偏差以上の差をつけた。これにより、ヘッズアップ・ノーリミット・テキサス・ホールデムにおいてプロプレイヤーを破った最初のコンピュータプログラムとなった[要出典]。
競合アプローチ
DeepStackと同時期に、カーネギーメロン大学の研究グループから、Libratus(リブラトゥス)と呼ばれる競合アプローチが発表された。2017年1月11日から31日にかけて、Libratusは4人のトップクラスの人間ポーカープレイヤーとのトーナメントに投入された[4]。そのアルゴリズムもScience誌に掲載された[5]。Libratusは末端ノードの評価にニューラルネットワークを使用していない。専門家は、DeepStackが行ったようなニューラルネットワークを用いた学習の方がより汎用的であると主張しており[6]、実際に他の不完全情報ゲームへと一般化するその後の研究でも利用されている[7]。
ポーカーコミュニティによる反応
456ハンドをプレイしたアイルランドのプロポーカープレイヤーであるダラ・オカーニーは、DeepStackがゲーム理論に基づいた、一部の人間プレイヤーが使用するスタイルに似たスタイルでプレイしたと述べた[8]。
脚注
- ^ Moravcik, Matej; Schmid, Martin; Burch, Neil; Lisy, Viliam; Morrill, Dustin; Bard, Nolan; Davis, Trevor; Waugh, Kevin et al. (2017). “Deepstack: Expert-level artificial intelligence in heads-up no-limit poker”. Science 356 (6337): 508–513. arXiv:1701.01724. Bibcode: 2017Sci...356..508M. doi:10.1126/science.aam6960. PMID 28254783.
- ^ Rubin, Jonathan; Watson, Ian (2011). “Computer poker: A review”. Artificial Intelligence 175 (5–6): 958–987. doi:10.1016/j.artint.2010.12.005.
- ^ Zinkevich, Martin; Johanson, Michael; Bowling, Michael; Piccione, Carmelo (2007). “Regret minimization in games with incomplete information”. Advances in Neural Information Processing Systems 20.
- ^ “Upping the Ante: Top Poker Pros Face Off vs. Artificial Intelligence”. Carnegie Mellon University (2017年1月4日). 2017年1月12日閲覧。
- ^ Brown, Noam; Sandholm, Tuomas (2018). “Superhuman AI for heads-up no-limit poker: Libratus beats top professionals”. Science 359 (6374): 418–424. Bibcode: 2018Sci...359..418B. doi:10.1126/science.aao1733. PMID 29249696.
- ^ Metz, Cade. “Rival AIs Battle to Rule Poker (and Global Politics)”. Wired 2022年4月6日閲覧。.
- ^ Brown, Noam; Bakhtin, Anton; Lerer, Adam; Gong, Qucheng (2020). “Combining deep reinforcement learning and search for imperfect-information games”. Advances in Neural Information Processing Systems 33: 17057–17069. arXiv:2007.13544.
- ^ “AI's defeat of pro poker players a 'paradigm shift', say scientists”. Independent (2017年3月2日). 2022年4月6日閲覧。
関連項目
- Cepheus
- Claudico
- Libratus
- Polaris (ポーカーAI)
- Pluribus (ポーカーAI)
- DeepStackのページへのリンク