SlideShare a Scribd company logo
1 of 35
深層学習の
将棋AIへの浸透について
芝 世弐(白ビール・二番絞り・電竜戦副理事長)
第二回電竜戦TSECおよびAI電竜戦プロジェクトNPO法人化記念講演(自称)
本日のテーマ
 AI分野で注目の技術である深層学習が将棋において普及する過程
 偶然私が取り組んだ2017年以降+温故知新
 古典書籍や専門書などでは情報収集が大変時間がかかる概要部分をものすごく
大雑把にお話しします
 技術よりトレンド・雰囲気・全体像
 視聴者のレベル差もあると思いますので質問・コメント等はリアルタイムに受
け付け,可能な限り対応します
 関西人の平均的な「行けたら行く」よりは期待してください
二人零和有限確定完全情報ゲーム
 二人
 プレイヤー数
 零和(ゼロサム)
 対戦者の利得の総和が0である
 有限
 局面状態数が有限数である(駒数および升数が有限数のため組み合わせも有限)
 確定
 さいころやルーレットのような確率的な遷移過程ではない
 完全情報
 互いのプレイヤーに与えられていない情報がない。情報の均衡
将棋・囲碁・オセロ・チェス・連珠など多くの二人テーブルゲームが含まれる
ゲーム木
選択により枝を進み
新たな局面を生む
初期局面
76歩
84歩
68銀 26歩
34歩
26歩 16歩
26歩
34歩
25歩 76歩
84歩
25歩 76歩
56歩
この図は全ての手を示していないため完全ではない
探索の種類
 Min-Max法
 具体的な計算手法にアルファベータ法など
 評価値が間違っていなければ探索範囲内では必ず最善手となるが,探索前に評価値を決
定する必要がある
 手が進んだ先の局面から探索をはじめる
 モンテカルロ探索
 発展形にモンテカルロ木探索など
 評価しづらい局面であっても探索は可能(原理的には勝敗判定のみで動作する)
 現局面から探索をはじめる
 二人零和有限確定完全情報ゲームに限らない
モンテカルロ法
 乱数による近似値計算
 モンテカルロ(世界的に有名なモナコ公国のカジノ所在地)
 例えば右図で
 0~1の乱数を二つ生成し,xおよびyとする
 図にプロットし原点からの距離が1未満かどうか判定する
 多くの点を打ち,全プロットに対して円内のプロットの比を求める
 プロット数が増えるにつれてπ/4に近い値が得られる
 よって円周率の近似値が求まる
 近似式等が不要だが非常に荒い
モンテカルロ探索
初期局面
76歩 26歩 56歩
完全な乱数
勝ち
勝ち
負け
勝ち 負け 負け
勝率の良い手を選ぶ
モンテカルロ木探索
有望そうな選択枝のみを展開し
有望そうな局面から乱数で勝率を求める
初期局面
76歩
84歩
68銀 26歩
34歩
26歩
34歩
25歩
84歩
56歩
モンテカルロ木探索(Monte Carlo tree search)
 基本原理は古いが,Rémi Coulomにより2006年命名・実証された
 囲碁AI Crazy Stone
 精度の低いモンテカルロ探索をベースに桁違いのパフォーマンスで有望な手を発見可能
 大きなブレイクスルー!!
 以後,大きな発展のベースに
PV-MCTS
 モンテカルロ木探索の考え方をベースに枝選択に深層学習(ディープラーニン
グ)モデルを適用
 勝率判定部も深層学習モデルを適用
 局面情報から枝選択および勝率を同時に求める深層学習モデル
 枝選択:Policy
 勝率:Value
 DeepMind社のAlphaGoシリーズで有名に
ここまで,まとめ
 探索法はおおきく二種類
Min-Max法
モンテカルロ木探索(MCTS)
 それぞれで要求される局面評価は異なる
各局面で必ず欲しい情報(今日の肝)
Min-Max法
評価値(数字ひとつ)
モンテカルロ木探索
良さそうな指し手
できれば上位候補いくつか
将棋のデータ構造
 駒の種類:王飛角金銀桂香歩で8種類
 うち6種は成り駒へ変化可能 → 盤上では14種類
 盤面:9×9
 持ち駒:先手か後手,玉を除く駒で7種類
 手番:先手か後手
 有限数ですね
将棋局面のプログラム内部でのデータ表現
 9×9の二次元配列に駒を配置するタイプ
 81マス×14種類x2手番(+別途駒台)
 28色の画像的
 40枚の駒の状態
 81マス+駒台
 手番
 成・不成
 40x1548状態(定義に依る)
14
古典モデル1(状態点)
 駒の状態に点数
 88の玉に10点
 57のと金に100点
 駒台の飛車に500点
 など
古典モデル2(相対二駒)
 駒の状態の組み合わせに点数
 玉と金が隣り合っている組み合わせに15点
 敵玉の2升手前の銀に30点
 など
古典モデル2.5(相対二駒+)
 駒の状態の組み合わせに点数
 直射してないが香車の効き筋に馬
 玉のコビンに桂馬の効き
 持ち歩が三枚
 など
古典モデル3(絶対二駒)
 駒の状態の組み合わせに点数
 88玉と78金が隣り合っている組み合わ
せに20点
 敵22玉に対して24の銀に35点
 など
 1548 x 1548の固定ループで計算可能
古典モデル4(絶対三駒)
 駒の状態の組み合わせに点数
 88玉78銀69金の組み合わせに45点
 22敵玉24銀28飛車に35点
 など
 2006年Bonanzaから
 2017年elmoおよび2018年Hefeweizenまで
NNUE(Efficiently updatable neural network)
 2018年たぬきチームの那須さんが導入
 古典的絶対二駒状態量を入力
 4層ニューラルネットワーク
 CPUによる高速演算への工夫
 通称:鵺(ぬえ)
2019年の世界コンピュータ将棋選手権
優勝:やねうら王
準優勝:Krsitallweizen
三位:狸王
全てNNUE
2020年の世界コンピュータ将棋オンライン
優勝:水匠
準優勝:Hefeweizen-2020
三位:elmo
全てNNUE
2020年の第一回電竜戦
優勝:GCT
準優勝:Grampus
三位:Qhapaq Overfit Adventure
GCTはdlshogiベースのPV-MCTS
Grampus, QhapaqはNNUE
手前味噌ですが弊作二番絞りはPV-MCTSで予選3位
2021年の世界コンピュータ将棋選手権
優勝:elmo
準優勝:PAL
三位:Ryfamate (初参加)
ElmoはNNUE,PALはPV-MCTS
Ryfamateは両者のハイブリッド(合議)
PV-MCTSの時代が来ている?
 必ずしも勝ちとならなくても,ものすごく影響があります。
 今まで勝っていたAIが中盤で劣勢になる!!?
 ガチンコでも優勝争える。(ハードウェアのコストは大)
 技術的には難しい?
 今までと異なるだけでプログラムソース自体は随分減ります
 必要となるのは今風の深層学習技術
では,本題局面評価にもどります。
 古典モデル~NNUEは駒の状態量から評価値(数字ひとつ)でした。
 PV-MCTSに要求されるものは,良さそうな指し手のリストです。
 これは古典AIでは非常に難しいものでしたが,2013年以降の画像認識
技術などから発展した深層学習モデルを流用することで可能になりま
した。(DeepMind社のAlphaZeroなど)
利き情報の入ったdlshogiモデルの入力
 入力特徴量として14種の駒x先後(計14層)
 持ち駒(各1レイヤー,ただし歩は8枚まで,計28層)
 各駒の利き情報(駒種と同数のレイヤー,14層)
 利き数の合計レイヤー(1,2,3)
 ( 14+28+14+3 ) x 2 = 118 層
27
肝となるResNet(Residual Network)
 2015年の画像認識コンペ優勝モデルの改良版
 現在も画像解析分野で幅広く用いられている
ニューラルネットワーク出力
 指し手確率
 全ての指し手に対して期待確率を示す
 局面評価値
 現局面の期待勝率を示す
 現在機械学習で多くのチームが絶賛強化中です。
 凄くないですか?
凄くないですか?と言えば
2018年世界選手権デビュー組
 初参加優勝の私
 初参加準優勝の山口さん
 囲碁でAQ(世界戦準優勝),将棋でPAL :NHK杯中継
 dlshogiの山岡さん
 将棋のPV-MCTSパイオニア,自著出版等
 Crazy ShogiのRemiさん
 囲碁界のレジェンド
 今も将棋の深層学習で上位を争っているメンバーです。
じゃ,現在のニューラルネットワーク
モデルの精度ってどんなもんなの?
 二番絞り(40ブロック):PV-MCTS
 1秒間に11局面程度の局面評価(普通のPCで1スレッド)
 2016年世界選手権準優勝・技巧2:Min-Max法
 1秒間に70万局面程度の局面評価(普通のPCで1スレッド)
 ネット上の対局サーバfloodgate上でほぼ互角です!!!
 もちろん人間が太刀打ちできるレベルではありません。
 レート3275 vs 3300
さらに削った極端な実験
 一手につき局面評価1局面
 つまり,ニューラルネットの第一候補をそのまま指す
 三手詰めすらできないことも
 一手につき局面評価3局面
 手を進めた局面など3つの局面を評価し探索で最善手を指す
 意外に普通に戦える
 floodgateレーティング 2286
 有段者クラスあるのでは?(コンピュータ将棋関係者談)
現状の将棋の深層学習モデルは既に人間
を超えているかも?
 わずかな探索数でもそこそこの強さ
 大局観は段位者?プロ級?
さらにコンピュータの性能向上
 高速演算可能なハードウェアを用いれば最強クラス
 秒20万局面の評価(クラウド上のA100インスタンス)
 AIブームでハードウェア性能は年々うなぎのぼり
 5年で数十倍
 10年前の地球シミュレータ級が今個人で使える
 学習も対戦も桁違いの強化が期待される
 お金持ち圧倒的優位の時代が再び
おわりに
 将棋AIでPV-MCTSモデルが主流になる日も近いかもしれない
 NNUE系も追いつかれただけで追い抜かれてはいない?
 明日はどっちだ

More Related Content

What's hot

What's hot (20)

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
 
時系列分析入門
時系列分析入門時系列分析入門
時系列分析入門
 
ゲーム木探索技術とコンピュータ将棋への応用
ゲーム木探索技術とコンピュータ将棋への応用ゲーム木探索技術とコンピュータ将棋への応用
ゲーム木探索技術とコンピュータ将棋への応用
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
TensorFlow計算グラフ最適化処理
TensorFlow計算グラフ最適化処理TensorFlow計算グラフ最適化処理
TensorFlow計算グラフ最適化処理
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 

Recently uploaded

研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
atsushi061452
 

Recently uploaded (14)

部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
 
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
 
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
 

深層学習の将棋Aiへの浸透について