PUCTとは? わかりやすく解説

PUCT (Polynomial Upper Confidence Tree)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/10 02:35 UTC 版)

モンテカルロ木探索」の記事における「PUCT (Polynomial Upper Confidence Tree)」の解説

PUCT は David Auger, Adrien Couetoux, Olivier Teytaud が2013年発表した手法。 木は根は決断ノードとし、決断ノードとランダムノードを交互に繰り返す形で構築する決断ノード行為 a を選択し、ランダムノードに遷移する決断ノード z を選択した場合、 ⌊ n ( z ) α ⌋ > ⌊ ( n ( z ) − 1 ) α ⌋ {\displaystyle \lfloor n(z)^{\alpha }\rfloor >\lfloor (n(z)-1)^{\alpha }\rfloor } ならば、そのノードシミュレーションを行う さもなければ V ^ ( z , a ) + n ( z ) e ( d ) n ( z , a ) {\displaystyle {\hat {V}}(z,a)+{\sqrt {\frac {n(z)^{e(d)}}{n(z,a)}}}} が最大となる子ノード選択する ランダムノード w を選択した場合、 ⌊ n ( w ) α ⌋ = ⌊ ( n ( w ) − 1 ) α ⌋ {\displaystyle \lfloor n(w)^{\alpha }\rfloor =\lfloor (n(w)-1)^{\alpha }\rfloor } ならば、最も訪れていない子ノード選択する さもなければ新し子ノード作成する 関数以下の通り。 V ^ ( z , a ) {\displaystyle {\hat {V}}(z,a)} - 決断ノード z で行為 a を選択した際のランダムノードでの平均報酬勝率など) n ( z ) {\displaystyle n(z)} - 決断ノード z の訪問回数 n ( z , a ) {\displaystyle n(z,a)} - 決断ノード z で行為 a を選択した際のランダムノードの訪問回数 α ( d ) {\displaystyle \alpha (d)} - 深さ d に対して定めた progressive widening 係数定数) e ( d ) {\displaystyle e(d)} - 深さ d に対して定めた探索係数定数

※この「PUCT (Polynomial Upper Confidence Tree)」の解説は、「モンテカルロ木探索」の解説の一部です。
「PUCT (Polynomial Upper Confidence Tree)」を含む「モンテカルロ木探索」の記事については、「モンテカルロ木探索」の概要を参照ください。

ウィキペディア小見出し辞書の「PUCT」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「PUCT」の関連用語

PUCTのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



PUCTのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのモンテカルロ木探索 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS