多腕バンディットモデルとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > 多腕バンディットモデルの意味・解説 

多腕バンディットモデル

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/26 17:26 UTC 版)

多腕バンディット問題」の記事における「多腕バンディットモデル」の解説

多腕バンディット(略称:バンディットまたは MAB)は、確率分布 B = { R 1 , … , R K } {\displaystyle B=\{R_{1},\dots ,R_{K}\}} の集合見做すことができる。各確率分布は、 K ∈ N + {\displaystyle K\in \mathbb {N} ^{+}} 個のレバーそれぞれによって配分される報酬関連する。 μ 1 , … , μ K {\displaystyle \mu _{1},\dots ,\mu _{K}} を報酬分布平均値とする。ギャンブラーは各ラウンド1つレバー操作し報酬観察する収集された報酬合計最大化することが目的である。地平線 H {\displaystyle H} は残りラウンド数である。バンディット問題は、形式的には1状態のマルコフ決定過程同等である。 T {\displaystyle T} ラウンド後の後悔 ρ {\displaystyle \rho } は、最適な戦略による報酬合計収集された報酬合計との間の差の期待値として定義される。 ρ = T μ ∗ − ∑ t = 1 T r ^ t {\displaystyle \rho =T\mu ^{*}-\sum _{t=1}^{T}{\widehat {r}}_{t}} ここで、最大報酬平均 μ ∗ {\displaystyle \mu ^{*}} は μ ∗ = max k { μ k } {\displaystyle \mu ^{*}=\max _{k}\{\mu _{k}\}} を満たす。 r ^ t {\displaystyle {\widehat {r}}_{t}} はラウンド t の報酬である。 ゼロ後悔戦略とはラウンドごとの平均後悔が ρ / T {\displaystyle \rho /T} が確率 1 でゼロになる戦略である。直感的には、十分なラウンドプレイされれば後悔ゼロ戦略最適な戦略収束することが保証される

※この「多腕バンディットモデル」の解説は、「多腕バンディット問題」の解説の一部です。
「多腕バンディットモデル」を含む「多腕バンディット問題」の記事については、「多腕バンディット問題」の概要を参照ください。

ウィキペディア小見出し辞書の「多腕バンディットモデル」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「多腕バンディットモデル」の関連用語

1
10% |||||

多腕バンディットモデルのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



多腕バンディットモデルのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの多腕バンディット問題 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS