多腕バンディットモデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/26 17:26 UTC 版)
「多腕バンディット問題」の記事における「多腕バンディットモデル」の解説
多腕バンディット(略称:バンディットまたは MAB)は、確率分布 B = { R 1 , … , R K } {\displaystyle B=\{R_{1},\dots ,R_{K}\}} の集合と見做すことができる。各確率分布は、 K ∈ N + {\displaystyle K\in \mathbb {N} ^{+}} 個のレバーのそれぞれによって配分される報酬に関連する。 μ 1 , … , μ K {\displaystyle \mu _{1},\dots ,\mu _{K}} を報酬分布の平均値とする。ギャンブラーは各ラウンドに1つのレバーを操作し、報酬を観察する。収集された報酬の合計を最大化することが目的である。地平線 H {\displaystyle H} は残りのラウンド数である。バンディット問題は、形式的には1状態のマルコフ決定過程と同等である。 T {\displaystyle T} ラウンド後の後悔 ρ {\displaystyle \rho } は、最適な戦略による報酬の合計と収集された報酬の合計との間の差の期待値として定義される。 ρ = T μ ∗ − ∑ t = 1 T r ^ t {\displaystyle \rho =T\mu ^{*}-\sum _{t=1}^{T}{\widehat {r}}_{t}} ここで、最大報酬平均 μ ∗ {\displaystyle \mu ^{*}} は μ ∗ = max k { μ k } {\displaystyle \mu ^{*}=\max _{k}\{\mu _{k}\}} を満たす。 r ^ t {\displaystyle {\widehat {r}}_{t}} はラウンド t の報酬である。 ゼロ後悔戦略とは、ラウンドごとの平均後悔が ρ / T {\displaystyle \rho /T} が確率 1 でゼロになる戦略である。直感的には、十分なラウンドがプレイされれば、後悔ゼロの戦略は最適な戦略に収束することが保証される。
※この「多腕バンディットモデル」の解説は、「多腕バンディット問題」の解説の一部です。
「多腕バンディットモデル」を含む「多腕バンディット問題」の記事については、「多腕バンディット問題」の概要を参照ください。
- 多腕バンディットモデルのページへのリンク