Q学習の内容とは? わかりやすく解説

Q学習の内容

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/08/25 15:47 UTC 版)

Q学習」の記事における「Q学習の内容」の解説

Q学習では実行するルール対しそのルール有効性を示すQ値という値を持たせエージェントが行動するたびにその値を更新するここでいうルールとはある状態とその状態下においてエージェント可能な行動を対にしたものである。例えエージェント現在の状態s t {\displaystyle s_{t}} とし、この状態で可能な行動が a {\displaystyle a} , b {\displaystyle b} , c {\displaystyle c} , d {\displaystyle d} の4通りあるとする。このとき、エージェント4つQ値、 Q ( s t , a ) {\displaystyle Q(s_{t},a)} 、 Q ( s t , b ) {\displaystyle Q(s_{t},b)} 、 Q ( s t , c ) {\displaystyle Q(s_{t},c)} 、 Q ( s t , d ) {\displaystyle Q(s_{t},d)} を元に行う行動決定する行動決定方法理論上では無限回数試行するならランダムでもQ値収束証明されているが、現実には収束早めるため、なるべく Q値大きな行動高確率選ばれるように行う。選択方法としては、ある小さな確率 ε {\displaystyle \varepsilon } でランダムに選択しそれ以外では Q値最大行動選択する ε {\displaystyle \varepsilon } -グリーディ手法や、遺伝的アルゴリズム使用されているルーレット選択、以下のようなボルツマン分布利用したソフトマックス手法など使用されている。 π ( s t , a ) = exp ⁡ ( Q ( s t , a ) / T ) ∑ p ∈ A exp ⁡ ( Q ( s t , p ) / T ) {\displaystyle \pi (s_{t},a)={\frac {\exp(Q(s_{t},a)/T)}{\sum _{p\in A}\exp(Q(s_{t},p)/T)}}} ここで T {\displaystyle T} は正の定数、 A {\displaystyle A} は状態 s t {\displaystyle s_{t}} でエージェント可能な行動集合である。 行動決定した場合次にその状態と行動Q値更新する。例として状態 s t {\displaystyle s_{t}} のエージェントが行動 a {\displaystyle a} を選び、状態が s t + 1 {\displaystyle s_{t+1}} に遷移たとする。このとき Q ( s t , a ) {\displaystyle Q(s_{t},a)} を次の式で更新する。 Q ( s t , a ) ← Q ( s t , a ) + α [ r t + 1 + γ max p Q ( s t + 1 , p ) − Q ( s t , a ) ] {\displaystyle Q(s_{t},a)\leftarrow Q(s_{t},a)+\alpha \left[r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a)\right]} ここで α {\displaystyle \alpha } は学習率といい、後述する条件を満たす数値であり、 γ {\displaystyle \gamma } は割引率といい0以上1以下定数である。また r t + 1 {\displaystyle r_{t+1}} はエージェントs t + 1 {\displaystyle s_{t+1}} に遷移したときに得た報酬である。上記更新式は現在の状態から次の状態に移ったとき、そのQ値次の状態で最も Q値の高い状態の値に近づけることを意味している。このことにより、ある状態で高い報酬得た場合はその状態に到達することが可能な状態にもその報酬更新ごとに伝播することになる。これにより、最適な状態遷移学習が行われる。 Q学習学習率 α {\displaystyle \alpha } が以下の条件を満たすとき、全ての Q値確率 1 で最適な値に収束することが証明されている。 ∑ t = 0 ∞ α ( t ) → ∞ {\displaystyle \sum _{t=0}^{\infty }\alpha (t)\to \infty } ∑ t = 0 ∞ α ( t ) 2 < ∞ {\displaystyle \sum _{t=0}^{\infty }\alpha (t)^{2}<\infty } この収束性良さのため Q学習に関する多く研究なされているが、いくつかの問題点指摘されている。例えQ学習による理論的保証は値の収束性のみであり、収束途中の値には具体的な合理性認められないため、(価値反復法の) Q学習方策勾配法比べる学習途中結果近似解として用いにくい。また、パラメータ変化敏感でありその調整多くの手間が必要である、などがある。

※この「Q学習の内容」の解説は、「Q学習」の解説の一部です。
「Q学習の内容」を含む「Q学習」の記事については、「Q学習」の概要を参照ください。

ウィキペディア小見出し辞書の「Q学習の内容」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Q学習の内容」の関連用語

1
4% |||||

Q学習の内容のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Q学習の内容のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのQ学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS