Q学習の内容とは？わかりやすく解説

辞書 類語・対義語辞典 英和・和英辞典 日中中日辞典 日韓韓日辞典 古語辞典

その他の辞書▼
- フランス語辞典
- インドネシア語辞典
- タイ語辞典
- ベトナム語辞典

Weblio 辞書ヘルプ

556の専門辞書や国語辞典百科事典から一度に検索!

無料の翻訳ならWeblio翻訳！

初めての方へ参加元一覧

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > Q学習の内容の意味・解説

ウィキペディア小見出し辞書

索引トップ用語の索引ランキング

Q学習の内容

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2020/08/25 15:47 UTC 版)

「Q学習」の記事における「Q学習の内容」の解説

Q学習では実行するルールに対しそのルールの有効性を示すQ値という値を持たせ、エージェントが行動するたびにその値を更新する。ここでいうルールとはある状態とその状態下においてエージェントが可能な行動を対にしたものである。例えばエージェントの現在の状態を s t {\displaystyle s_{t}} とし、この状態で可能な行動が a {\displaystyle a} , b {\displaystyle b} , c {\displaystyle c} , d {\displaystyle d} の4通りあるとする。このとき、エージェントは4つのQ値、 Q ( s t , a ) {\displaystyle Q(s_{t},a)} 、 Q ( s t , b ) {\displaystyle Q(s_{t},b)} 、 Q ( s t , c ) {\displaystyle Q(s_{t},c)} 、 Q ( s t , d ) {\displaystyle Q(s_{t},d)} を元に行う行動を決定する。行動の決定方法は理論上では無限回数試行するならランダムでもQ値の収束は証明されているが、現実には収束を早めるため、なるべく Q値の大きな行動が高確率で選ばれるように行う。選択方法としては、ある小さな確率 ε {\displaystyle \varepsilon } でランダムに選択し、それ以外では Q値の最大の行動を選択する ε {\displaystyle \varepsilon } -グリーディ手法や、遺伝的アルゴリズムで使用されているルーレット選択、以下のようなボルツマン分布を利用したソフトマックス手法などが使用されている。 π ( s t , a ) = exp ⁡ ( Q ( s t , a ) / T ) ∑ p ∈ A exp ⁡ ( Q ( s t , p ) / T ) {\displaystyle \pi (s_{t},a)={\frac {\exp(Q(s_{t},a)/T)}{\sum _{p\in A}\exp(Q(s_{t},p)/T)}}} ここで T {\displaystyle T} は正の定数、 A {\displaystyle A} は状態 s t {\displaystyle s_{t}} でエージェントが可能な行動の集合である。行動を決定した場合、次にその状態と行動のQ値を更新する。例として状態 s t {\displaystyle s_{t}} のエージェントが行動 a {\displaystyle a} を選び、状態が s t + 1 {\displaystyle s_{t+1}} に遷移したとする。このとき Q ( s t , a ) {\displaystyle Q(s_{t},a)} を次の式で更新する。 Q ( s t , a ) ← Q ( s t , a ) + α [ r t + 1 + γ max p Q ( s t + 1 , p ) − Q ( s t , a ) ] {\displaystyle Q(s_{t},a)\leftarrow Q(s_{t},a)+\alpha \left[r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a)\right]} ここで α {\displaystyle \alpha } は学習率といい、後述する条件を満たす数値であり、 γ {\displaystyle \gamma } は割引率といい0以上1以下の定数である。また r t + 1 {\displaystyle r_{t+1}} はエージェントが s t + 1 {\displaystyle s_{t+1}} に遷移したときに得た報酬である。上記の更新式は現在の状態から次の状態に移ったとき、そのQ値を次の状態で最も Q値の高い状態の値に近づけることを意味している。このことにより、ある状態で高い報酬を得た場合はその状態に到達することが可能な状態にもその報酬が更新ごとに伝播することになる。これにより、最適な状態遷移の学習が行われる。 Q学習は学習率 α {\displaystyle \alpha } が以下の条件を満たすとき、全ての Q値は確率 1 で最適な値に収束することが証明されている。 ∑ t = 0 ∞ α ( t ) → ∞ {\displaystyle \sum _{t=0}^{\infty }\alpha (t)\to \infty } ∑ t = 0 ∞ α ( t ) 2 < ∞ {\displaystyle \sum _{t=0}^{\infty }\alpha (t)^{2}<\infty } この収束性の良さのため Q学習に関する多くの研究がなされているが、いくつかの問題点も指摘されている。例えば Q学習による理論的保証は値の収束性のみであり、収束途中の値には具体的な合理性が認められないため、（価値反復法の） Q学習は方策勾配法と比べると学習途中の結果を近似解として用いにくい。また、パラメータの変化に敏感でありその調整に多くの手間が必要である、などがある。

※この「Q学習の内容」の解説は、「Q学習」の解説の一部です。
「Q学習の内容」を含む「Q学習」の記事については、「Q学習」の概要を参照ください。

ウィキペディア小見出し辞書の「Q学習の内容」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

パフューム

>> 「Q学習の内容」を含む用語の索引
Q学習の内容のページへのリンク

辞書ショートカット

1 ウィキペディア小見出し辞書

カテゴリ一覧

＋ビジネス

＋業界用語

＋コンピュータ

＋自動車・バイク

＋船

＋建築・不動産

＋ヘルスケア

＋スポーツ

＋辞書・百科事典

すべての辞書の索引

Weblioのサービス

「Q学習の内容」の関連用語

1

百科事典

4% |||||

Q学習の内容のお隣キーワード

Q太と仲間たち

Q太郎VS西洋の拷問

Q学習の内容

Q式・E式血液型のその後

Q弾頭ミサイル

検索ランキング

Q学習の内容のページの著作権
Weblio 辞書情報提供元は参加元一覧にて確認できます。


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのQ学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

ビジネス｜業界用語｜コンピュータ｜電車｜自動車・バイク｜船｜工学｜建築・不動産｜学問
 文化｜生活｜ヘルスケア｜趣味｜スポーツ｜生物｜食品｜人名｜方言｜辞書・百科事典

ご利用にあたって

・Weblio辞書とは

・検索の仕方

・利用規約

・プライバシーポリシー

・サイトマップ

便利な機能

・ウェブリオのアプリ

・画像から探す

お問合せ・ご要望

・お問い合わせ

会社概要

・公式企業ページ

・会社情報

・採用情報

ウェブリオのサービス

・Weblio 辞書

・類語・対義語辞典

・英和辞典・和英辞典

・Weblio翻訳

・日中中日辞典

・日韓韓日辞典

・フランス語辞典

・インドネシア語辞典

・タイ語辞典

・ベトナム語辞典

・古語辞典

©2025 GRAS Group, Inc.RSS