強化学習とは? わかりやすく解説

Weblio 辞書 > 同じ種類の言葉 > 学問 > 教育 > 学習 > 強化学習の意味・解説 

きょうか‐がくしゅう〔キヤウクワガクシフ〕【強化学習】

読み方:きょうかがくしゅう

人工知能における、コンピューターによる機械学習一種解決すべき課題対し、より正し結果を得るため、試行錯誤通じて自ら得られる報酬最大化するよう学習進める。報酬は、確率的にある程度遅れてもたらされる学習速度遅く適切なアルゴリズム設計難しいが、現実世界に近い不確実性のある環境条件の下で、最適な方策を自ら獲得する特長をもつ。→教師あり学習


強化学習

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/12/08 07:15 UTC 版)

強化学習(きょうかがくしゅう、: reinforcement learningRL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。

強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]

この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとして時間差分学習(TD学習)やQ学習が知られている。

導入

強化学習シナリオの典型的な構成: エージェントは環境内で行動をおこし、それは報酬や状態の表現に解釈され、エージェントにフィードバックされる。

強化学習はその一般性から、ゲーム理論制御理論オペレーションズ・リサーチ情報理論シミュレーションに基づく最適化英語版マルチエージェントシステム群知能統計学など、多くの分野で研究されている。オペレーションズ・リサーチや制御の文献では、強化学習は近似動的計画法(approximate dynamic programming)あるいはニューロダイナミック・プログラミング(neuro-dynamic programming)と呼ばれている。強化学習の問題は最適制御理論でも研究されており、主に最適解の存在と特徴づけや、その厳密な計算のためのアルゴリズムを対象するが、(特に環境の数学的モデルがない場合の)学習や近似への関心は高くない。また、経済学やゲーム理論では、限定合理性のもとで均衡がどのように生じるかを説明するために、強化学習が用いられることがある。

基本的な強化学習は、マルコフ決定過程(Markov decision process、MDP)としてモデル化される。


強化学習

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/05 04:50 UTC 版)

マルコフ決定過程」の記事における「強化学習」の解説

「強化学習」および「Q学習」も参照 状態遷移確率 T ( s , a , s ′ ) {\displaystyle T(s,a,s')} や報酬関数 R ( s , a , s ′ ) {\displaystyle R(s,a,s')} が未知の場合環境との相互作用通じてこれらの情報を得ながら行動を決定する必要がしばしば生じる.このような問題は強化学習の枠組み議論される. 強化学習における代表的な学習アルゴリズムQ学習呼ばれるのであるQ学習では、行動価値関数 (action-value function) と呼ばれる関数 Q π ( s , a ) {\displaystyle Q^{\pi }(s,a)} に着目する。ここで Q π ( s , a ) {\displaystyle Q^{\pi }(s,a)} は次のように定義される: Q π ( s , a ) = E π [ ∑ t = 0 ∞ γ t r t + 1 | s 0 = s , a 0 = a ] {\displaystyle Q^{\pi }(s,a)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}|s_{0}=s,a_{0}=a]} いま,最適政策のもとでの行動価値関数 Q ∗ ( s , a ) = max π Q π ( s , a ) {\displaystyle Q^{*}(s,a)=\max _{\pi }Q^{\pi }(s,a)} は V ∗ ( s ) = max a Q ∗ ( s , a ) {\displaystyle V^{*}(s)=\max _{a}Q^{*}(s,a)} を満たす。すなわち、 Q ∗ {\displaystyle Q^{*}} を学習することができればモデルパラメータ直接求めことなく最適政策獲得することができる。Q学習では、各試行における遷移前後の状態と入力、および試行得られる即時報酬実現値をもとに Q ( s , a ) {\displaystyle Q(s,a)} の値を逐次更新する実際の学習プロセスでは、すべての状態を十分サンプリングするため確率的なゆらぎを含むよう学習時の行動選択される。 強化学習では最適化必要なパラメータの学習状態遷移確率報酬関数介することなくおこなうことが出来る(価値反復法政策反復法ではそれらの明示的な仕様(各状態間の遷移可能性報酬関数関数形など)を与え必要がある)。状態数(および行動選択肢)が膨大な場合、強化学習はしばしニューラルネットワークなどの関数近似組み合わせられる

※この「強化学習」の解説は、「マルコフ決定過程」の解説の一部です。
「強化学習」を含む「マルコフ決定過程」の記事については、「マルコフ決定過程」の概要を参照ください。

ウィキペディア小見出し辞書の「強化学習」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



強化学習と同じ種類の言葉


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「強化学習」の関連用語

強化学習のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



強化学習のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの強化学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのマルコフ決定過程 (改訂履歴)、機械学習 (改訂履歴)、モンテカルロ法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2024 GRAS Group, Inc.RSS