reinforcement learningとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > reinforcement learningの意味・解説 

強化学習

(reinforcement learning から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/02/14 21:13 UTC 版)

強化学習(きょうかがくしゅう、: reinforcement learningRL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。

強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]

この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとして時間差分学習(TD学習)やQ学習が知られている。

導入

強化学習シナリオの典型的な構成: エージェントは環境内で行動をおこし、それは報酬や状態の表現に解釈され、エージェントにフィードバックされる。

強化学習はその一般性から、ゲーム理論制御理論オペレーションズ・リサーチ情報理論シミュレーションに基づく最適化英語版マルチエージェントシステム群知能統計学など、多くの分野で研究されている。オペレーションズ・リサーチや制御の文献では、強化学習は近似動的計画法(approximate dynamic programming)あるいはニューロダイナミック・プログラミング(neuro-dynamic programming)と呼ばれている。強化学習の問題は最適制御理論でも研究されており、主に最適解の存在と特徴づけや、その厳密な計算のためのアルゴリズムを対象するが、(特に環境の数学的モデルがない場合の)学習や近似への関心は高くない。また、経済学やゲーム理論では、限定合理性のもとで均衡がどのように生じるかを説明するために、強化学習が用いられることがある。

基本的な強化学習は、マルコフ決定過程(Markov decision process、MDP)としてモデル化される。




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「reinforcement learning」の関連用語

reinforcement learningのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



reinforcement learningのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの強化学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS