モデルフリー (強化学習)とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > モデルフリー (強化学習)の意味・解説 

モデルフリー (強化学習)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/12/08 08:58 UTC 版)

強化学習(RL)において、モデルフリーアルゴリズムmodel-free algorithm)あるいはモデル無しアルゴリズムとは、マルコフ決定過程(MDP)の環境ダイナミクス(遷移確率分布と報酬分布)を推定しないアルゴリズムのことである[1]。遷移確率分布と報酬分布は、しばしばまとめて環境(またはMDP)の「モデル」と呼ばれるため、「モデルフリー」という名前が付けられている。モデルフリー強化学習アルゴリズムは、「明示的な」試行錯誤アルゴリズムと考えることができる[1]。モデルフリーアルゴリズムの典型的な例としては、モンテカルロ法(MC法)、SARSA法Q学習がある。

モンテカルロ推定は、多くのモデルフリーアルゴリズムの中心的な要素である。基本的に一般化方策反復法(GPI)の具体化であり、方策評価(PEV)と方策改善(PIM)の二つが交互に繰り返される。このフレームワークでは、各方策はまず対応する価値関数によって評価される。次に、評価に基づいて、より良い方策を作成するために貪欲(greedy)探索を行う。モンテカルロ推定は、主に方策評価の最初のステップに適用される。もっとも単純なものは、現在の方策の有効性を判断するために、収集されたすべてのサンプルの収益を平均する。より多くの経験が蓄積されるにつれて、大数の法則により推定値は真の値に収束する。したがって、モンテカルロ法による方策評価は、環境ダイナミクスに関する事前の知識を必要としない。代わりに、(現実またはシミュレートされた)環境との相互作用から生成される経験(つまり、状態、行動、報酬のサンプル)のみが必要となる[2]

価値関数の推定は、モデルフリーアルゴリズムにとって重要である。MC法とは異なり、時間差分法(TD法)は既存の価値推定値を再利用(ブートストラッピング)することでこの関数を学習する。TD学習は、最終結果を待たずに、エピソードの部分的な軌跡から学習する能力を持つ。また、現在の状態の関数として将来の収益を近似することもできる。MCと同様に、TDは環境ダイナミクスに関する事前の知識なしに、経験のみを使用して価値関数を推定する。TDの利点は、現在の推定値に基づいて価値関数を更新できるという点にある。したがって、TD学習アルゴリズムは、不完全なエピソードまたは継続的なタスクから段階的に学習できるが、MCはエピソード単位で実装する必要がある[2]

モデルフリー深層強化学習アルゴリズム

モデルフリーアルゴリズムは、ランダムな方策から始めて、Atariゲーム、StarCraft、囲碁など、多くの複雑なタスクで人間を超えるパフォーマンスを達成できる。深層ニューラルネットワークは、最近の人工知能のブレークスルーを担っており、RLと組み合わせることで、Google DeepMindのAlphaGoなどの人間を超えるエージェントを作成できる。主流のモデルフリーアルゴリズムには、DQN(深層Q学習)、Rainbow、TRPO(信頼領域方策最適化)、PPO(近接方策最適化)、A3C(非同期アドバンテージ・アクター・クリティック法)、A2C(同期アドバンテージ・アクター・クリティック法)、DDPG(深層決定的方策勾配法)、TD3(二重遅延型深層決定的方策勾配法)、SAC(ソフト・アクター・クリティック法)、DSAC(分布ソフト・アクター・クリティック法)などがある[2]

アルゴリズム 詳細 方策の分離性 行動空間
DQN 深層Q学習。Q関数をニューラルネットワークで関数近似する手法。加えて、ターゲットネットワーク、経験バッファを導入する。 オフポリシー 離散
Rainbow DQNにDDQN(Double DQN)、デュエリング・ネットワーク(Dueling-network)ノイジー・ネットワーク(Noisy-network)、優先度付き経験バッファ(Prioritized Experience Replay)、カテゴリカルDQN(C51、分布DQN)、マルチステップ学習を融合した手法。 オフポリシー 離散
A3C 非同期アドバンテージ・アクター・クリティック法。分散型となったアクタークリティック法。エージェントは勾配を収集し、中央のラーナーがパラメータを更新する。 オンポリシー 離散・連続
A2C 同期アドバンテージ・アクター・クリティック法。A3Cの派生手法で、エージェントは経験を収集し、中央のラーナーが勾配計算とパラメータ行進を行う。A3CよりGPUの必要数が少ない。 オンポリシー 離散・連続
TRPO 信頼領域方策最適化。方策の過度な更新を抑えるために、制約を利用する。 オンポリシー 離散・連続
PPO 近接方策最適化。TRPOを簡略化した手法。 どちらともいえない 離散・連続
DDPG 深層決定的方策勾配法。決定的方策をニューラルネットワークで、モデル化するのが特徴。 オフポリシー 連続
TD3 二重遅延型深層決定的方策勾配法。DDPGの改良手法。 オフポリシー 連続
SAC ソフト・アクター・クリティック法。エントロピー最大化によって探索を促進する。 オフポリシー 連続
DSAC[3] 分布ソフト・アクター・クリティック法。SACに分布強化学習の発想を取り入れたもの。 オフポリシー 連続

脚注

出典

  1. ^ a b Sutton, Richard S.; Barto, Andrew G. (November 13, 2018). Reinforcement Learning: An Introduction (Second ed.). A Bradford Book. pp. 552. ISBN 0262039249. http://incompleteideas.net/book/bookdraft2018mar21.pdf 18 February 2019閲覧。 
  2. ^ a b c Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (First ed.). Springer Verlag, Singapore. pp. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. https://link.springer.com/book/10.1007/978-981-19-7784-8 
  3. ^ J Duan; Y Guan; S Li (2021). “Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors”. IEEE Transactions on Neural Networks and Learning Systems 33 (11): 6584–6598. arXiv:2001.02811. doi:10.1109/TNNLS.2021.3082568. PMID 34101599. https://ieeexplore.ieee.org/document/9448360. 



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  モデルフリー (強化学習)のページへのリンク

辞書ショートカット

すべての辞書の索引

「モデルフリー (強化学習)」の関連用語

1
12% |||||

モデルフリー (強化学習)のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



モデルフリー (強化学習)のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのモデルフリー (強化学習) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS