分布ソフト・アクター・クリティック法とは？わかりやすく解説

分布ソフト・アクター・クリティック法（DSAC（でぃーさっく）:Distributional Soft Actor Critic）は、連続行動空間を持つ複雑なシステムにおいて意思決定または制御方策を学習するために調整された、モデルフリーのオフポリシー強化学習アルゴリズムの総称である^[1]。期待収益のみに焦点を当てる従来の方法とは異なり、DSACアルゴリズムは、価値分布と呼ばれる確率的収益に関するガウス分布を学習するように設計されている。このガウス価値分布学習への重点化は、価値の過大評価を著しく減少させ、ひいては方策の性能を向上させる。さらに、DSACによって学習された価値分布は、リスク考慮型方策の学習にも使用できる^[2]^[3]^[4]。技術的な観点から見ると、DSACは基本的に、ソフト・アクター・クリティック法（SAC）の分布への適応である^[5]。

現在までに、DSACファミリーは、最初のDSAC-v1とその改良版であるDSAC-T（DSAC-v2とも呼ばれる）の2つのバージョンがあり、後者はMujocoベンチマークタスクにおいて通常のSACよりも優れた能力を示している。DSAC-Tのソースコードは、https://github.com/Jingliang-Duan/DSAC-Tにて入手可能である。

どちらのバージョンも、GOPSという高度なPytorchベースの強化学習ツールキットに統合されている^[6]。

参照

[1] Duan, Jingliang (2021). “Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors”. IEEE Transactions on Neural Networks and Learning Systems 33 (11): 6584-6598. arXiv:2001.02811. doi:10.1109/TNNLS.2021.3082568.

[2] Yang, Qisong (2021). “WCSAC: Worst-case soft actor critic for safety-constrained reinforcement learning”. AAAI.

[3] Wu, Jingda (2022). “Uncertainty-aware model-based reinforcement learning: Methodology and application in autonomous driving”. IEEE Transactions on Intelligent Vehicles.

[4] Yang, Qisong (2023). “Safety-constrained reinforcement learning with a distributional safety critic”. Machine Learning.

[5] Haarnoja, Tuomas (2018). “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor”. ICML.

[6] Wang, Wenxuan (2023). “GOPS: A general optimal control problem solver for autonomous driving and industrial control applications”. Communications in Transportation Research.

[1]

[2]

[3]

[4]

[5]

[6]

分布ソフト・アクター・クリティック法とは？ わかりやすく解説

分布ソフト・アクター・クリティック法

参照

急上昇のことば

「分布ソフト・アクター・クリティック法」の関連用語

分布ソフト・アクター・クリティック法とは？わかりやすく解説