近接方策最適化とは？わかりやすく解説

近接方策最適化（きんせつほうさくさいてきか、PPO）は強化学習のアルゴリズムの一種である。2017年にジョン・シュルマンによって発明され^[1]、OpenAIのデフォルトの強化学習アルゴリズムとなった^[2]。2018年には、PPOは、ロボットアームの制御や、Dota 2でのプロへの勝利や、Atariゲームでの成功など結果を残した^[3]。他のアルゴリズムと比較した場合、PPOの主な利点は、シンプルさ、安定性、サンプル効率とされる^[4]。

PPOは方策勾配法に分類される。PPOは方策の更新幅が極度になりすぎないように、クリッピング関数を用いる^[4]。

歴史

2015年に、ジョン・シュルマンはPPOの初期バージョンとして信頼領域方策最適化 (TRPO) を開発した。 TRPOは、信頼領域制約を使用して古い方策と新しい方策の間のKLダイバージェンスに制約をかけることにより、DQNの不安定性問題に対処した。ただし、TRPOは2次最適化のため、計算及び実装が困難であった^[5]^[6]。

2017 年、ジョン・シュルマンは、PPOに一次最適化を採用することで、TRPO の複雑さの問題を解決した。彼らは新旧の方策間の尤度比が一定以上となるときにクリッピングするメカニズムを設計した^[1]^[6]。言い換えれば、PPOは、過度な方策更新に対する罰を取り入れることでTRPO の目的関数を変更する。また、PPOは複雑な信頼領域の制約を削除し、代わりにクリッピング関数を利用する。結果として、PPOはTRPOのコンセプトや性能を損なわずに計算や実装を向上させた。

利点

シンプルさ

PPOはTRPOの制約付き二次最適化を制約なし一次最適化で近似しているため、実装が比較駅的容易であり、計算時間も短くなる。従って、大規模な問題ではPPOを使用する方が低コストで効率的である^[7]。

安定性

PPOでは必ずしもハイパーパラメータの調整が重要ではなく、ほとんどの場合、ε=0.2を使用できる^[8]。

サンプル効率

PPOやTRPOを含むオンポリシーアルゴリズムは、一般にサンプル効率が低くなる^[9]。

出典

^ ^a ^b J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” arXiv.org, https://arxiv.org/abs/1707.06347 , arXiv:1707.06347 [cs.LG].
^ OpenAI, "Proximal Policy Optimization" Available at: https://openai.com/research/openai-baselines-ppo (Nov.1 2023 retrieved).
^ Arxiv Insights. "An introduction to Policy Gradient methods," YouTube, Oct 1st, 2018 [Video file]. Available: https://www.youtube.com/watch?v=5P7I-xPq8u8.
^ ^a ^b T. Simonini, “Proximal Policy Optimization (PPO),” Hugging Face – The AI community building the future., https://huggingface.co/blog/deep-rl-ppo .
^ Wang, Y., He, H., Wen, C., & Tan, X. (2019). Truly Proximal Policy Optimization. ArXiv. /abs/1903.07940
^ ^a ^b Schulman, J., Levine, S., Moritz, P., Jordan, M. I., & Abbeel, P. (2015). Trust Region Policy Optimization. ArXiv. /abs/1502.05477
^ J. Nocedal and Y. Nesterov., “Natural, trust region and proximal policy optimization,” TransferLab, https://transferlab.ai/blog/trpo-and-ppo/ (accessed Nov. 5, 2023).
^ J. Hui, “RL - reinforcement learning algorithms comparison,” Medium, https://jonathan-hui.medium.com/rl-reinforcement-learning-algorithms-comparison-76df90f180cf (accessed Nov. 4, 2023).
^ Huang, Shengyi, and Dossa, “The 37 implementation details of proximal policy optimization,” The 37 Implementation Details of Proximal Policy Optimization · The ICLR Blog Track, https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (accessed Nov. 5, 2023).

外部リンク

[:02-1] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” arXiv.org, https://arxiv.org/abs/1707.06347 , arXiv:1707.06347 [cs.LG].

[2] OpenAI, "Proximal Policy Optimization" Available at: https://openai.com/research/openai-baselines-ppo (Nov.1 2023 retrieved).

[:12-3] Arxiv Insights. "An introduction to Policy Gradient methods," YouTube, Oct 1st, 2018 [Video file]. Available: https://www.youtube.com/watch?v=5P7I-xPq8u8.

[:52-4] T. Simonini, “Proximal Policy Optimization (PPO),” Hugging Face – The AI community building the future., https://huggingface.co/blog/deep-rl-ppo .

[:42-5] Wang, Y., He, H., Wen, C., & Tan, X. (2019). Truly Proximal Policy Optimization. ArXiv. /abs/1903.07940

[:32-6] Schulman, J., Levine, S., Moritz, P., Jordan, M. I., & Abbeel, P. (2015). Trust Region Policy Optimization. ArXiv. /abs/1502.05477

[7] J. Nocedal and Y. Nesterov., “Natural, trust region and proximal policy optimization,” TransferLab, https://transferlab.ai/blog/trpo-and-ppo/ (accessed Nov. 5, 2023).

[8] J. Hui, “RL - reinforcement learning algorithms comparison,” Medium, https://jonathan-hui.medium.com/rl-reinforcement-learning-algorithms-comparison-76df90f180cf (accessed Nov. 4, 2023).

[9] Huang, Shengyi, and Dossa, “The 37 implementation details of proximal policy optimization,” The 37 Implementation Details of Proximal Policy Optimization · The ICLR Blog Track, https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (accessed Nov. 5, 2023).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

近接方策最適化とは？わかりやすく解説