分布ソフト・アクター・クリティック法とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > 分布ソフト・アクター・クリティック法の意味・解説 

分布ソフト・アクター・クリティック法

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/12/08 07:06 UTC 版)

分布ソフト・アクター・クリティック法DSAC(でぃーさっく):Distributional Soft Actor Critic)は、連続行動空間を持つ複雑なシステムにおいて意思決定または制御方策を学習するために調整された、モデルフリーのオフポリシー強化学習アルゴリズムの総称である[1]。期待収益のみに焦点を当てる従来の方法とは異なり、DSACアルゴリズムは、価値分布と呼ばれる確率的収益に関するガウス分布を学習するように設計されている。このガウス価値分布学習への重点化は、価値の過大評価を著しく減少させ、ひいては方策の性能を向上させる。さらに、DSACによって学習された価値分布は、リスク考慮型方策の学習にも使用できる[2][3][4]。技術的な観点から見ると、DSACは基本的に、ソフト・アクター・クリティック法SAC)の分布への適応である[5]

現在までに、DSACファミリーは、最初のDSAC-v1とその改良版であるDSAC-TDSAC-v2とも呼ばれる)の2つのバージョンがあり、後者はMujocoベンチマークタスクにおいて通常のSACよりも優れた能力を示している。DSAC-Tのソースコードは、https://github.com/Jingliang-Duan/DSAC-Tにて入手可能である。

どちらのバージョンも、GOPSという高度なPytorchベースの強化学習ツールキットに統合されている[6]

参照




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  分布ソフト・アクター・クリティック法のページへのリンク

辞書ショートカット

すべての辞書の索引

「分布ソフト・アクター・クリティック法」の関連用語

分布ソフト・アクター・クリティック法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



分布ソフト・アクター・クリティック法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの分布ソフト・アクター・クリティック法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS