SARSA法とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > SARSA法の意味・解説 

SARSA法

(State–action–reward–state–action から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/02 17:38 UTC 版)

SARSA法State–Action–Reward–State–Action)はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート[1]の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。Rich Suttonにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。

このネーミングは、Q関数の更新アルゴリズムが、現在の状況、現在の行動、行動による報酬、次の状態、その状態で選ぶ行動の5つ組で決まることに由来する。一般化すると、である[2]。なお、は報酬の定義によっては、とも書かれる。

アルゴリズム

状態 のエージェントが行動 を選び、報酬 を得て、状態が に遷移し、その次の行動が だとする。このとき行動価値関数 を次の式で更新する。 に近づくように学習される。

SARSAでは、エージェントは環境と相互作用し、行われた行動ベースでポリシーを更新する。そのため、オンポリシー型の学習アルゴリズムである。

学習率 は、古い情報を、新しく獲得した情報によってどの程度上書きするかを決定する。0にすれば、エージェントは何も学ばないし、1にすれば、最近の情報だけを近視眼的に考慮するようになる。

割引率 は、将来の報酬の重要度を決定する。0にすれば、エージェントは日和見主義的、近視眼的[3]になる。要するに、現在の報酬だけを考慮するようになる。1に近づければ、長期的視野で高い報酬を求めるようになる。1にしたり、1を超えたりすると、Q値は発散してしまう可能性がある。

関連項目

出典




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  SARSA法のページへのリンク

辞書ショートカット

すべての辞書の索引

「SARSA法」の関連用語

1
6% |||||


SARSA法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



SARSA法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのSARSA法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS