SARSAとは？わかりやすく解説

SARSA法（State–Action–Reward–State–Action）はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート^[1]の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。Rich Suttonにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。

このネーミングは、Q関数の更新アルゴリズムが、現在の状況 $s_{1}$

[1]


	(C)Shogakukan Inc. 株式会社小学館
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのSARSA法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの強化学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

SARSAとは？わかりやすく解説

サルサ【(ラテン)sarsa】

Sarsa

SARSA法

SARSA

「SARSA」の関連用語

SARSAとは？ わかりやすく解説

サルサ【(ラテン)sarsa】

Sarsa

SARSA法

SARSA

「SARSA」の関連用語

SARSAとは？わかりやすく解説