SARSA法とは？わかりやすく解説

SARSA法（State–Action–Reward–State–Action）はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート^[1]の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。Rich Suttonにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。

このネーミングは、Q関数の更新アルゴリズムが、現在の状況 $s_{1}$