SARSA法
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/02 17:38 UTC 版)
機械学習および データマイニング |
---|
![]() |
![]() |
SARSA法(State–Action–Reward–State–Action)はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート[1]の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。Rich Suttonにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。
このネーミングは、Q関数の更新アルゴリズムが、現在の状況
- SARSA法のページへのリンク