Sarsa
SARSA法
(SARSA から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/02 17:38 UTC 版)
機械学習および データマイニング |
---|
![]() |
![]() |
SARSA法(State–Action–Reward–State–Action)はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート[1]の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。Rich Suttonにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。
このネーミングは、Q関数の更新アルゴリズムが、現在の状況
SARSA
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/10/23 16:27 UTC 版)
SARSA(state–action–reward–state–action)は方策オン型のTD学習。 Q ( s t , a t ) ← Q ( s t , a t ) + α [ r t + 1 + γ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ] {\displaystyle Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha [r_{t+1}+\gamma Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]}
※この「SARSA」の解説は、「強化学習」の解説の一部です。
「SARSA」を含む「強化学習」の記事については、「強化学習」の概要を参照ください。
- SARSAのページへのリンク