Enqueued related words: Temporal-Difference, On-Policy, Epsilon-Greedy

Sarsa

释义 Definition

SARSA 是强化学习中的一种经典时序差分（TD）控制算法，名称来自它更新时使用的一串经验：State–Action–Reward–State–Action（状态–动作–奖励–新状态–新动作）。它通常用于学习动作价值函数 (Q(s,a))，并且是典型的 on-policy（同策略） 方法（用当前策略产生并评估动作）。

发音 Pronunciation

/ˈsɑːrsə/

例句 Examples

SARSA is often taught alongside Q-learning in reinforcement learning courses.
SARSA 常常在强化学习课程中与 Q-learning 一起讲解。

Because SARSA is on-policy, it updates Q-values using the next action chosen by the current behavior policy, which can make learning more conservative under exploration.
由于 SARSA 是同策略方法，它会用当前行为策略选出的下一步动作来更新 Q 值，因此在探索较多时学习可能更保守、更稳健。

词源 Etymology

SARSA 是一个首字母缩写，来自更新所用的五元组：S-A-R-S-A（State, Action, Reward, State, Action）。这个命名直接反映了它与 Q-learning 的关键差异：SARSA 的目标依赖“下一步实际会执行的动作”，因此与当前策略绑定更紧。

文学与著作中的用例 Literary Works