V2EX  ›  英汉词典
Enqueued related words: Temporal-Difference, On-Policy, Epsilon-Greedy

Sarsa

释义 Definition

SARSA 是强化学习中的一种经典时序差分(TD)控制算法,名称来自它更新时使用的一串经验:State–Action–Reward–State–Action(状态–动作–奖励–新状态–新动作)。它通常用于学习动作价值函数 (Q(s,a)),并且是典型的 on-policy(同策略) 方法(用当前策略产生并评估动作)。

发音 Pronunciation

/ˈsɑːrsə/

例句 Examples

SARSA is often taught alongside Q-learning in reinforcement learning courses.
SARSA 常常在强化学习课程中与 Q-learning 一起讲解。

Because SARSA is on-policy, it updates Q-values using the next action chosen by the current behavior policy, which can make learning more conservative under exploration.
由于 SARSA 是同策略方法,它会用当前行为策略选出的下一步动作来更新 Q 值,因此在探索较多时学习可能更保守、更稳健。

词源 Etymology

SARSA 是一个首字母缩写,来自更新所用的五元组:S-A-R-S-A(State, Action, Reward, State, Action)。这个命名直接反映了它与 Q-learning 的关键差异:SARSA 的目标依赖“下一步实际会执行的动作”,因此与当前策略绑定更紧。

相关词 Related Words

文学与著作中的用例 Literary Works

  • Sutton & Barto, Reinforcement Learning: An Introduction(《强化学习:导论》):在时序差分控制章节系统介绍 SARSA,并与 Q-learning 对比其同策略特性与收敛直觉。
  • Richard S. Sutton, “Learning to Predict by the Methods of Temporal Differences”(论文,1988):奠定 TD 方法背景,常被用作理解 SARSA 类方法的基础脉络。
  • 多数强化学习公开课程讲义(如研究生课程讲义与公开课笔记)也会以 SARSA 作为入门控制算法示例,用于说明“探索会如何影响学习目标”。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1997 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
♥ Do have faith in what you're doing.