V2EX  ›  英汉词典
Enqueued related words: Value-Function, Policy-Gradient

A2C

Definition / 释义

A2CAdvantage Actor-Critic 的缩写,指一种强化学习算法:用“演员(Actor)”产生动作策略,用“评论家(Critic)”估计价值,并利用“优势函数(Advantage)”来更稳定、低方差地更新策略。(在不同领域里也可能有其他含义,但最常见于强化学习。)

Pronunciation / 发音

/ˌeɪ tuː ˈsiː/

Examples / 例句

I trained an agent with A2C on a simple grid world.
我用 A2C 在一个简单的网格世界里训练了一个智能体。

Compared with basic policy gradients, A2C often learns faster because the critic provides a value-based baseline.
与基础的策略梯度方法相比,A2C 往往学得更快,因为评论家提供了基于价值的基线来降低更新的方差。

Etymology / 词源

A2C 来自算法名称 Advantage Actor-Critic 的首字母缩写:

  • Actor-Critic:一类“策略(Actor)+价值评估(Critic)”的强化学习框架
  • Advantage:用 A(s,a)=Q(s,a)-V(s) 的“优势”来衡量动作相对平均水平的好坏,从而让训练更稳定

Related Words / 相关词

Notable Works / 文学与著作举例

  • Reinforcement Learning: An Introduction(Sutton & Barto)——讲解 Actor-Critic、优势函数等核心概念,为理解 A2C 提供基础框架
  • Asynchronous Methods for Deep Reinforcement Learning(Mnih 等)——提出 A3C;A2C 常被视为其同步版本/相关变体,在论文与实现中经常与之对照出现
  • OpenAI Baselines / Stable Baselines 的算法文档与实现说明中常收录 A2C(作为工程实践中常见的基线算法之一)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1675 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 00:48 · PVG 08:48 · LAX 16:48 · JFK 19:48
♥ Do have faith in what you're doing.