Enqueued related words: Value-Function, Policy-Gradient

A2C

Definition / 释义

A2C 是 Advantage Actor-Critic 的缩写，指一种强化学习算法：用“演员（Actor）”产生动作策略，用“评论家（Critic）”估计价值，并利用“优势函数（Advantage）”来更稳定、低方差地更新策略。（在不同领域里也可能有其他含义，但最常见于强化学习。）

Pronunciation / 发音

/ˌeɪ tuː ˈsiː/

Examples / 例句

I trained an agent with A2C on a simple grid world.
我用 A2C 在一个简单的网格世界里训练了一个智能体。

Compared with basic policy gradients, A2C often learns faster because the critic provides a value-based baseline.
与基础的策略梯度方法相比，A2C 往往学得更快，因为评论家提供了基于价值的基线来降低更新的方差。

Etymology / 词源

A2C 来自算法名称 Advantage Actor-Critic 的首字母缩写：

Actor-Critic：一类“策略（Actor）+价值评估（Critic）”的强化学习框架
Advantage：用 A(s,a)=Q(s,a)-V(s) 的“优势”来衡量动作相对平均水平的好坏，从而让训练更稳定

Related Words / 相关词

Notable Works / 文学与著作举例

Reinforcement Learning: An Introduction（Sutton & Barto）——讲解 Actor-Critic、优势函数等核心概念，为理解 A2C 提供基础框架
Asynchronous Methods for Deep Reinforcement Learning（Mnih 等）——提出 A3C；A2C 常被视为其同步版本/相关变体，在论文与实现中经常与之对照出现
OpenAI Baselines / Stable Baselines 的算法文档与实现说明中常收录 A2C（作为工程实践中常见的基线算法之一）