A3C(Asynchronous Advantage Actor-Critic)是一种深度强化学习算法,中文常译为“异步优势演员-评论家”。它通过多个并行(异步)工作线程同时与环境交互、更新共享模型,以提升训练速度与稳定性。(该缩写在不同语境下也可能指别的事物,但在机器学习领域最常见的是此义。)
/ˌeɪ θriː ˈsiː/
I trained an agent using A3C on a simple game.
我用 A3C 在一个简单游戏上训练了智能体。
A3C uses multiple asynchronous workers to reduce correlation in experience and speed up learning compared with a single-threaded setup.
A3C 通过多个异步工作线程减少经验相关性,并相比单线程设置加快学习速度。
A3C 来自首字母缩写:A(Asynchronous,异步)+ 3C(Advantage Actor-Critic,“优势 + 演员-评论家”结构)。其中“Actor”负责输出动作策略,“Critic”评估状态/动作价值,“Advantage”指优势函数,用来衡量某动作相对平均水平的好坏,从而改进策略更新。