V2EX  ›  英汉词典
Enqueued related words: Policy Gradient, A2C, A3C, PPO

Actor-Critic

释义 Definition

Actor-critic(演员-评论家):强化学习中的一种算法/架构,由两部分组成:actor(策略/行动者)负责根据当前状态选择动作并更新策略;critic(评价者)负责估计价值(如价值函数或优势函数)并为actor提供学习信号,从而提高学习稳定性与效率。

发音 Pronunciation (IPA)

/ˈæk.tər ˈkrɪtɪk/

例句 Examples

We used an actor-critic method to train the robot to walk.
我们使用actor-critic方法来训练机器人行走。

In an actor-critic framework, the actor improves the policy while the critic learns a value estimate to guide updates and reduce variance.
在actor-critic框架中,actor改进策略,而critic学习价值估计来指导更新并降低方差。

词源 Etymology

actor 原指“表演者/行动者”(源自拉丁语 actor),critic 原指“评判者/批评者”(与希腊语 kritikos “善于判断的”相关)。在强化学习语境中,这两个词被借用来形象描述分工:行动者做决定评判者做评估

相关词 Related Words

文学/著作中的用例 Literary / Notable Works

  • Reinforcement Learning: An Introduction — Richard S. Sutton & Andrew G. Barto(讨论actor-critic与策略梯度相关方法)
  • Neuro-Dynamic Programming — Dimitri P. Bertsekas & John N. Tsitsiklis(涉及近似动态规划与actor-critic思想)
  • “Asynchronous Methods for Deep Reinforcement Learning” — Volodymyr Mnih et al.(提出A3C,典型actor-critic深度强化学习方法)
  • “Proximal Policy Optimization Algorithms” — John Schulman et al.(常以actor-critic实现PPO的训练流程)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   701 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 22:10 · PVG 06:10 · LAX 14:10 · JFK 17:10
♥ Do have faith in what you're doing.