Actor-critic(演员-评论家):强化学习中的一种算法/架构,由两部分组成:actor(策略/行动者)负责根据当前状态选择动作并更新策略;critic(评价者)负责估计价值(如价值函数或优势函数)并为actor提供学习信号,从而提高学习稳定性与效率。
/ˈæk.tər ˈkrɪtɪk/
We used an actor-critic method to train the robot to walk.
我们使用actor-critic方法来训练机器人行走。
In an actor-critic framework, the actor improves the policy while the critic learns a value estimate to guide updates and reduce variance.
在actor-critic框架中,actor改进策略,而critic学习价值估计来指导更新并降低方差。
actor 原指“表演者/行动者”(源自拉丁语 actor),critic 原指“评判者/批评者”(与希腊语 kritikos “善于判断的”相关)。在强化学习语境中,这两个词被借用来形象描述分工:行动者做决定,评判者做评估。