V2EX  ›  英汉词典

Policy Gradient

Definition / 释义

Policy gradient(策略梯度):强化学习中的一类方法,通过对“策略(policy)”参数求梯度,并沿着能提升期望回报(expected return)的方向更新参数,来直接优化智能体的决策策略。常用于随机策略与连续动作空间。
(该术语也常泛指一整套“基于策略梯度的算法家族”。)

Pronunciation / 发音

/ˈpɑːləsi ˈɡreɪdiənt/

Examples / 例句

Policy gradient methods can learn a stochastic policy directly.
策略梯度方法可以直接学习随机策略。

Using a policy gradient with a baseline can reduce variance and stabilize training in reinforcement learning.
在强化学习中,使用带基线(baseline)的策略梯度可以降低方差并让训练更稳定。

Etymology / 词源

“Policy”在强化学习里指从状态到动作的决策规则(可参数化);“Gradient”指梯度,即目标函数对参数的导数方向。合起来,“policy gradient”字面意思就是“对策略做梯度优化”,对应常见的梯度上升来最大化期望回报(或最小化损失的等价形式)。

Related Words / 相关词

Notable Works / 著名作品

  • Ronald J. Williams (1992), Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning(提出 REINFORCE 等策略梯度思想)
  • Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction(系统讲解策略梯度与 Actor-Critic)
  • John Schulman et al. (2015), Trust Region Policy Optimization (TRPO)
  • John Schulman et al. (2017), Proximal Policy Optimization Algorithms (PPO)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1678 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 00:51 · PVG 08:51 · LAX 16:51 · JFK 19:51
♥ Do have faith in what you're doing.