On-policy(同策略/在策略):指在强化学习中,用某个策略产生的数据来评估并改进的也是这个同一个策略。也就是说,学习过程“跟着当前正在执行的策略走”。(在该领域还常与 off-policy 对比。)
/ˌɑːn ˈpɑːləsi/
The agent learns on-policy using SARSA.
智能体使用 SARSA 进行同策略(on-policy)学习。
Because the behavior policy keeps exploring, on-policy training can be more stable but may learn slowly when safe exploration is hard.
由于行为策略会持续探索,同策略训练可能更稳定,但在难以安全探索的场景中学习速度可能较慢。
由 on(“在……之上/依照”)+ policy(“策略”)构成;在强化学习语境中,policy 特指“智能体选择动作的规则/概率分布”。“on-policy”强调学习所依据的数据与要优化的策略是同一个。