V2EX  ›  英汉词典

Bellman Equation

释义 Definition

贝尔曼方程:动态规划与强化学习中的核心递推关系,用来表达“某个状态(或状态-动作)的最优价值”等于即时回报加上下一步价值的折扣期望。它把长期最优问题分解为一步一步的局部问题。常见形式包括状态价值函数的贝尔曼期望方程与贝尔曼最优方程(最优化形式)。

发音 Pronunciation (IPA)

/ˈbɛlmən ɪˈkweɪʒən/

例句 Examples

The Bellman equation helps compute the value of each state.
贝尔曼方程有助于计算每个状态的价值。

In reinforcement learning, we use the Bellman optimality equation to update value estimates under a Markov decision process with discounted future rewards.
在强化学习中,我们使用贝尔曼最优方程,在带有未来回报折扣的马尔可夫决策过程下更新价值估计。

词源 Etymology

“Bellman”来自美国数学家Richard Bellman(理查德·贝尔曼)的姓氏,他在20世纪中期提出并系统化了动态规划(Dynamic Programming)思想;“equation”意为“方程”。因此“Bellman equation”直译为“贝尔曼提出的递推方程”,强调用递推方式表达最优控制/决策问题中的价值关系。

相关词 Related Words

文学与著作中的用例 Literary Works

  • Dynamic Programming — Richard Bellman(1957)
  • Reinforcement Learning: An Introduction — Richard S. Sutton & Andrew G. Barto(1998;第2版2018)
  • Markov Decision Processes: Discrete Stochastic Dynamic Programming — Martin L. Puterman(1994)
  • Dynamic Programming and Optimal Control — Dimitri P. Bertsekas(多版)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2066 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 14:51 · PVG 22:51 · LAX 06:51 · JFK 09:51
♥ Do have faith in what you're doing.