Bellman Equation

释义 Definition

贝尔曼方程：动态规划与强化学习中的核心递推关系，用来表达“某个状态（或状态-动作）的最优价值”等于即时回报加上下一步价值的折扣期望。它把长期最优问题分解为一步一步的局部问题。常见形式包括状态价值函数的贝尔曼期望方程与贝尔曼最优方程（最优化形式）。

发音 Pronunciation (IPA)

/ˈbɛlmən ɪˈkweɪʒən/

例句 Examples

The Bellman equation helps compute the value of each state.
贝尔曼方程有助于计算每个状态的价值。

In reinforcement learning, we use the Bellman optimality equation to update value estimates under a Markov decision process with discounted future rewards.
在强化学习中，我们使用贝尔曼最优方程，在带有未来回报折扣的马尔可夫决策过程下更新价值估计。

词源 Etymology

“Bellman”来自美国数学家Richard Bellman（理查德·贝尔曼）的姓氏，他在20世纪中期提出并系统化了动态规划（Dynamic Programming）思想；“equation”意为“方程”。因此“Bellman equation”直译为“贝尔曼提出的递推方程”，强调用递推方式表达最优控制/决策问题中的价值关系。

文学与著作中的用例 Literary Works

Dynamic Programming — Richard Bellman（1957）
Reinforcement Learning: An Introduction — Richard S. Sutton & Andrew G. Barto（1998；第2版2018）
Markov Decision Processes: Discrete Stochastic Dynamic Programming — Martin L. Puterman（1994）
Dynamic Programming and Optimal Control — Dimitri P. Bertsekas（多版）

Bellman Equation

释义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文学与著作中的用例 Literary Works