V2EX  ›  英汉词典

MDP

释义 Definition

MDP 常指 Markov Decision Process(马尔可夫决策过程):一种用于描述“在不确定环境中做序列决策”的数学模型,广泛应用于强化学习与运筹优化。它通常包含:状态(states)、动作(actions)、转移概率(transition probabilities)和奖励(rewards)。
(注:MDP 也可能在不同领域表示其他缩写,但在机器学习/强化学习语境中最常见的是上述含义。)

发音 Pronunciation (IPA)

/ˌɛm diː ˈpiː/

例句 Examples

An MDP models how an agent learns by trial and error.
MDP 用来刻画智能体如何通过试错学习。

In robotics, we often assume the task can be approximated as an MDP, then solve it with dynamic programming or reinforcement learning methods.
在机器人领域,我们常把任务近似为一个 MDP,再用动态规划或强化学习方法求解。

词源 Etymology

MDP 是由 Markov Decision Process 的首字母缩写而来:

  • Markov 指“马尔可夫性质”(未来只依赖当前状态,而不依赖更久远的历史);
  • Decision Process 指“决策过程”,强调需要在多个时间步做选择并累计结果。

相关词 Related Words

文学与名著用例 Literary Works

  • Reinforcement Learning: An Introduction(Richard S. Sutton & Andrew G. Barto)——系统使用并讲解 MDP 框架
  • Markov Decision Processes: Discrete Stochastic Dynamic Programming(Martin L. Puterman)——以 MDP 为核心的经典专著
  • Dynamic Programming(Richard Bellman 相关著作)——与用 MDP 求解密切相关的理论来源与方法体系
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   812 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 23:18 · PVG 07:18 · LAX 15:18 · JFK 18:18
♥ Do have faith in what you're doing.