MDP 常指 Markov Decision Process(马尔可夫决策过程):一种用于描述“在不确定环境中做序列决策”的数学模型,广泛应用于强化学习与运筹优化。它通常包含:状态(states)、动作(actions)、转移概率(transition probabilities)和奖励(rewards)。
(注:MDP 也可能在不同领域表示其他缩写,但在机器学习/强化学习语境中最常见的是上述含义。)
/ˌɛm diː ˈpiː/
An MDP models how an agent learns by trial and error.
MDP 用来刻画智能体如何通过试错学习。
In robotics, we often assume the task can be approximated as an MDP, then solve it with dynamic programming or reinforcement learning methods.
在机器人领域,我们常把任务近似为一个 MDP,再用动态规划或强化学习方法求解。
MDP 是由 Markov Decision Process 的首字母缩写而来: