POMDP 是 Partially Observable Markov Decision Process 的缩写,中文常译为部分可观测马尔可夫决策过程:一种用于序贯决策的数学模型。与 MDP 不同,智能体无法直接看到环境的真实状态,只能通过不完全/带噪声的观测来推断状态,并在不确定性下选择动作以最大化长期回报。(在机器人、对话系统、规划与强化学习中常见。)
/ˌpiː oʊ ˌɛm diː ˈpiː/
I’m modeling the robot’s navigation as a POMDP.
我把机器人的导航问题建模为一个 POMDP。
Because the agent only receives noisy sensor readings, we maintain a belief state and solve the task as a POMDP to choose actions under uncertainty.
由于智能体只能获得带噪声的传感器读数,我们维护一个信念状态,并将任务作为 POMDP 来求解,以在不确定性下选择动作。
POMDP 来自首字母缩写:Partially Observable Markov Decision Process。该术语在人工智能与运筹学/控制领域用于扩展经典 MDP,以表达“状态不可完全观测”的现实情形。