Q-learning(Q 学习):一种无模型(model-free)的强化学习算法,通过反复试错来学习在每个状态下选择动作的“价值”(Q 值),从而得到能获得更高长期回报的策略。常见于马尔可夫决策过程(MDP)与控制问题。(在更广义语境里也可泛指基于 Q 函数的学习方法。)
/ˈkjuː ˌlɝːnɪŋ/
The agent uses Q-learning to find the best action in each state.
智能体使用 Q 学习来找到每个状态下的最佳动作。
With enough exploration, Q-learning can converge to an optimal policy even without knowing the environment’s transition model.
在进行足够探索的情况下,即使不知道环境的状态转移模型,Q 学习也可能收敛到最优策略。
“Q”来自强化学习中的 Q-function(quality function,动作价值函数),用来表示“在某个状态采取某个动作的长期价值”。“learning”表示通过数据与经验进行学习。该术语与经典算法通常归功于 Christopher Watkins(20 世纪 80 年代末提出)。