学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

马尔科夫决策过程

能用马尔科夫过程的前提条件：

1. 能够检测到理想的状态

如：alphaGo知道什么样子是赢

2. 可以多次尝试

3. 系统的下个状态只与当前状态信息有关，耳语更早之前的状态无关。在决策过程中还与当前采取的动作有关。

马尔科夫有5个元素构成;
S states 表示状态集合

a, actions 表示一组动作

P probability of action transformation

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

R reward function, 表示agent采取某个动作后的即时奖励

y：折扣系数，意味着当下的reward要比未来反馈的reward更重要

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

状态价值函数：

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

Bellman方程：

当前状态的价值和下一步的价值及当前的奖励（reward)有关

价值函数分解为当前的奖励和下一步的奖励