学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

立即学习:https://edu.csdn.net/course/play/4916/88697?utm_source=blogtoedu

马尔科夫决策过程

能用马尔科夫过程的前提条件:

1. 能够检测到理想的状态

    如:alphaGo知道什么样子是赢

2. 可以多次尝试

3. 系统的下个状态只与当前状态信息有关,耳语更早之前的状态无关。在决策过程中还与当前采取的动作有关。

 

 

马尔科夫有5个元素构成;
S states 表示状态集合

a, actions 表示一组动作

P probability of action transformation 

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

R reward function, 表示agent采取某个动作后的即时奖励

y:折扣系数,意味着当下的reward要比未来反馈的reward更重要

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

 

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

 

状态价值函数:

 

学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程

 

Bellman方程

当前状态的价值和下一步的价值及当前的奖励(reward)有关

价值函数分解为当前的奖励和下一步的奖励