强化学习(2)---马尔科夫决策

需要知道的一些概念

马尔科夫决策过程

马尔科夫链

马尔科夫奖励过程

马尔科夫中的价值函数

马尔科夫决策过程的控制：policy iteration value iteration

强化学习(2)---马尔科夫决策

强化学习(2)---马尔科夫决策

看会否有环境转移模型

给定状态转移的马尔科夫链之后，可以对链进行采样得到一串轨迹

马尔科夫奖励过程是马尔科夫链加上一个奖励函数

在马尔科夫奖励之中，矩阵和他的状态都是和马尔科夫链一样的，奖励函数是一个期望，当到达某一个状态的时候可以获得多大的奖励，另定义了一个折扣量：discount factor 伽马，折扣量是为了更快

可以将马尔科夫过程看做一个纸船，放在河流中会随着河流动，但是他自身没有动力，决策就像船桨

一些概念：

Horizon：说明同一个？？？？没懂

强化学习(2)---马尔科夫决策

定义一个return：将后面的奖励进行折扣，越往后折扣越多(希望现在得到奖励而不是后面再得到奖励)

强化学习(2)---马尔科夫决策

如何定义价值函数？

Monte_Carlo采样：可以定义很多很多过程，通过计算每次通过S4的价值求平均可以估计通过S4状态的价值

Analytic solution(只能针对少量状态时候，因为求逆的时间复杂度太大)：

可以从价值函数中推倒出Bellman等式

定义了当前状态和未来状态的关系

强化学习(2)---马尔科夫决策

迭代方法：（用来解状态比较多的）

强化学习(2)---马尔科夫决策

1.动态规划

TD是动态规划和Monte_Carlo方法的结合

先用解析，解析不行就用迭代

马尔科夫决策过程比马尔科夫奖励过程多了一个决策(decision)

强化学习(2)---马尔科夫决策

马尔科夫决策过程转换成马尔科夫链过程

强化学习(2)---马尔科夫决策