马尔科夫决策过程

马尔科夫决策过程
马尔科夫决策过程是强化学习中的一个基本框架,用来表示agent与环境的交互过程:agent观测得到环境的当前状态之后,采取动作,环境进入下一个状态,agent又得到下一个环境状态的信息,形成一个循环回路。
在理解马尔科夫决策过程之前,首先要理解马尔科夫、马尔科夫奖励过程。

1. 马尔科夫过程

满足马尔科夫性质的状态转换过程是马尔科夫过程;
什么是马尔科夫性质呢?
在环境状态的转换过程中,环境的下一个状态只取决于当前状态,和历史状态无关,即满足马尔科夫性质。
马尔科夫决策过程

2. 马尔科夫奖励过程

(1)马尔科夫链可以通过转移图转移矩阵这两种形式表示:
转移图
马尔科夫决策过程
转移矩阵
马尔科夫决策过程
(2) 马尔科夫奖励过程:马尔科夫链加上奖励函数(价值函数)
(3) 马尔科夫奖励过程需要重点研究的是如何求解状态空间里每个状态的奖励函数
奖励: 马尔科夫奖励过程中,每次到达一个过程,会得到一个奖励,这个奖励是已知的。
Return(回报)? 当前状态之后的未来状态获取奖励(乘上折扣率)的累加值。
马尔科夫决策过程
奖励函数:某个状态的奖励函数得到的是该状态的价值:Return的期望
马尔科夫决策过程
问题:每个状态都有一个特定奖励函数吗?