Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)
Markov Processes
MDP被用来描述强化学习的可完全观测的环境。几乎所有的强化学习问题可以用MDP来描述,Optimal control primarily deals with continuous MDPs. Partially observable problems can be converted into MDPs. Bandits are MDPs with one state.
Markov性质:未来只和现在有关,和过去无关,也就是现在的状态捕捉到过去状态的所有信息。
Markov Process(MP)/Markov Chain
由状态集合和和状态转移概率矩阵组成,即
Markov Reward Processes
Markov reward process(MRP)
带有值的马尔科夫链。也就是在原来的基础上,每个状态多了一个对应的值,以及多了一个用于计算reward时的discount factor
折扣因子 ,即
- value function: 表示状态s的长期收益,即
-
Bellman Equation
value function可以被分解成两部分,immediate reward 和discounted value of successor state .
本来是要计算对之后所有时刻的reward的求和,现在只要利用下个时刻状态的value function即可。将上式的期望写具体得到:( 是状态转移概率)
写成矩阵:
即:
为了求得,可以解上述的等式:
但求逆的复杂度为o(n^3),太高,对大规模MRPs有一些迭代方法可以求解,如,Dynamic programming,Monte-Carlo evaluation,Temporal-Difference learning.
Markov Decision Processes
Markov Decision Processes(MDP)
是带有决策的MRP,即在MRP上上多了采取行动,即 ,It is an environment in which all states are Markov.
带来的变化就是:MDP考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。有一点要注意的是:在某个状态执行完某个动作后,不一定是到达一个固定的状态,还可能有多种可能性,如下图所示:
定义:
举个例子(0.2,0.4,0.4那里执行动作后有多个状态,其他的为一个状态)
-
Policy
策略是在状态给定的情况下行动的分布,即
注意:
- 策略完全定义了agent的行为
- MDP的策略取决于当前状态,而不是history,也就是与时间无关,是静态的,
- 给定Policy,那么MDP包含了MRP和MP
需要注意的是,在这里,概率转移矩阵的元素需要经过计算,s->s’的转移概率为采取所有能到s’的行动a,对 加权求和。
-
Value Function
MDP的value function有两个,state-value function和action-value function
- state-value function
是从状态s开始,然后采取策略 的期望收益,即
- action-value function
是从状态s开始、采取行动a后,然后采取策略 的期望收益,即
-
Bellman Expectation Equation
和MRP一样,value function可以被分解成两个部分:
在状态s采取行动a会有reward:
- state-value function
其中最后一步,
先对每个动作求回报,再将这些动作的回报求和。
-
action-value function
两者相互转化:
-
写成矩阵:
解得:
- state-value function
-
Optimal Value Function
最优价值函数是关于策略的,即所以策略中使其最大的就是最优价值函数。
我们解决MDP就是为了得到价值函数的最大值。
-
Optimal Policy
-
定理:
- 对任何MDP存在一个最优策略
- 所有最优策略都能达到最优价值函数,即
- 所有最优策略都能达到最优动作价值函数,即
寻找最优策略
就是找使每个action-value function最大的action
-
-
Bellman Optimality Equation
-
state-value function
-
action-value function
Bellman Optimality Equation是非线性的,一般没有解析解。
解决办法有:Value Iteration、Policy Iteration、Q-learning、Sarsa
-
Extensions to MDPs
-
Infinite and continuous MDPs
Countably infinite state and/or action spaces
StraightforwardContinuous state and/or action spaces
Closed form for linear quadratic model (LQR)
- Continuous time
Requires partial differential equations
Hamilton-Jacobi-Bellman (HJB) equation
Limiting case of Bellman equation as time-step ->0 -
Partially observable MDPs(POMDPs)
-
Undiscounted, average reward MDPs
…