Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

Markov Processes

MDP被用来描述强化学习的可完全观测的环境。几乎所有的强化学习问题可以用MDP来描述,Optimal control primarily deals with continuous MDPs. Partially observable problems can be converted into MDPs. Bandits are MDPs with one state.

Markov性质:未来只和现在有关,和过去无关,也就是现在的状态捕捉到过去状态的所有信息。

Markov Process(MP)/Markov Chain由状态集合和和状态转移概率矩阵组成,即S,P

Markov Reward Processes

Markov reward process(MRP) 带有值的马尔科夫链。也就是在原来的基础上,每个状态多了一个对应的值,以及多了一个用于计算reward时的discount factor折扣因子γ ,即S,P,R,γ

  • value function: 表示状态s的长期收益,即

(1)Gt=Rt+1+γRt+2+...=k=0γkRt+k+1(2)v(s)=E[Gt|St=s]

  • Bellman Equation

    value function可以被分解成两部分,immediate reward Rt+1 和discounted value of successor state γv(St+1) .

    (3)v(s)=E[Gt|St=s](4)=E[Rt+1+γRt+2+γ2Rt+3+...|St=s](5)=E[Rt+1+γ(Rt+2+γRt+3+...)|St=s](6)=E[Rt+1+γGt+1|St=s](7)=E[Rt+1+γv(St+1)|St=s]

    本来是要计算对之后所有时刻的reward的求和,现在只要利用下个时刻状态的value function即可。

    将上式的期望写具体得到:(Pss 是状态转移概率)

    v(s)=Rt+1+γsSPssv(s)

    写成矩阵:
    v=R+Pv

    即:
    (8)[v(1)v(n)]=[R1Rn]+γ[P11P1nPn1Pnn][v(1)v(n)]

    为了求得,可以解上述的等式:
    v=(1γP)1R

    但求逆的复杂度为o(n^3),太高,对大规模MRPs有一些迭代方法可以求解,如,Dynamic programming,Monte-Carlo evaluation,Temporal-Difference learning.

Markov Decision Processes

Markov Decision Processes(MDP) 是带有决策的MRP,即在MRP上上多了采取行动,即S,A,P,R,γ ,It is an environment in which all states are Markov.

带来的变化就是:MDP考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。有一点要注意的是:在某个状态执行完某个动作后,不一定是到达一个固定的状态,还可能有多种可能性,如下图所示:

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

定义:

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

举个例子(0.2,0.4,0.4那里执行动作后有多个状态,其他的为一个状态)

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

  • Policy

    策略是在状态给定的情况下行动的分布,即π(a|s)=P[At=a|St=s]

    注意:

    1. 策略完全定义了agent的行为
    2. MDP的策略取决于当前状态,而不是history,也就是与时间无关,是静态的,At=π(|St),t>0
    3. 给定Policy,那么MDP包含了MRP和MP

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    需要注意的是,在这里,概率转移矩阵的元素需要经过计算,s->s’的转移概率为采取所有能到s’的行动a,对Pssa 加权求和。

  • Value Function

    MDP的value function有两个,state-value function和action-value function

    • state-value function

    是从状态s开始,然后采取策略π 的期望收益,即vπ(s)=Eπ[Gt|St=s]

    • action-value function

    是从状态s开始、采取行动a后,然后采取策略π 的期望收益,即qπ(s,a)=Eπ[Gt|St=s,At=a]

  • Bellman Expectation Equation

    和MRP一样,value function可以被分解成两个部分:

    在状态s采取行动a会有reward: Rsa

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    • state-value function
      (89)vπ(s)=Eπ[Gt|St=s](90)=Eπ[Rt+1+γvπ(St+1)|St=s](91)=aAπ(a|s)Rsa+γsSPssavπ(s)

      其中最后一步,
      Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    先对每个动作求回报,再将这些动作的回报求和。

    • action-value function

      (92)qπ(s,a)=Eπ[Gt|St=s,At=a](93)=Eπ[Rt+1+γqπ(St+1,At+1)|St=s,At=a](94)=Rsa+γsSPssaaAπ(a|s)qπ(s,a)

      Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    • 两者相互转化:
      Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    • 写成矩阵:

      vπ=Rπ+γPπvπ

      解得:
      vπ=(1γPπ)1Rπ

  • Optimal Value Function

    最优价值函数是关于策略的,即所以策略中使其最大的就是最优价值函数。

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    我们解决MDP就是为了得到价值函数的最大值。

  • Optimal Policy

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    • 定理:

      1. 对任何MDP存在一个最优策略π
      2. 所有最优策略都能达到最优价值函数,即vπ(s)=v(s)
      3. 所有最优策略都能达到最优动作价值函数,即qπ(s,a)=q(s,a)
    • 寻找最优策略

    就是找使每个action-value function最大的action

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

  • Bellman Optimality Equation

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

    • state-value function

      (95)v(s)=maxaq(s,a)(96)=maxaRsa+γsSPssav(s)

    • action-value function

      (97)q(s,a)=maxaRsa+γsSPssav(s)(98)=maxaRsa+γsSPssamaxaq(s,a)

    Bellman Optimality Equation是非线性的,一般没有解析解。

    解决办法有:Value Iteration、Policy Iteration、Q-learning、Sarsa

Extensions to MDPs

  • Infinite and continuous MDPs

    • Countably infinite state and/or action spaces
      Straightforward

    • Continuous state and/or action spaces

    Closed form for linear quadratic model (LQR)

    • Continuous time

    Requires partial differential equations
    Hamilton-Jacobi-Bellman (HJB) equation
    Limiting case of Bellman equation as time-step ->0

  • Partially observable MDPs(POMDPs)

    Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process(MDP)

  • Undiscounted, average reward MDPs