强化学习/动态规划:贝尔曼方程的解读 Bellman Equation

前言: 读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。

本文讲解

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)[r+γEπ[Gt+1St+1=s]]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)]for  all  sS\begin{aligned} v_\pi (s) = & \mathbb{E}_\pi [G_t | S_t = s] \\ = & \mathbb{E}_{\pi} [R_{t+1} + \gamma G_{t+1} | S_t = s] \\ = & \sum_a \pi(a|s) \sum_{s'} \sum_{r} p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right] \\ = &\sum_a \pi(a|s) \sum_{s',r} p(s',r|s,a)[r + \gamma v_\pi (s')] \quad for \; all \; s \in S \end{aligned}

如何推导。


首先,各符号意义:

  • 上图中,vπ(s)v_\pi(s)表示在状态s下的,使用策略集π\pi的价值;
  • GtG_t就是在当前时刻tt所产生的“回报”,在有限时刻中,通常引入折扣率γ\gamma的概念,将GtG_t定义为Gt=Rt+1+γGt+1G_t = R_{t+1} + \gamma G_{t+1},表示下一步对当前决策影响最大,时间越远,影响越小;
  • π(as)\pi(a|s)是策略,在我看来就是在状态ss下选择动作aa的概率;
  • p()p()是状态转移概率,rr是回报。

vπ(s)=aπ(as)srp(s,rs,a)[r+γEπ[Gt+1St+1=s]]v_\pi(s) = \sum_a \pi(a|s) \sum_{s'} \sum_{r} p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right]

上面的公式我有些费解,经过书上的提示,我认为写成下面这样更合适:

vπ(s)=a(π(as)sr(p(s,rs,a)[r+γEπ[Gt+1St+1=s]]))v_\pi(s) = \sum_a \left( \pi(a|s) \sum_{s'} \sum_{r} \left( p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right] \right) \right)

强化学习/动态规划:贝尔曼方程的解读 Bellman Equation

可以通过上图进行理解,在时刻tt,其价值即各种选择的期望。而期望即是概率 ×\times 对应事件值,在这里,期望即 该状态ss下选择动作aa的概率 π(as)\pi(a|s) 乘上对应事件,即动作执行后,发生的一系列事件的期望。