前言: 读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。
本文讲解
vπ(s)====Eπ[Gt∣St=s]Eπ[Rt+1+γGt+1∣St=s]a∑π(a∣s)s′∑r∑p(s′,r∣s,a)[r+γEπ[Gt+1∣St+1=s′]]a∑π(a∣s)s′,r∑p(s′,r∣s,a)[r+γvπ(s′)]foralls∈S
如何推导。
首先,各符号意义:
- 上图中,vπ(s)表示在状态s下的,使用策略集π的价值;
-
Gt就是在当前时刻t所产生的“回报”,在有限时刻中,通常引入折扣率γ的概念,将Gt定义为Gt=Rt+1+γGt+1,表示下一步对当前决策影响最大,时间越远,影响越小;
-
π(a∣s)是策略,在我看来就是在状态s下选择动作a的概率;
-
p()是状态转移概率,r是回报。
vπ(s)=a∑π(a∣s)s′∑r∑p(s′,r∣s,a)[r+γEπ[Gt+1∣St+1=s′]]
上面的公式我有些费解,经过书上的提示,我认为写成下面这样更合适:
vπ(s)=a∑(π(a∣s)s′∑r∑(p(s′,r∣s,a)[r+γEπ[Gt+1∣St+1=s′]]))

可以通过上图进行理解,在时刻t,其价值即各种选择的期望。而期望即是概率 × 对应事件值,在这里,期望即 该状态s下选择动作a的概率 π(a∣s) 乘上对应事件,即动作执行后,发生的一系列事件的期望。