强化学习/动态规划：贝尔曼方程的解读 Bellman Equation

前言： 读书《Reinforcement Learning: An Introduction Second Edition》，读到第三章有限马尔科夫决策过程MDP中，提到了贝尔曼方程的理解。一开始我是有点懵逼的，现在看懂了其意思，在这里解释一下。

本文讲解

$\begin{aligned} v_\pi (s) = & \mathbb{E}_\pi [G_t | S_t = s] \\ = & \mathbb{E}_{\pi} [R_{t+1} + \gamma G_{t+1} | S_t = s] \\ = & \sum_a \pi(a|s) \sum_{s'} \sum_{r} p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right] \\ = &\sum_a \pi(a|s) \sum_{s',r} p(s',r|s,a)[r + \gamma v_\pi (s')] \quad for \; all \; s \in S \end{aligned}$

如何推导。

首先，各符号意义：

上图中， $v_\pi(s)$ 表示在状态s下的，使用策略集 $\pi$ 的价值；
$G_t$ 就是在当前时刻 $t$ 所产生的“回报”，在有限时刻中，通常引入折扣率 $\gamma$ 的概念，将 $G_t$ 定义为 $G_t = R_{t+1} + \gamma G_{t+1}$ ，表示下一步对当前决策影响最大，时间越远，影响越小；
$\pi(a|s)$ 是策略，在我看来就是在状态 $s$ 下选择动作 $a$ 的概率；
$p()$ 是状态转移概率， $r$ 是回报。

$v_\pi(s) = \sum_a \pi(a|s) \sum_{s'} \sum_{r} p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right]$

上面的公式我有些费解，经过书上的提示，我认为写成下面这样更合适：

$v_\pi(s) = \sum_a \left( \pi(a|s) \sum_{s'} \sum_{r} \left( p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right] \right) \right)$

强化学习/动态规划：贝尔曼方程的解读 Bellman Equation

可以通过上图进行理解，在时刻 $t$ ，其价值即各种选择的期望。而期望即是概率 $\times$ 对应事件值，在这里，期望即 该状态 $s$ 下选择动作 $a$ 的概率 $\pi(a|s)$ 乘上对应事件，即动作执行后，发生的一系列事件的期望。

强化学习/动态规划：贝尔曼方程的解读 Bellman Equation

相关推荐