Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

Markov Processes

MDP被用来描述强化学习的可完全观测的环境。几乎所有的强化学习问题可以用MDP来描述，Optimal control primarily deals with continuous MDPs. Partially observable problems can be converted into MDPs. Bandits are MDPs with one state.

Markov性质：未来只和现在有关，和过去无关，也就是现在的状态捕捉到过去状态的所有信息。

Markov Process(MP)/Markov Chain由状态集合和和状态转移概率矩阵组成，即 $⟨ S, P ⟩$

Markov Reward Processes

Markov reward process(MRP) 带有值的马尔科夫链。也就是在原来的基础上，每个状态多了一个对应的值，以及多了一个用于计算reward时的discount factor折扣因子 $γ$ ，即 $⟨ S, P, R, γ ⟩$

value function: 表示状态s的长期收益，即

\begin{aligned} (1) & G_{t} & = R_{t + 1} + γ R_{t + 2} + . . . = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1} \\ (2) & v (s) & = E [G_{t} | S_{t} = s] \end{aligned}

Bellman Equation

value function可以被分解成两部分，immediate reward $R_{t + 1}$ 和discounted value of successor state $γ v (S_{t + 1})$ .
$\begin{aligned} (3) & v (s) & = E [G_{t} | S_{t} = s] \\ (4) & = E [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + . . . | S_{t} = s] \\ (5) & = E [R_{t + 1} + γ (R_{t + 2} + γ R_{t + 3} + . . .) | S_{t} = s] \\ (6) & = E [R_{t + 1} + γ G_{t + 1} | S_{t} = s] \\ (7) & = E [R_{t + 1} + γ v (S_{t + 1}) | S_{t} = s] \end{aligned}$
本来是要计算对之后所有时刻的reward的求和，现在只要利用下个时刻状态的value function即可。

将上式的期望写具体得到：（ $P_{s s^{'}}$ 是状态转移概率）
$v (s) = R_{t + 1} + γ \sum_{s^{'} \in S} P_{s s^{'}} v (s^{'})$
写成矩阵：
$v = R + P v$
即：
$\begin{aligned} (8) & [\begin{matrix} v (1) \\ ⋮ \\ v (n) \end{matrix}] = [\begin{matrix} R_{1} \\ ⋮ \\ R_{n} \end{matrix}] + γ [\begin{matrix} P_{11} & \dots & P_{1 n} \\ ⋮ \\ P_{n 1} & \dots & P_{n n} \end{matrix}] [\begin{matrix} v (1) \\ ⋮ \\ v (n) \end{matrix}] \end{aligned}$
为了求得，可以解上述的等式：
$v = (1 - γ P)^{- 1} R$
但求逆的复杂度为o(n^3)，太高，对大规模MRPs有一些迭代方法可以求解，如，Dynamic programming，Monte-Carlo evaluation，Temporal-Difference learning.

Markov Decision Processes

Markov Decision Processes(MDP) 是带有决策的MRP，即在MRP上上多了采取行动，即 $⟨ S, A, P, R, γ ⟩$ ，It is an environment in which all states are Markov.

带来的变化就是：MDP考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。有一点要注意的是：在某个状态执行完某个动作后，不一定是到达一个固定的状态，还可能有多种可能性，如下图所示：

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

定义：

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

举个例子（0.2,0.4,0.4那里执行动作后有多个状态，其他的为一个状态）

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

Policy

策略是在状态给定的情况下行动的分布，即 $π (a | s) = P [A_{t} = a | S_{t} = s]$

注意：
1. 策略完全定义了agent的行为
2. MDP的策略取决于当前状态，而不是history，也就是与时间无关，是静态的， $A_{t} = π (\cdot | S_{t}), \forall t > 0$
3. 给定Policy，那么MDP包含了MRP和MP
需要注意的是，在这里，概率转移矩阵的元素需要经过计算，s->s’的转移概率为采取所有能到s’的行动a，对 $P_{s s^{'}}^{a}$ 加权求和。
Value Function

MDP的value function有两个，state-value function和action-value function
- state-value function
是从状态s开始，然后采取策略 $π$ 的期望收益，即 $v_{π} (s) = E_{π} [G_{t} | S_{t} = s]$
- action-value function
是从状态s开始、采取行动a后，然后采取策略 $π$ 的期望收益，即 $q_{π} (s, a) = E_{π} [G_{t} | S_{t} = s, A_{t} = a]$
Bellman Expectation Equation

和MRP一样，value function可以被分解成两个部分：

在状态s采取行动a会有reward: $R_{s}^{a}$
- state-value function
  $\begin{aligned} (89) & v_{π} (s) & = E_{π} [G_{t} | S_{t} = s] \\ (90) & = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) | S_{t} = s] \\ (91) & = \sum_{a \in A} π (a | s) ⟮ R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{π} (s^{'}) ⟯ \end{aligned}$
  其中最后一步，
先对每个动作求回报，再将这些动作的回报求和。
- action-value function
  $\begin{aligned} (92) & q_{π} (s, a) & = E_{π} [G_{t} | S_{t} = s, A_{t} = a] \\ (93) & = E_{π} [R_{t + 1} + γ q_{π} (S_{t + 1}, A_{t + 1}) | S_{t} = s, A_{t} = a] \\ (94) & = R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} \sum_{a^{'} \in A} π (a^{'} | s^{'}) q_{π} (s^{'}, a^{'}) \end{aligned}$
- 两者相互转化：
- 写成矩阵：
  $v_{π} = R^{π} + γ P^{π} v_{π}$
  解得：
  $v_{π} = (1 - γ P^{π})^{- 1} R^{π}$
Optimal Value Function

最优价值函数是关于策略的，即所以策略中使其最大的就是最优价值函数。

我们解决MDP就是为了得到价值函数的最大值。
Optimal Policy
- 定理：
  1. 对任何MDP存在一个最优策略 $π_{*}$
  2. 所有最优策略都能达到最优价值函数，即 $v_{π_{*}} (s) = v_{*} (s)$
  3. 所有最优策略都能达到最优动作价值函数，即 $q_{π_{*}} (s, a) = q_{*} (s, a)$
- 寻找最优策略
就是找使每个action-value function最大的action
Bellman Optimality Equation
- state-value function
  $\begin{aligned} (95) & v_{*} (s) & = max_{a} q_{*} (s, a) \\ (96) & = max_{a} R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{*} (s^{'}) \end{aligned}$
- action-value function
  $\begin{aligned} (97) & q_{*} (s, a) & = max_{a} R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{*} (s^{'}) \\ (98) & = max_{a} R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} max_{a^{'}} q_{*} (s^{'}, a^{'}) \end{aligned}$
Bellman Optimality Equation是非线性的，一般没有解析解。

解决办法有：Value Iteration、Policy Iteration、Q-learning、Sarsa

Extensions to MDPs

Infinite and continuous MDPs
- Countably infinite state and/or action spaces
  Straightforward
- Continuous state and/or action spaces
Closed form for linear quadratic model (LQR)
- Continuous time
Requires partial differential equations
Hamilton-Jacobi-Bellman (HJB) equation
Limiting case of Bellman equation as time-step ->0
Partially observable MDPs(POMDPs)
Undiscounted, average reward MDPs

…

Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

Markov Processes

Markov Reward Processes

Markov Decision Processes

Extensions to MDPs

相关推荐