RL论文阅读13-mf-ACER2017

1. Tittle

source

2. 标签

model-free
PG
Continue/Discrete

3. 总结

对AC算法的提升，引入了一些创新，包括使用偏差修正的截断重要性采样，随机竞争网络架构和新的TRPO方法（trust region policy optimization）

4. 原理

4.1 背景和问题引出：

agent的目标是最大化return的数学期望。加入Advantage Function后，对于策略的更新为：

策略 $\pi$ 的梯度：

RL论文阅读13-mf-ACER2017

Advantage Funcion 可以使用全部使用 $Q^\pi(x_t,a_t)$ （V和Q可以相互表示）、带折扣Return或者基于TD的 $r_t + \gamma V^\pi(x_{t+1}) - V^\pi(x_t)$ 表示而不引入偏差。推导见A3C笔记。但是选择会有不同的方差。在实际应用中，我门使用神经网络来估计这些变量，因此会引入估计的误差（errors）和偏差(bias)。

通常，策略梯度的近似过程，如果

使用 $R_t$ 会有高方差，低偏差，
使用函数估计(function approximation)会高偏差，低方差。

结合 $R_t$ 和当前价值估计函数去最小化偏差的同时，维持方方差在一定的范围，是ACER背后主要的设计思想。

A3C的处理方法

RL论文阅读13-mf-ACER2017

A3C结合了k-step returns 和 function approximation来处理偏差和方差的问题。

注：A3C没有使用replay

4.2 离散的使用经验回放的AC

使用经验回放的off-policy learning明显提高了AC的采样效率，但是控制方差和稳定性也是十分困难的。Importance sampling（重要性采样）是一个比较流行的方法。

对于序列 $\{x_0, a_0, r_0, \mu(\cdot|x_0)....x_k,a_k,r_k,\mu(\cdot|x_k)\}$

RL论文阅读13-mf-ACER2017

$\rho_t = \frac{\pi (a_t | x_t)}{\mu(a_t |x_t)} $ importance weight。重要性权重。

$\mu$ 是生成动作a的策略。 $\pi$ 是待优化策略

这个估计是无偏差的。但是有很高的方差，因为importance weights没有边界。为了防止importance weights爆炸，Wawrzynski(2009)对这项进行了裁剪。尽管这么做variance有了一个相对的边界，但是会产生偏差。

Degris et al.(2012)对这个问题的处理：在限制过程分布上使用边际函数去表示接下来的梯度的近似估计：

RL论文阅读13-mf-ACER2017

这个式子依赖 $Q^\pi$ 而不是 $Q^\mu$ 。所以我们必须有能力去估计 $Q^\pi$
不再有importance weights。取而代之的是marginal importance weight: $\rho_t$

$Q^\pi$ 是使用lambda returns估计： $R_t^\lambda = r_t + (1-\lambda)\gamma V(x_{t+1})+ \lambda \gamma \rho_{t+1} R^\lambda_{t+1}$ ,所以在处理bias和variance前需要先选择 $\lambda$ 这个超参。