RL论文阅读13-mf-ACER2017
1. Tittle
2. 标签
- model-free
- PG
- Continue/Discrete
3. 总结
对AC算法的提升,引入了一些创新,包括使用偏差修正的截断重要性采样,随机竞争网络架构和新的TRPO方法(trust region policy optimization)
4. 原理
4.1 背景和问题引出:
agent的目标是最大化return的数学期望。加入Advantage Function后,对于策略的更新为:
策略的梯度:
Advantage Funcion 可以使用全部使用(V和Q可以相互表示)、带折扣Return或者基于TD的表示而不引入偏差。推导见A3C笔记。但是选择会有不同的方差。在实际应用中,我门使用神经网络来估计这些变量,因此会引入估计的误差(errors)和偏差(bias)。
通常,策略梯度的近似过程,如果
- 使用会有高方差,低偏差,
- 使用函数估计(function approximation)会高偏差,低方差。
结合和当前价值估计函数
去最小化偏差的同时,维持方方差在一定的范围,是ACER背后主要的设计思想。
A3C的处理方法
A3C结合了k-step returns 和 function approximation来处理偏差和方差的问题。
注:A3C没有使用replay
4.2 离散的使用经验回放的AC
使用经验回放的off-policy learning明显提高了AC的采样效率,但是控制方差和稳定性也是十分困难的。Importance sampling(重要性采样)是一个比较流行的方法。
对于序列
$\rho_t = \frac{\pi (a_t | x_t)}{\mu(a_t |x_t)} $ importance weight。重要性权重。
是生成动作a的策略。是待优化策略
这个估计是无偏差的。但是有很高的方差,因为importance weights没有边界。为了防止importance weights爆炸,Wawrzynski(2009)对这项进行了裁剪。尽管这么做variance有了一个相对的边界,但是会产生偏差。
Degris et al.(2012)对这个问题的处理:在限制过程分布上使用边际函数去表示接下来的梯度的近似估计:
- 这个式子依赖而不是。所以我们必须有能力去估计
- 不再有importance weights。取而代之的是marginal importance weight:
是使用lambda returns估计:,所以在处理bias和variance前需要先选择这个超参。
4.2.1 解决Q的估计
论文中使用Retrace(Munos et al.2016)去估计
等式5是基于Q的,论文中使用了CNN来估计。这个CNN既用来输出,也用来输出。输出的Q是一个向量,不是标量。
ACER使用去估计等式4的中的。明显减小了梯度估计的偏差。
在critic的学习中,使用作为target。MSE损失去更新critc的参数。梯度为:
多步估计的两个好处:
-
减小策略梯度的误差
-
加快critic的学习,从而再将来减小偏差
4.2.2 偏差纠正+Importance weight truncation
等式4的marginal importance weights 可能会很大,产生不稳定行。
论文提出了裁剪importance 和 引入一个修正项,从而解构等式4为:
第一项截断的importance weight保证了梯度的方差有界。
第二项偏差修正保证了无偏估计。
把Q替换一下,是critic产生的:
对于采样序列,ACER策略梯度为:
4.2.3 应用并改进TRPO
在AC更新时,也会产生高方差。确保稳定性,限制每一步更新的大小。较小的learning rates是不够的。TRPO算法提供了一个好的解决方案。但是在大规模的数据下计算开销大。
提出了一个新的trust region policy optimization方法处理大规模数据问题。维护一个average policy network。这个平均策略网络是过去策略的平均值,强制更新策略不能够远离这个平均值。
策略网络可以分解成两部分:分布(Distribution ),和一个深度神经网络$\phi_\theta \pi(\cdot|x) = f(\cdot | \phi_\theta(x))$
平均策略网络使用软更新:
9式用来表示:
论文提出的trust region 更新包括两个阶段:
一:求解下面这个线性KL限制问题
由于线性限制,整体优化问题可以变为
二:反向传播。
附录
关于bias,variance, error