（一）paper传送门

Guided Policy Search Model-based Reinforcement Learning for Urban Autonomous Driving

（二）背景知识

强化学习（RL）---------------------------《Reinforcement Learning：An Introduction》第二版
Gaussian Mixed Model(GMM) --------- https://www.jianshu.com/p/9708bb0676b2
Dual Gradient Descent(DGD)-----------https://www.jianshu.com/p/e3e672311442
KL-divergence（KL散度）-------------- https://blog.csdn.net/ningyanggege/article/details/87906786
Carla(模拟器)--------------------------------https://carla.readthedocs.io/en/latest/

（三）摘要

本文提出了一种基于模型的强化学习算法：Guided Policy Search (GPS)来学习在复杂、密集的城市环境中自动驾驶。总体思想是：采用基于模型的思想和使用GMM首先对系统动态进行近似，然后用双梯度下降法（DGD）来优化约束的策略优化问题（受制于轨迹变化幅度的限制（KL散度））。作者通过在carla模拟三种场景：1.直行车道； 2.90°转弯； 3.圆环形交叉路口以及分别两种状态：1.有障碍物； 2.无障碍物进行仿真实验，证明作者提出的算法在一定程度上提高了样本效率，超越了传统的逆强化学习（IL），无模型强化学习（SAC），交叉熵模型（CEM）。

（四）内容

1 问题

交互环境的trajectory: 强化学习自动驾驶论文阅读（一）
其中：
基于模型的RL问题的焦点在于：
状态转移概率（系统动力学模型）：
控制策略：
目标: 最小化

2 主体

强化学习自动驾驶论文阅读（一）
上图即为全文的framework。
作者考虑到高斯混合模型、神经网络需要大量的数据集，因此应用时变线性高斯模型来近似系统动力学模型和控制策略的局部行为：

定义采取新控制策略的trajectory为：强化学习自动驾驶论文阅读（一）
old trajectory为：
作者采用KL-散度，通过下面的优化问题建模：

1> System Dynamics Learning

（建议先看博文前面关于GMM介绍的链接）因为自动驾驶过程中，具有不同的驾驶模式，且每种驾驶模式，系统动力学模型相似，因此，作者考虑采用GMM作为非线性先验模型，每个混合元素作为一个驾驶模式的先验，这个过程是一个典型的用于训练GMM的期望最大化(EM)过程。

2> Policy Optimization

作者采用对偶梯度下降法（DGD）来解决前面提到的优化问题，算法如下：强化学习自动驾驶论文阅读（一）
DGD的主要思想是先将固定拉格朗日乘子λ下的拉格朗日函数最小化，然后在约束减小时对λ增加惩罚，以便在下一次迭代时更重视拉格朗日函数中的约束项。拉格朗日方程：
cost function:
update:

3 Carla 仿真

摘要提到的三种场景以及Carla模拟图如下：
强化学习自动驾驶论文阅读（一）

1> 无障碍物

状态输入包括自动驾驶车辆相对于路障的横向偏差、偏航误差，速度：强化学习自动驾驶论文阅读（一）
其中，∆y是横向偏差；∆φ是偏航角度误差；v 是自动驾驶车辆的速度；vref是跟踪的参考速度；a是加速度；σ 是转向动作。

2> 有障碍物

作者设计了一个非线性的cost function，该函数只在自动驾驶车辆与前车在同一车道内，且距离小于20m时生效，并在其中增加了附加项：强化学习自动驾驶论文阅读（一）
其中，vf 是前车的速度。
以下，为作者的仿真比较结果图（具体的训练过程可以看原文）：
另外，最让我惊讶的是作者说本文的方法可以解决自动驾驶中的主动变道超越前面车辆，我认为这是一个很了不起的实现，但是作者仅仅给出了不完整的模拟图，如果有视频，那该是多让人开心！强化学习自动驾驶论文阅读（一）

（五）结论

这篇文章来自加州大学伯克利分校机械工程学院，全文思路清晰，且没有复杂的数学公式推论，在一定程度上解决了无论model-free RL还是IL存在的三个关键问题：sample efficiency、 lack of interpretability、difficulty for transfer。但是，也要认识到，GMM学习不能动态地管理输入的不同维度的问题。

作者小渣：因为一直在做强化学习方面相关的学习，对于自动驾驶很感兴趣，一个偶然的月黑风高夜，决定开始看自动驾驶结合强化学习的paper,也是一枚新人。写这篇博客，一方面是自己以前看了一些RL 相关的paper，但是对于一些没做笔记的感觉已经忘了讲啥了（老了老了。。。），另外，也想和大家共享自己的认识。如果有什么理解不到位的，望大佬改正。

强化学习自动驾驶论文阅读（一）