Automated Driving in Uncertain Environments学习

今天开始,学习强化学习相关知识。

这是两篇关于不确定性环境下的自动驾驶决策的论文,是同一个作者的同一个工作的先后进展,以下给出学习和理解。

Decision Making for Autonomous Driving considering Interaction and Uncertain Prediction of Surrounding Vehicles

考虑周围车辆的相互作用和不确定性预测的自动驾驶决策

Automated Driving in Uncertain Environments: Planning with Interaction and Uncertain Maneuver Prediction

Decision Making for Autonomous Driving considering Interaction andUncertain Prediction of Surrounding Vehicles

介绍

定义环境不确定性原因:

  1. 其他车辆意图不明确
  2. 未知的纵向(沿路)预测
  3. 与主车路线相交的概率
  4. 测量传感器噪声

Automated Driving in Uncertain Environments学习

相关工作

决策类型:

  1. 基于规则、反应性、交互的
  2. 置信状态规划(POMDP)
    offline:特定场景
    online:求解质量、问题复杂度(状态空间大小、规划时间范围)

问题表示

Automated Driving in Uncertain Environments学习
Automated Driving in Uncertain Environments学习

方法

Automated Driving in Uncertain Environments学习
Automated Driving in Uncertain Environments学习
Automated Driving in Uncertain Environments学习

Automated Driving in Uncertain Environments学习
方法-续-4
TAPIR
一种online方式求解POMDP问题的工具
是Adaptive Belief Tree (ABT)算法的一种实现
大多数在线求解器都是基于重新规划的,即在每一步从头开始重新计算一个解决方案,丢弃迄今为止计算出的任何解决方案,浪费计算资源。
ABT是一种在线POMDP求解器,能够适应对POMDP模型的修改,而无需从头开始重建策略。给定足够的时间,ABT在概率上收敛到当前POMDP模型的最优解。
https://github.com/rdl-algorithm/tapir
http://robotics.itee.uq.edu.au/dokuwiki/papers/isrr13_abt.pdf

模拟结果

Automated Driving in Uncertain Environments学习
Automated Driving in Uncertain Environments学习
Automated Driving in Uncertain Environments学习

结论

论文创新点:

  1. 提出一个解决在不同不确定的环境情况下自动驾驶决策的在线求解POMDP框架
  2. 易于拓展,观测和计算的准确、效率提高对算法最终表现提升很大

我的思考(个人观点)

  1. 模拟环境简化很多,真实环境表现或非良好
  2. 对其他车辆的观测(地图)依赖比较大(速度、位置都要知道,感知范围太大、遮挡怎么办……)
  3. 假设过强,条件局限了。

=============================持续更新。。。