Automated Driving in Uncertain Environments学习
今天开始,学习强化学习相关知识。
这是两篇关于不确定性环境下的自动驾驶决策的论文,是同一个作者的同一个工作的先后进展,以下给出学习和理解。
Decision Making for Autonomous Driving considering Interaction and Uncertain Prediction of Surrounding Vehicles
考虑周围车辆的相互作用和不确定性预测的自动驾驶决策
Automated Driving in Uncertain Environments: Planning with Interaction and Uncertain Maneuver Prediction
Decision Making for Autonomous Driving considering Interaction andUncertain Prediction of Surrounding Vehicles
介绍
定义环境不确定性原因:
- 其他车辆意图不明确
- 未知的纵向(沿路)预测
- 与主车路线相交的概率
- 测量传感器噪声
相关工作
决策类型:
- 基于规则、反应性、交互的
- 置信状态规划(POMDP)
offline:特定场景
online:求解质量、问题复杂度(状态空间大小、规划时间范围)
问题表示
方法
方法-续-4
TAPIR
一种online方式求解POMDP问题的工具
是Adaptive Belief Tree (ABT)算法的一种实现
大多数在线求解器都是基于重新规划的,即在每一步从头开始重新计算一个解决方案,丢弃迄今为止计算出的任何解决方案,浪费计算资源。
ABT是一种在线POMDP求解器,能够适应对POMDP模型的修改,而无需从头开始重建策略。给定足够的时间,ABT在概率上收敛到当前POMDP模型的最优解。
https://github.com/rdl-algorithm/tapir
http://robotics.itee.uq.edu.au/dokuwiki/papers/isrr13_abt.pdf
模拟结果
结论
论文创新点:
- 提出一个解决在不同不确定的环境情况下自动驾驶决策的在线求解POMDP框架
- 易于拓展,观测和计算的准确、效率提高对算法最终表现提升很大
我的思考(个人观点)
- 模拟环境简化很多,真实环境表现或非良好
- 对其他车辆的观测(地图)依赖比较大(速度、位置都要知道,感知范围太大、遮挡怎么办……)
- 假设过强,条件局限了。
=============================持续更新。。。