baidu进阶训练笔记十一20200729

第五章 百度Apollo规划技术介绍(四)

understand more on the MP difficulty

Soft constraints and Hard Constraints

  • Traffic Regulations 红绿灯、双黄线,通过数学转化为约束条件

  • Decisions 决策问题,可以用动态规划方式处理

  • Best Trajectory 平滑、优化,在本车道生成一条策略,换道的时候生成一条策略,再比较生成的trajectory不同

3D optimization problem

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TJARdAZ5-1596018278612)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729172300090.png)]

  • 解决高维空间优化的两种方法:

    • 离散化,生成trajectory
    • Expectation Maximization(期望最大化)。其基本思想是降维处理,先在一个维度上进行优化,然后在优化的基础上再对其它维度进行优化,并持续迭代以获得局部最优解。
      • 降低维度、space方法、并行化的方式
  • Expactation Maximization(期望最大化)

    • 思想:迭代优化
    • 无人车:先生成一条Optimal Path,在此基础上,对所有障碍物进行投影,再生成 optimal speed profile,不断地迭代生成path speed,收敛得到最优解
    • 缺点:本质上也是贪心算法,只能收敛到local optimum,不一定能收敛到gobal optimum
    • 无人车四个步骤:
      • 两个E step:根据隐含数据的假设值,给出当前的参数的极大似然估计
      • 两个M step:重新给出未知变量的期望估计,应用于缺失值
      • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QPggAtZ2-1596018278616)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729172300090.png)]

Optimization Key Step

  • 优化问题的核心:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SHGUspZc-1596018278618)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729174117008.png)]

优化问题的关键步骤包括: Objective Functional、Constraint、Solver。目标函数是一些关键特征的线性组合。约束主要包括交通灯、碰撞以及动态需求等。优化求解方法的目的是找到最佳路径,包括前面讲的动态规划+二次规划的启发式方法。

Planning DP

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uQFxgdRD-1596018278620)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729174252955.png)]

对于非线性优化问题,通常都是分两步走,一是动态规划,先找一个粗略解。然后再是二次规划,从粗略解出发,找出一个最优解。

Planning 2.0 Path QP

baidu进阶训练笔记十一20200729

  • 衡量平滑性的三个指标:

    • speed:开车速度
    • acceleration:加速度
    • jerk:踩油门/刹车的速度
  • 加入这三个指标,先用动态规划得到一个粗略解、构造凸空间、二次优化得到最优解

    • 虽然不能解决所有问题,但可以在力所能及的范围内做到非常好
    • 两个最优解之间差的距离非常小![在这里插入图片描述](https://img-blog.csdnimg.cn/2020072918312033.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDk1Mjc4Mw==,size_16,color_FFFFFF,t_70
  • 保证帧与帧之间的的连续性,对control的稳定性很重要

规划问题如何解决逆行

baidu进阶训练笔记十一20200729

根据speed profile估计当前逆行障碍物的位置,再修正path,再根据当前path的speed处理速度

baidu进阶训练笔记十一20200729

Apollo无人车规划模块的进展

baidu进阶训练笔记十一20200729

reinforcement learning and data driven approaches

  • 解决好规划问题,需要把两个方面做好
    • 数据闭环(Data Driven)
      • 原先的重复性经验,基于经验的方法,只不过这些经验是模型通过大量的样本数据学习得到的
    • 基于规则(rule based)的方法。
      • 在基于规则的方法的基础上,对问题形成一定的认识,通过把问题抽象成更加通用的问题,定义目标函数来进一步优化问题。

Handling uncertainty with model

Reinforcement Learning

  • RL的本质是建立mapping 的过程,是遇到了问题再解决的思路

    • 我遇到一个case,但我解决不了
    • 看是不是什么地方解决不了
    • 把这个地方进行拓展
  • RL的思想就是不断的通过在目标不变的情况下,随机地去找一个action,然后看结果怎么样,不好的话就进行修正,或者说策略进行修正,逐渐收敛到一个mapping,使得这个mapping能够optimize reward function given all states

observed state

baidu进阶训练笔记十一20200729

  • 通过运动轨迹判断意图
  • 用POMDP这个model去model一些uncertainty

end to end imitation learning

baidu进阶训练笔记十一20200729

  • 证明在一定情况下,在一定data量的情况下,可以得到一个能接受的结果
  • 本质上来讲,还是一个imitation learning

distribution shifting problem蝴蝶效应问题

baidu进阶训练笔记十一20200729

  • 在研究的时候,一个一点点的变化,就会引起周围环境的发生很剧烈的变化

  • 所以在进行训练的时候,随着数据量的增加,本身系统是很脆弱的,因为没法证明他有李亚普诺富稳定性,即到t时间的时候无法控制它的误差

其他问题

  • Multimodality
    • model loss function 要设计正确
  • Not scalable
  • Need exposure to large amount of dataset

如何解决?

baidu进阶训练笔记十一20200729

  • 通过寻找一个action的mapping,使得他的那个maximize的reward function,这是整个RL中最关心的问题
  • data driven只是加速总结,让系统变得更快
    baidu进阶训练笔记十一20200729

Reinforcement Learning

baidu进阶训练笔记十一20200729