文章目录

第五章百度Apollo规划技术介绍（四）

understand more on the MP difficulty

Soft constraints and Hard Constraints
3D optimization problem
Optimization Key Step
Planning DP
Planning 2.0 Path QP
规划问题如何解决逆行
Apollo无人车规划模块的进展

reinforcement learning and data driven approaches

Handling uncertainty with model

Reinforcement Learning
observed state
end to end imitation learning
distribution shifting problem蝴蝶效应问题

其他问题
如何解决？
Reinforcement Learning

第五章百度Apollo规划技术介绍（四）

understand more on the MP difficulty

Soft constraints and Hard Constraints

Traffic Regulations 红绿灯、双黄线，通过数学转化为约束条件
Decisions 决策问题，可以用动态规划方式处理
Best Trajectory 平滑、优化，在本车道生成一条策略，换道的时候生成一条策略，再比较生成的trajectory不同

3D optimization problem

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TJARdAZ5-1596018278612)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729172300090.png)]

解决高维空间优化的两种方法：
- 离散化，生成trajectory
- Expectation Maximization（期望最大化）。其基本思想是降维处理，先在一个维度上进行优化，然后在优化的基础上再对其它维度进行优化，并持续迭代以获得局部最优解。
  - 降低维度、space方法、并行化的方式
Expactation Maximization(期望最大化)
- 思想：迭代优化
- 无人车：先生成一条Optimal Path，在此基础上，对所有障碍物进行投影，再生成 optimal speed profile,不断地迭代生成path speed,收敛得到最优解
- 缺点：本质上也是贪心算法，只能收敛到local optimum，不一定能收敛到gobal optimum
- 无人车四个步骤：
  - 两个E step：根据隐含数据的假设值，给出当前的参数的极大似然估计
  - 两个M step：重新给出未知变量的期望估计，应用于缺失值
  - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QPggAtZ2-1596018278616)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729172300090.png)]

Optimization Key Step

优化问题的核心：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SHGUspZc-1596018278618)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729174117008.png)]

优化问题的关键步骤包括： Objective Functional、Constraint、Solver。目标函数是一些关键特征的线性组合。约束主要包括交通灯、碰撞以及动态需求等。优化求解方法的目的是找到最佳路径，包括前面讲的动态规划+二次规划的启发式方法。

Planning DP

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uQFxgdRD-1596018278620)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729174252955.png)]

对于非线性优化问题，通常都是分两步走，一是动态规划，先找一个粗略解。然后再是二次规划，从粗略解出发，找出一个最优解。

Planning 2.0 Path QP

baidu进阶训练笔记十一20200729

衡量平滑性的三个指标：
- speed：开车速度
- acceleration:加速度
- jerk:踩油门/刹车的速度
加入这三个指标，先用动态规划得到一个粗略解、构造凸空间、二次优化得到最优解
- 虽然不能解决所有问题，但可以在力所能及的范围内做到非常好
- 两个最优解之间差的距离非常小![在这里插入图片描述](https://img-blog.csdnimg.cn/2020072918312033.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDk1Mjc4Mw==,size_16,color_FFFFFF,t_70
保证帧与帧之间的的连续性，对control的稳定性很重要

规划问题如何解决逆行

baidu进阶训练笔记十一20200729

根据speed profile估计当前逆行障碍物的位置，再修正path，再根据当前path的speed处理速度

baidu进阶训练笔记十一20200729

Apollo无人车规划模块的进展

baidu进阶训练笔记十一20200729

reinforcement learning and data driven approaches

解决好规划问题，需要把两个方面做好
- 数据闭环（Data Driven）
  - 原先的重复性经验，基于经验的方法，只不过这些经验是模型通过大量的样本数据学习得到的
- 基于规则（rule based）的方法。
  - 在基于规则的方法的基础上，对问题形成一定的认识，通过把问题抽象成更加通用的问题，定义目标函数来进一步优化问题。

Handling uncertainty with model

Reinforcement Learning

RL的本质是建立mapping 的过程，是遇到了问题再解决的思路
- 我遇到一个case，但我解决不了
- 看是不是什么地方解决不了
- 把这个地方进行拓展
RL的思想就是不断的通过在目标不变的情况下，随机地去找一个action，然后看结果怎么样，不好的话就进行修正，或者说策略进行修正，逐渐收敛到一个mapping，使得这个mapping能够optimize reward function given all states

observed state

baidu进阶训练笔记十一20200729

通过运动轨迹判断意图
用POMDP这个model去model一些uncertainty

end to end imitation learning

baidu进阶训练笔记十一20200729

证明在一定情况下，在一定data量的情况下，可以得到一个能接受的结果
本质上来讲，还是一个imitation learning

distribution shifting problem蝴蝶效应问题

baidu进阶训练笔记十一20200729

在研究的时候，一个一点点的变化，就会引起周围环境的发生很剧烈的变化
所以在进行训练的时候，随着数据量的增加，本身系统是很脆弱的，因为没法证明他有李亚普诺富稳定性，即到t时间的时候无法控制它的误差

其他问题

Multimodality
- model loss function 要设计正确
Not scalable
Need exposure to large amount of dataset

如何解决？

baidu进阶训练笔记十一20200729

通过寻找一个action的mapping，使得他的那个maximize的reward function，这是整个RL中最关心的问题
data driven只是加速总结，让系统变得更快

Reinforcement Learning

baidu进阶训练笔记十一20200729

baidu进阶训练笔记十一20200729

文章目录

第五章 百度Apollo规划技术介绍（四）

understand more on the MP difficulty

Soft constraints and Hard Constraints

3D optimization problem

Optimization Key Step

Planning DP

Planning 2.0 Path QP

规划问题如何解决逆行

Apollo无人车规划模块的进展

reinforcement learning and data driven approaches

Handling uncertainty with model

Reinforcement Learning

observed state

end to end imitation learning

distribution shifting problem蝴蝶效应问题

其他问题

如何解决？

Reinforcement Learning

相关推荐

第五章百度Apollo规划技术介绍（四）