作者:Noha Radwan∗Abhinav Valada∗Wolfram Burgard
研究机构:德国弗莱堡大学
论文解决的问题
本文解决了语义分割+相机重定位+视觉里程计VO三个任务。相机重定位指的是绝对位姿预测,VO则是相对位姿预测。本文还发布了一个用于定位的数据集DEEPLOC dataset.
多任务学习模型的好处是可以提高模型的泛化性,不需要大量的标签数据,且一次计算完成了多个任务,效率高。
本文基于VLocNet,提出了一种自适应的加权方法,能够利用运动特定时间信息(motion-specific temporalinformation)来提高定位精度。这种自适应加权方法,在融合网络的两个特征图时,可以调整加权权值得到更加合适的权值比例,得到的融合入特征图能够更好的描述特征信息。
本文在VLocNet的基础上加以改进:
- 联合前一帧的信息来对运动特定信息(motion specific information)进行累积
- 使用提出的自适应融合层对**区域的语义特征进行自适应融合
- 提出一种自监督变换层(warping),在语义分段模型中聚合场景级上下文。
论文方法介绍
模型结构:相对位回归网络(VO模块)、绝对位姿回归网络、语义分割网络
绝对位姿回归网络:
上图中间黄色的部分。中间两层红色的是本文提出的自适应权重融合层。
损失函数:
Lloc(f(θ∣It)):=LEuc(f(θ∣It))+LRel(f(θ∣It))
其中几何一致损失(相对位姿损失):
LRel(f(θ∣It))=LxRel(f(θ∣It))exp(−s^xRel)+s^xRel+LqRel(f(θ∣It))exp(−s^qRel)+s^qRel平移损失:LxRel(f(θ∣It)):=‖xt,t−1−(x^t−x^t−1)‖2旋转损失:LqRel(f(θ∣It)):=∣∣qt,t−1−(q^t−1−1q^t)∣∣2
欧氏距离损失(绝对位姿损失):
LEuc(f(θ∣It))=Lx(f(θ∣It))exp(−s^x)+s^x+Lq(f(θ∣It))exp(−s^q)+s^q平移损失:Lx(f(θ∣It)):=‖xt−x^t‖2旋转损失:Lq(f(θ∣It)):=‖qt−q^t‖2
VO模块:
上图中蓝色的两支。
注意下面的一支与 绝对位姿回归网络由于都在It上提特征,所以是共享权重的。
损失函数:
Lvo(f(θ∣It,It−1)):=Lx(f(θ∣It,It−1))exp(−s^xvo)+s^xvo+Lq(f(θ∣It,It−1))exp(−s^qvo)+s^qvoLx、Lq分别表示平移损失和旋转损失
语义分割模块:
上图中绿色的部分。
首先计算每个像素的类别:
pj(ur,θ∣In)=∑kCexp(sk(ur,θ))exp(sj(ur,θ))sj(ur,θ)代表像素ur的得分,θ为模型权重
损失函数:
Lseg(T,θ)=−n=1∑Nr=1∑ρj=1∑Cδmrn,jlogpj(ur,θ∣In)C:class numberN:images numberρ:pixel number per image
然后介绍自监督的变换层:
self-supervised Warping:
上图中橘色的网络层
根据t-1时刻的特征图生成对应的深度图(用DispNet),然后利用估计的相对位姿将其变换到t时刻的视角下,将其与特时刻的特征图融合。这样多视角、多分辨率的信息使得模型对视角、尺度、畸变等场景下依然有很强的鲁棒性。
数学表达 :
ur:=π(T(pt,t−1)π−1(ur,Dt(ur)))Dt表示深度图T(pt,t−1)表示相对位姿pt,t−1对应的齐次旋转矩阵π表示投影函数
adaptive weighted fusion layer:
用于组合来自多个层或多个网络的特征的常用做法是:执行张量的级联或逐元素的加法/乘法。 尽管这在两个张量都包含足够的相关信息时可能是有效的,但这种操作通常会累积不相关的特征图,它的有效性在很大程度上取决于进行融合的网络的中间层。
这里作者提出了可以自适应加权的机制:
假设两张特征图为za zb,则自适应融合女机制可写为:
z^fuse=max(W∗((wa⊙za)⊕(wb⊙zb))+b,0)W、b:非线性池化的参数(即1∗1卷基层+ReLU)⊙:对应通道相乘⊕:对应通道相连接∗:卷积操作
总的损失函数:
Lmulti:=Llocexp(−s^loc)+s^loc+Lvoexp(−s^vo)+s^vo+Lsegexp(−s^seg)+s^seg
其中s^均指可学习的权值参数。
实验内容以及分析
7-SCENES数据集,定位对比:
7-SCENES数据集,VO对比:
DEEPLOC DATASET,语义分割对比:
VO性能可视化:
在户外、户内、重复文理、无文理、反射等环境下都有较好的鲁棒性