论文笔记_S2D.32-2019-IEEE-IP_HMS-Net:用于稀疏深度补全的分层多尺度稀疏不变网络
基本情况
题目:HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion
出处:Huang, Z., Fan, J., Cheng, S., Yi, S., Wang, X., & Li, H. (2019). Hms-net: Hierarchical multi-scale sparsity-invariant network for sparse depth completion. IEEE Transactions on Image Processing, 29, 3429-3441.
摘要
密集的深度线索对于各种计算机视觉任务很重要。在自动驾驶中,激光雷达传感器用于获取车辆周围的深度测量值以感知周围环境。然而,由于其硬件限制,激光雷达的深度图通常是稀疏的。最近深度图完整吸引了越来越多的关注,其目的是从输入的稀疏深度图生成密集的深度图。
为了有效地利用多尺度特征,我们提出了三种新的稀疏不变操作,并在此基础上提出了处理稀疏输入的稀疏不变多尺度解码器网络(HMS-Net)和稀疏特征映射。其他RGB特征可以被合并,以进一步提高深度补全性能。
我们在KITTI depth completion benchmark和NYU-depth-v2 dataset两个公共基准上进行了大量的实验和组件分析,证明了所提方法的有效性。截至2018年8月12日,在KITTI depth completion leaderboard上,我们提出的不使用RGB信息的无RGB指导的模型在所有同行评审方法中排名第一,有RGB指导的模型在所有RGB指导方法中排名第二。
1 介绍
深度完成,旨在为计算机视觉和机器人技术生成密集的深度任务。在图2(a),(b),(e)中,我们显示了一个示例输入稀疏深度图,其对应的RGB图像以及通过我们提出的方法实现的深度完成结果。由于目前的LIDAR传感器的局限性,深度完成的输入通常很少。例如,价值100,000美元的Velodyne HDL- 64E的垂直分辨率仅为0:4°,方位角分辨率为0:08°。它会生成稀疏的深度图,对于许多实际应用而言可能不足。深度完成算法可以从稀疏输入中估计密集的深度图,并且在实践中具有很大的意义。借助精确的深度完成算法,可以更有效地解决许多高级视觉任务,例如语义分割,3D对象检测,视觉里程表和带有3D点云的SLAM。因此,它成为无人驾驶汽车和无人机的热门研究课题,并被列为KITTI基准测试中排名第一的任务之一。
已经提出了许多不同的深度完成方法,这些方法通常可以分为基于学习的方法[1],[2],[3],[4]和基于非学习的方法[5],[6],[ 7]。
基于非学习的方法会根据手工制定的规则从稀疏输入生成密集的深度图。因此,这些算法的输出是基于人类假定的先验而生成的。结果,它们不足以抵抗传感器噪声,并且通常是专门为某些数据集设计的。此外,大多数基于非学习的方法会忽略稀疏输入深度点之间的相关性,并可能导致对象边界不准确。图2(e)显示了基于非学习方法的错误示例[5]。白框中的噪音根本没有消除,黄框中的汽车和树木的边界不准确。
对于基于学习的方法,最先进的方法主要基于深度神经网络。先前的方法主要利用深度卷积神经网络(CNN)从稀疏输入生成密集深度图。
- Ma和Karaman [3]只需将0填充到没有深度输入的位置即可创建密集的输入图,这可能会给非常小的深度值带来歧义。
- Chodosh等[4]提出从输入中提取多级稀疏代码,并使用3层CNN进行深度完成。但是,这两种方法都使用了为密集输入而设计的常规卷积运算(示例请参见图2(c))。
- Uhrig等 [1]提出了稀疏不变卷积,它是专门为处理稀疏映射而设计的,并可以使用CNN更有效地处理稀疏输入。
但是,[1]中的稀疏不变卷积仅模仿常规密集型CNN中的卷积运算行为。其后期阶段的特征图会丢失大量空间信息,因此无法有效地集成低层和高层特征以进行精确的深度完成(请参见图1(a)进行说明)。另一方面,对于像元密集的分类任务,存在有效的多尺度编码器-解码器网络结构(见图1(b)),例如U-Net [8],特征金字塔网络[9],全分辨率残留网络[10]。将[1]中的稀疏不变卷积直接集成到多尺度结构中是不可行的,因为那些结构还需要其他操作来进行多尺度特征融合,例如稀疏不变特征上采样,平均和串联。
为了克服这种局限性,我们提出了三种新颖的稀疏不变操作,以使能够使用编码器-解码器网络进行深度完成。这三个新颖的运算包括稀疏不变的上采样,稀疏不变的平均值以及联合稀疏不变的串联和卷积。为了有效地处理稀疏特征图,在特征图的所有位置都使用了稀疏蒙版。他们在每个处理阶段的输出处记录稀疏特征的位置,并指导向前和向后传播的计算。
每个稀疏性不变的操作都旨在正确维护和修改网络中的稀疏性掩码。这些操作的设计很简单,并且是使用具有稀疏特征的编码器-解码器结构的关键。基于这样的操作,我们提出了一种多尺度编码器-解码器网络HMS-Net,该网络采用一系列稀疏不变的压缩以及下采样和上采样来生成多尺度特征图和捷径路径,以有效地融合多尺度特征。在KITTI [1]和NYU-depth-v2 [11]数据集上的大量实验表明,我们的算法达到了最先进的深度完成精度。
我们工作的主要贡献可以概括为三个方面。
1)我们设计了三个稀疏不变操作来处理稀疏输入和特征图,这对于处理稀疏特征图很重要。
2)基于提出的稀疏不变操作,设计了一种融合来自不同尺度的信息的分层多尺度网络结构,以解决深度完成任务。
3)我们的方法在深度完成方面优于最新方法。 在KITTI深度完成基准测试中,我们的不带RGB信息的方法在所有带有RGB输入的同行评审方法中排名第一,而我们的带RGB指导的方法在所有RGB指导方法中排名第二。
如图所示:(a)稀疏不变卷积的CNN只能逐渐对特征图进行下采样,在以后阶段失去大量分辨率;(b)提出的稀疏不变编码器-解码器网络可以有效地融合来自不同层的多尺度特征做深度完整。
以下依次是三个稀疏不变操作:(a) 稀疏不变双线性上采样、(b) 稀疏不变叠加、和 (c) 联合稀疏不变的联结和卷积。
(a)
(b)
(c)
之前用于密集像素分类的多尺度编码器-解码器网络结构有U-Net、特征金字塔网络(FPN)和全分辨率残差网络(FRN)。将稀疏不变卷积直接集成到这些多尺度结构不可行,因为那些结构还需要其他操作做多尺度特征融合,如稀疏不变特征上采样,加法和串联。
如图是基于上述三个稀疏不变操作的的分级多尺度编码器-解码器网络(HMS-Net)结构,用于深度图完整化,(a)是不带RGB引导的架构,(b)是带RGB引导的架构。
图(a)提出两个基本构建块,一个2-尺度块和一个3-尺度块,由稀疏不变操作组成。2-尺度块具有一条上路径,通过k×k稀疏不变卷积非线性地变换全分辨率低层特征。而一条下路径将下采样的低层特征作为输入,通过另一个k×k卷积学习高层特征(k = 5)。然后,对生成的高层特征进行上采样,并添加到全分辨率低层特征。与2-尺度块相比,3-尺度块将特征从两个较高层融合到上低层特征路径中,利用更多辅助的全局信息。这样,全分辨率的低层特征可以有效地与高层信息融合在一起,并经过多次非线性转换学习更复杂的预测函数。最终网络在第一层运行5×5稀疏不变卷积;生成的特征经过3-尺度块,然后做稀疏不变最大池化,再进行三次上采样生成全分辨率特征图。最终特征图通过一个1×1卷积层转换生成最终的逐像素预测结果。
图(b)输入图像首先由RGB子网络处理得到中层RGB特征。子网的结构遵循ERFNet的前六个模块,由两个下采样模块和四个残差模块组成。下采样块有2×2卷积层(步幅为2)和2×2最大池化层。输入特征同时馈入到两层,其结果沿着通道维联结在一起,获得1/2大小的特征图。残差块的主路径有两组:1×3 conv → BN → ReLU → 3×1 conv → BN → ReLU。由于中层RGB特征下采样至原始大小的1/4,因此它们会被放大到输入图像的原始大小。通过一系列卷积对上采样RGB特征进行转换,充当附加的引导信号,并与不同多尺度块的低层稀疏深度特征图相连。
如图是HMS-Net和其他方法的实验结果比较:(a)输入稀疏深度图示例,(b)相应的RGB图像,(c)ADNN(基于压缩感知)的结果,(d)稀疏不变卷积的结果,(e)手工制作的传统(形态)图像处理方法得出的结果,以及(f)HMS-Net的结果。