【论文速递】PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation

摘要

自动驾驶系统中对细粒度感知的需求导致最近对单扫描LiDAR的在线语义分割的研究增加。尽管出现了新的数据集和技术进步,但由于以下三个原因,它仍然具有挑战性:(1)需要有限硬件的近实时延迟; (2)LiDAR点在整个空间中的分布不均匀甚至长尾; (3)越来越多的极细粒度的语义类。为了共同解决所有上述挑战,提出了一种新的特定于LiDAR的,无近邻的分割算法-PolarNet。我们的极鸟瞰图表示法不是使用通用的球面或鸟瞰图投影,而是在极坐标系中平衡网格单元之间的点,从而使分割网络的注意力与沿点的长尾分布间接对齐径向轴。经试验,其编码方案大大提高了真实城市LiDAR单次扫描的三个不同的分割数据集中的mIoU,同时保持了接近实时的吞吐量。
代码链接:https://github.com/edwardzhou130/PolarSeg

主要贡献:

作者提出极鸟瞰图表示法和环链接卷积,在SemanticKITTI,A2D2 和Paris-Lille-3D 数据集上验证了方法。 结果表明,在仅使用参数和MAC的1/3的平均交叉-联合(mIoU)评估指标上,方法分别比现有方法高出2.1%,4.5%和3.7%。 工作贡献概括如下:

•提出了一种更合适的LiDAR扫描表示形式,它考虑了点的不平衡空间分布。
•展示的PolarNet网络经过极网格数据表示法的端到端训练,以较低的计算成本超越了基于公共基准的先进方法。
•与其他表示法(如笛卡尔BEV)相比,使用极坐标网格对基于不同主干分段网络的语义分割性能进行了全面分析。

算法框架:
【论文速递】PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation

极化鸟瞰图

基于LiDAR扫描俯视图出现的环形结构,作者展示了图3所示的Polar分区,取代了图3中的笛卡尔分区。具体地,首先以传感器的位置为原点,计算XY平面上每个点的方位角和半径,而不是对笛卡尔坐标系中的点进行量化。然后将点云分配给根据量化方位角和半径确定的网格单元。

极化BEV有两个好处,首先,它可以更平均地分配点。通过统计SemanticKITTI数据集拆分的验证集,发现每个极点栅格像元靠近传感器时的点数远小于笛卡尔BEV中的点数。 因而,用于密集区域的网格的表示更精细。 在相同数量的网格单元中,传统的BEV网格单元平均为0.7±3.2点,而极性BEV网格单元平均为0.7±1.4点。 标准偏差之间的差异表明,总体而言,这些点在极地BEV网格上分布更均匀。

极化BEV的第二个好处是,更平衡的点分布减轻了预测变量的负担。由于将2D网络输出重塑为体素以进行点预测,因此不可避免地,某些具有不同真实值标签的点将分配给同一体素。而且其中有些无论如何都会被错误分类。使用笛卡尔BEV,每个网格单元中平均98.75%的点共享相同的标签。在极化BEV中,这一数字跃升至99.3%。这表明由于空间表示特性,极化BEV中的点较少遭受错误分类。考虑到小物体更有可能被体素中的多数标签所淹没,这种0.6%的差异可能会对最终的mIoU产生更深远的影响。研究mIoU的上限表明,笛卡尔BEV的mIoU达到97.3%。极化BEV达到98.5%。极化BEV的较高上限可能会提高下游模型的性能。

【论文速递】PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation

环形卷积

无需随意为每个网格手工绘制特征,而是使用固定长度的表示形式捕获每个网格中的点分布。 它是由可学习的简化PointNet [22] h和最大池化产生的。 该网络仅包含完全连接的层,批处理规范化和ReLu层。 扫描中第i,第j网格单元中的特征为:
【论文速递】PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation
其中w和l是量化大小。 px和py是地图中点p的位置。 注意,位置和量化大小可以是极坐标或笛卡尔坐标。 我们不对沿z轴的输入点云进行量化。 类似于point pillar,学习到的表示表示网格的整个垂直列。

如果表示是在极坐标系中学习的,则特征矩阵的两侧将在物理空间中沿方位轴连接,如图2所示。作者开发了离散卷积,称为环形卷积。假设矩阵在半径轴的两端相连,则环形卷积核将对矩阵进行卷积。同时,位于相反一侧的梯度可以通过该环形卷积核传播回另一侧。通过在2D网络中将常规卷积替换为环形卷积,该网络将能够端到端处理极坐标网格,而不会忽略其连通性。这为模型提供了扩展的应用范围。由于它是一个2D神经网络,因此最终的预测也将是一个极坐标网格,其特征维等于量化的高度通道和类数的乘积。然后,可以将预测重塑为4D矩阵,以得出基于体素的分割损失。将卷积替换为环形卷积,则大多数CNN在技术上都可以处理极坐标网格。作者将具有环形卷积的网络称为经过训练以处理极化网格的环CNN。

实验结果

在实验中使用了SemanticKITTI ,A2D2 和ParisLille-3D 数据集。表1显示了方法与多个基准之间的性能在SemanticKITTI上的比较。
【论文速递】PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation
结果表明,即使参数数量较少且延迟较低,基于Unet的极化BEV分割网络仍能胜过最新技术。PointNet和TangentConv等基于点的方法与大型LiDAR点云一起使用时效率低下,并且分割精度较差。对于每类IoU,极化BEV方法在大多数类中均取得了改进,尤其是在那些不规则且空间分布稀疏的类中,这与极性BEV的规模和范围保持特性相匹配。但是,“其他人”和“摩托车手”的表现特别差。调查表明它们在视觉上与其他类别没有区别。根据SemanticKITTI的定义,“其他地面”本质上类似于人行道/地形,但可用于其他目的,例如交通岛。对于“骑摩托的人”来说,即使是人也很难区分“人”或“骑单车的人”,这是因为这个类别本身通常在很大程度上被遮挡。 此外,摩托车手是数据集中最稀有的一类-构成训练点的0.004%,并且在官方验证序列中仅出现一个实例。

Abstract

The need for fine-grained perception in autonomous driving systems has resulted in recently increased research on online semantic segmentation of single-scan LiDAR. Despite the emerging datasets and technological advancements, it remains challenging due to three reasons: (1) the need for near-real-time latency with limited hardware; (2) uneven or even long-tailed distribution of LiDAR points across space; and (3) an increasing number of extremely fine-grained semantic classes. In an attempt to jointly tackle all the aforementioned challenges, we propose a new LiDAR-specific, nearest-neighbor-free segmentation algorithm — PolarNet. Instead of using common spherical or bird’s-eye-view projection, our polar bird’s-eye-view representation balances the points across grid cells in a polar coordinate system, indirectly aligning a segmentation network’s attention with the long-tailed distribution of the points along the radial axis. We find that our encoding scheme greatly increases the mIoU in three drastically different segmentation datasets of real urban LiDAR single scans while retaining near real-time throughput.