小白科研笔记:理解PointRCNN中的Stage-Two细节
1. 前言
博客写作的这天是清明节。致敬那些抗击新馆病毒的医护人员。
我的上一篇博客分析了PointRCNN
框中中预选3d框的生成和基于区间(对Bin
的翻译)的3d框误差函数。讨论了基于区间的3d框误差函数的思想源于F-PointNet
。这篇博客讨论PointRCNN
的后续操作,即如何从一大堆3d预选目标框中回归出精度更高的检测结果呢?这对应PointRCNN
中的RCNN
部分。RCNN
是属于Regions with CNN Features
的缩写,译为预选框内的特征。在PointRCNN
中,作者希望使用3d预选框内的点云特征回归出更加精确的结果。RCNN
是Two-stage Detection Network
中的Stage-2
的主要内容。
2. PointRCNN中RCNN的细节
2.1 非极大值抑制和区域池化
前文已经说过,每一个前景点都会用于回归一个预选3d框,因此预选框的数量是远远大于实际3d目标的。如图1(a)所示,一个目标周围有好多框框。经过非极大值抑制(NMS)后,从众多框框中选出一个精选框作为该目标的唯一预选框,如图1(b)中的橙色框。第个精选框标记为。对所有的框无差别地优化显然是非常耗费计算量的,效率低下。而只针对精选框做优化,效率则会非常高。这是非极大值抑制的目的。
图1:非极大值抑制和区域池化示意图(我从原论文截图剪裁而成)
作者认为实际情况下,这个精选的预选框是不准确的(如果准就不会有RCNN
操作啦),会存在个别属于该目标点云没有被这个框覆盖。为了解决这个问题,作者把预选框的长宽高增大一点,改进后的框标记为,见图1(b)中的黑框。符号是enlarge
,增大的含义。但是这种增大的框也会把本不属于该目标的点覆盖进去,比如地面点,见图1(b)中的地面点。在Foreground Point Segmentation
,已经对前景点/背景点做了分割。所以杂点还是能被识别出来。记框内的任意一点为,表示它是背景点/前景点。表示该点的位置。表示该点雷达的反射率。表示该点在Point Cloud Encoder-Decoder
中提取的特征,文中称之为全局语义特征Global Semantic Features
(从整体点云中学习出来的特征,这是取名为global
的含义)。因此,对于一个精选框中的点,它的特征包括。
上述的操作都不难理解。但是貌似跟区域池化(对Region Pooling
的翻译)没什么关系。接下来就讲解池化。经过非极大值抑制后,会存在一些精选的预选3d框,它们内部没有包含任何点云。作者把这些“空”的预选3d框都扔掉,这样的操作称为区域池化。个人感觉,是不是用Proposal Pooling
更好呢?总之理解了就好。
2.2 理解RCNN
经过2.1节的操作,我得到了一批精选的预选3d框,记为。RCNN
意义就是让框框集合更加精确。
A. 建立局部坐标系
对于每一个3d框,都以该框的中心点建立一个局部的坐标系。这个局部坐标系的轴方向跟雷达坐标系的轴方向是一致的。在下,该框内所有点云的位置是。当然,这个建立局部坐标系的套路也是主流方法。文中把建立局部坐标系的过程称之为Canonical Transformation
。
B. 3D框精细优化
建立局部坐标系的原因是想提取局部空域特征(对Local spatial feature
的翻译)。作者认为,只有结合全局特征和局部特征,学习器才能回归出精度高的3d框。那么局部特征是什么呢?它是局部距离,雷达反射率,和前景/背景分割,拼接的特征经过MLP
层输出的点云特征向量。然后把和拼接起来获得拼接特征(Merged Feature)。在框内,每一个点都有它自己的拼接特征。把拼接特征喂入Point Cloud Encoder
,可以得到一个判别式的特征向量(Discriminative feature vector)。该特征向量用于回归更精细的3d框和置信度(Confidence)。流程图如下所示:
图2: 3D框精细优化流程图
其中Point Cloud Encoder
的具体网络架构应该是跟F-PointNet
很相似的:
图3: Point Cloud Encoder
的大概网络架构,图中global feature
是判别式的特征向量。图摘自F-PointNet
。
C. 3D框精细优化的损失函数
总之,按照上述A
和B
两个部分的操作,RCNN
网路回归出更加精细的3d框,简记为。为了指导RCNN
正确回归,需要设计一个误差函数。对的真值3d框。的选型准则是。
在框下的局部坐标系下,,而。一些符号记为:
这里的误差函数是基于区间的(Bin-Based)。参考我的上一篇博客,可以得到和用于对的回归。目标是趋于第零个类别,用one_hot
编码,使用交叉熵函数。目标是趋于零,使用平滑范数。使用用于对的回归,直接使用平滑范数。作者认为误差范围小,在内。在这个区间内划分为若干小区间,区间长度为。于是和可以定义为(博主懒这次就截个图吧):
如果你弄不懂上式的构造,可以回过头来看我的上一篇博客讲解Bin-Based
的误差函数原理和示例。3D框精细优化的损失函数跟Stage-One
过程的损失函数一样。用表示参数的Bin-Based
的损失函数。用表示七个参数的res
的损失函数。
除此之外,3D框精细优化过程中还预测了3d框目标的类别置信度。应该是一个类似于One-hot
的向量。目标的类别真值记为。分类误差可以使用交叉熵误差函数,即。
总之,3D框精细优化过程中总的误差函数是:
其中表示非极大值抑制和区域池化之前的预选特征框数目。表示非极大值抑制和区域池化之后的预选特征框数目。
D. RCNN的输出
通过3D框精细优化可以输出一批高质量的3d目标框,对这些3d框在BEV视图下再次进行非极大值抑制,最终得到PointRCNN
的输出。
3. 结束语
总体而言,PointRCNN
算法受2D目标检测RCNN
算法的影响,同时也受到F-PointNet
的Bin-Based
框架影响。但是它并没有生搬硬套,而是在RCNN
架构上和Bin-Based
误差函数上有自己的独到的见解。