笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

一.问题

自上而下的检测限制：矩形边界框不是自然对象的表示。它们传达很少的详细物体信息，例如物体形状和姿态。

二.本文解决方法

找出四个极值点，确定八边形框。

提出一种自下而上的目标检测框架ExtremeNet，它可以检测目标的四个极端点（最上面、最左边、最下面、最右边）。使用最新的关键点估计框架通过预测每个物体类别的四个多峰值热图来找到极值点。另外，使用每个类别的一个热图来预测对象中心，作为x和y维度中两个边界框边的平均值。使用纯几何的方法将极值点分组到对象中。对四个极端点进行分组，当它们的几何中心在中心热图中的预测分数高于预定义的阈值时，将这四个极端点对应为一个候选对象。因此，目标检测是一个纯粹基于外观的关键点估计问题，不需要区域分类或隐式特征学习。提出的方法与最新的基于区域的检测方法性能相当。

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

本方法属于one-stage。然而，我们没有在O（h2w2）空间中设置锚，而是在O（hw）空间中检测边界框的五个单独部分（四个端点和一个中心）。

此网络以图像为输入，生成四个C通道热图（4个极值点）、一个C通道热图（一个中心点）和四个2通道偏移图（每个极值点生成两个偏移图）。利用加权逐像素logistic回归对热图进行训练，利用加权后的权重来减少真实位置附近的误报。利用真值峰值处的平滑L1损失对偏移图进行训练。

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

ExtremeNet沿用了CornerNet的网络结构和损失函数，但没有使用联合嵌入。为了平衡正负样本，在训练中使用了改进版的focal loss：

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

为了提高Corner point检测的准确性，CornerNet还添加了一个与类别无关的offset map，用来弥补在下采样过程中引起的分辨率损失。Offset map训练过程中使用了平滑L1 loss：

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

1. 算法实现：

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

2. Ghost box suppression：本论文使用一种soft NMS抑制方法，剔除幽灵框,机如果一个包围盒中所有盒子的分数之和超过了它自身分数的3倍，我们将它的分数除以2。

幽灵框就是包围正确的小框，通过极值点算出的中心点和正确框一致，但使用的极值点却是相邻目标的极致点。

3. Edge aggregation：极限点并不总是唯一的。如果一个物体的垂直或水平边缘形成极限点（例如，汽车的顶部），沿该边缘的任何点都可能被视为极限点。结果就是我们的网络沿着对象的任何对齐边会产生弱响应，而不是单一的强峰值响应。这种弱响应有两个问题：第一，弱响应可能低于峰值选择阈值，将错过极值点。第二，即使我们检测到了关键点，它的得分可能还是PK不过轻微旋转过的目标。
我们使用边缘聚合来解决这个问题。对每一个极值点，向它的两个方向进行聚集。具体做法是，沿着X/Y轴方向，将第一个单调下降区间内的点的score按一定权重累加到原极值点上。效果如下图所示，可以看出，红圈部分的响应明显增强了。

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

4. Extreme Instance Segmentation：使用极值点创建一个八角形，其边缘是集中在极值点。具体：对于一组极值点，首先确定一个长方框，然后我们在极值点对应长方框边的两个方向上将其延伸到整个边长度的1/4。线段遇到角点时将被截断。然后我们将四段的端点连接起来形成八边形。

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

为了进一步细化边界盒分割，使用Deep-Extreme-Cut ：是一种基于极值点的图像分割方法，详见18年论文：https://arxiv.org/abs/1711.09081。具体：对于我们预测的每个边界框，我们裁剪边界框区域，用我们预测的极值点渲染高斯映射，然后将具体图像馈送到预先训练的右旋模型。

三.实验

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

笔记九：论文阅读Bottom-up Object Detection by Grouping Extreme and Center Points

相关推荐