目标检测论文阅读笔记:《Bottom-up Object Detection by Grouping Extreme and Center Points》

1. 概述

  • 本篇论文提出一个称之为ExtremeNet的目标检测网络。不同于RCNN系列等在proposal基础上进行边框回归得到检测结果的过程,该网路预测目标的极点坐标(最上、最下、最左、最右)和中心坐标,通过对极点坐标和中心坐标的后处理得到最终的检测结果,比较新颖。
  • 这篇论文基于HourglassNet(人体关键点检测网络),输出各个目标的极点坐标,又可将极点坐标作为Deep Extreme Cut(DEXTR,基于极点坐标的实力分割网络)的输入,实现实例分割。

2. 网络框架及实现细节

2.1 网络框架

目标检测论文阅读笔记:《Bottom-up Object Detection by Grouping Extreme and Center Points》

  • 输入图片送入HourglassNetwork进行关键点检测,输出两组feature map,一组feature map的维度是5xCxHxW,分别表征四个“极点”的位置和中心点的位置,另一组feature map的维度是4x2xHxW,表征四个极点x、y方向的偏移值。

2.2 实现细节

  • 依据输出的feature map,可以获得输入图像在各个类别feature map上极点及目标中心点的预测值。以四个极点组成一组的方式,遍历所有不同组合,对可构成bbox的组合,计算中心点坐标,与网络预测出的中心坐标对比,满足条件的组合再进行后处理。算法流程如下:
    目标检测论文阅读笔记:《Bottom-up Object Detection by Grouping Extreme and Center Points》

  • 检测结果后处理1:如下图所示,对这些等间距排列的目标,很容易产生这个目标的两个点和下个目标的另外两个点组成检测结果的情况,带来的后果是检测框的扩大和检测结果的丢失。作者提出的解决办法是:某个检测框中包含的所有检测框的置信度总和超过该检测框置信度的三倍,则将该检测框的置信度变成原来的一半。

  • 检测结果后处理2:对于边缘是水平或竖直的目标,检测出的极点可能位于边缘的任意位置,为了保持极点的鲁棒性,需要将这条边缘的极点整合,作者提出的整合方法是:对该边缘的每个点,计算左右两侧置信度递减的点到某个阈值,然后依据这些点的置信度总和更新该点置信度

  • 结合输出的四个极点,作者构建了一个简单规则,通过该规则可得到粗略的目标mask

目标检测论文阅读笔记:《Bottom-up Object Detection by Grouping Extreme and Center Points》

3. 实验结果

目标检测论文阅读笔记:《Bottom-up Object Detection by Grouping Extreme and Center Points》