论文阅读-《Relation Networks for Object Detection》

MSRA jifeng dai

1.abstract:

在目标检测领域，model object之间的关系能够提高检测的准确度，但是这种方法在基于深度学习的模型中还没有很好的work。当下主流的目标检测的方法还是对各个物体进行单独的检测，本文提出了一种object relation module，通过引入不同物体之间的外观和集合关系做interaction，实现对物体之间relation的建模。relation module参数不多，in-place，可以用来提高目标检测的性能以及实现duplicate removal（通过可以end-to-end学习的module替换nms）,实现完全的end-to-end目标检测器。

2.Object relation module

作者的relation module和google的一篇做机器翻译的论文“attention is all your need”思想类似。模块的的应用可以增强fc输出的特征以及做duplicate removal，如下图所示：
论文阅读-《Relation Networks for Object Detection》
这里的relation module是in-place的，也就是说，比如在instance recognition里面，输入的是300个object proposal的特征，经过relation module之后，输出的还是300个对应object proposal的特征，只不过这些特征都融合了其他object proposal的信息。

具体的，假设一个object proposal用他的几何特征fG（4维的bounding box）以及外观特征fA（典型的1024维）表示。对于给定的一组object{(fnA,fnG)}Nn=1（比如RPN输出的300个object proposal），对于第n个object，它收集得到的relation feature可以表示为
论文阅读-《Relation Networks for Object Detection》
其中m=1：N，相当于就是其他所有的object的特征，通过一个矩阵变化之后的加权平均。这个矩阵是学习得到的。下面具体讲不同object之间的权重是怎么得到的。

权重wmn的表达式为：
论文阅读-《Relation Networks for Object Detection》
分母是对分子的归一化。第m个object对第n个object产生影响的权重是由appearance和geometry共同决定的。

appearance的权重表示为：
论文阅读-《Relation Networks for Object Detection》
式表示分别将下标为m和下标为n的object映射到低维空间（实际操作是降维了），然后通过向量的内积来衡量两个object外观特征的相似性。分母表示降维之后的维度（典型的64维）。

geometry的权重表示为：
论文阅读-《Relation Networks for Object Detection》
其中ξG函数用来将第m个object和第n个object之间的几何特征映射到高维空间（典型的64维），方法是首先计算m和n之间的相对位姿，

上述得到的相对位姿就是平移和尺度不变的了。然后将4维的相对位姿映射到64维的向量，和WG做内积之后，通过relu，relu的存在表明特征的融合只对具有特征几何结构的object之间进行。

上面的fR(n)表示第n个object收集到的一种relation feature，实际上，在作者的论文里，一个object会收集Nr种（典型的16种）relation feature，然后将这Nr种feature concatenate在一起，和原本第n个object的feature相加，得到增强之后的特征。如下式：
论文阅读-《Relation Networks for Object Detection》

对于目标检测，原来是用第n个object proposal的特征fnA输入classifier，现在是用融合了relation feature的特征输出classifier。为了保证concate之后的relation feature能够和原来的fnA维度一致，矩阵WV对fmA起到了降维的作用。

下图表示上面的操作过程
论文阅读-《Relation Networks for Object Detection》

3.Relation for Instance recognition

原本的RCNN系列的目标检测流程如下所示，从ROI pooling得到的特征经过两个fc之后，进行分类和坐标回归。
论文阅读-《Relation Networks for Object Detection》
引入relation module(RM)之后，instance recognition的流程为：

其中r1和r2分别表示在第一个fc和第二个fc之后连接的RM的数目

整体的instance recognition的示意图如下图（a）所示：
论文阅读-《Relation Networks for Object Detection》

4.Relation for duplicate removal

作者把duplicate removal归结成一个二分类问题，即对于每一个gt box，只有一个detected box是被分成correct，其他的都是分成duplicate。作者的duplicate removal network是接在classifier的输出后面。该模块的输入包括object proposal的score vector（属于各个类别的概率）, bbox，以及proposal的特征（典型的1024维）。

对于某一个object proposal的某一个类别，假设属于这个类别的概率为scoren，首先经过一个rank embed模块，即拿出其他object proposal属于该类别的score，进行排序，得到第n个object proposal在排序中的下标（rank），作者特别说明了，使用rank值而不是直接score的值非常重要。然后将rank值映射到128维向量，同时将该proposal的特征也映射到128维，将两种128维的特征相加之后作为新的appearance feature，然后和bbox作为relation module的输入，得到新的128维的输出，和W_s做内积之后通过sigmoid得到s_1，最终的correct的概率s=s_0 * s_1。整体流程如上图(b)所示

5.Experiment：

所有的实验都是在COCO上做的。
5.1 Ablation study on relation module structure and parameter
论文阅读-《Relation Networks for Object Detection》

为了验证relation module里面几何特征的重要性，作者设计了两个对比实验
1）none表示直接设置几何特征的权重是1；
2）unary表示直接将相对位姿映射到appearance feature一样的维度，然后和appearance feature相加作为新的appearance feature。

5.2 relation module improve the instance recognition performance
论文阅读-《Relation Networks for Object Detection》

5.3 relation module for duplicate removal
论文阅读-《Relation Networks for Object Detection》
从上图可以看到，不使用rank feature或者直接使用score的值都会使得mAP相比baseline降低很多…作者也没有解释为什么会出现这种现象。

5.4 What is learnt in relation module
论文阅读-《Relation Networks for Object Detection》
作者在论文的最后说，relation module里面到底学习什么不在本文的讨论范围，为了给一个直观的感受，作者将instance recognition里面接在第一个fc后面的relation module学习得到的w拿出来，如上图所示，蓝色框表示reference box，左边的图表示重叠度高的框对蓝色框的贡献都很高，右边表示对手套特征贡献高的包括了人。