论文阅读-《Relation Networks for Object Detection》
MSRA jifeng dai
1.abstract:
在目标检测领域,model object之间的关系能够提高检测的准确度,但是这种方法在基于深度学习的模型中还没有很好的work。当下主流的目标检测的方法还是对各个物体进行单独的检测,本文提出了一种object relation module,通过引入不同物体之间的外观和集合关系做interaction,实现对物体之间relation的建模。relation module参数不多,in-place,可以用来提高目标检测的性能以及实现duplicate removal(通过可以end-to-end学习的module替换nms),实现完全的end-to-end目标检测器。
2.Object relation module
作者的relation module和google的一篇做机器翻译的论文“attention is all your need”思想类似。模块的的应用可以增强fc输出的特征以及做duplicate removal,如下图所示:
这里的relation module是in-place的,也就是说,比如在instance recognition里面,输入的是300个object proposal的特征,经过relation module之后,输出的还是300个对应object proposal的特征,只不过这些特征都融合了其他object proposal的信息。
具体的,假设一个object proposal用他的几何特征
其中m=1:N,相当于就是其他所有的object的特征,通过一个矩阵变化之后的加权平均。这个矩阵是学习得到的。下面具体讲不同object之间的权重是怎么得到的。
权重
分母是对分子的归一化。第m个object对第n个object产生影响的权重是由appearance和geometry共同决定的。
appearance的权重表示为:
式表示分别将下标为m和下标为n的object映射到低维空间(实际操作是降维了),然后通过向量的内积来衡量两个object外观特征的相似性。分母表示降维之后的维度(典型的64维)。
geometry的权重表示为:
其中
上述得到的相对位姿就是平移和尺度不变的了。然后将4维的相对位姿映射到64维的向量,和
上面的
对于目标检测,原来是用第n个object proposal的特征
下图表示上面的操作过程
3.Relation for Instance recognition
原本的RCNN系列的目标检测流程如下所示,从ROI pooling得到的特征经过两个fc之后,进行分类和坐标回归。
引入relation module(RM)之后,instance recognition的流程为:
其中r1和r2分别表示在第一个fc和第二个fc之后连接的RM的数目
整体的instance recognition的示意图如下图(a)所示:
4.Relation for duplicate removal
作者把duplicate removal归结成一个二分类问题,即对于每一个gt box,只有一个detected box是被分成correct,其他的都是分成duplicate。作者的duplicate removal network是接在classifier的输出后面。该模块的输入包括object proposal的score vector(属于各个类别的概率), bbox,以及proposal的特征(典型的1024维)。
对于某一个object proposal的某一个类别,假设属于这个类别的概率为
5.Experiment:
所有的实验都是在COCO上做的。
5.1 Ablation study on relation module structure and parameter
为了验证relation module里面几何特征的重要性,作者设计了两个对比实验
1)none表示直接设置几何特征的权重是1;
2)unary表示直接将相对位姿映射到appearance feature一样的维度,然后和appearance feature相加作为新的appearance feature。
5.2 relation module improve the instance recognition performance
5.3 relation module for duplicate removal
从上图可以看到,不使用rank feature或者直接使用score的值都会使得mAP相比baseline降低很多…作者也没有解释为什么会出现这种现象。
5.4 What is learnt in relation module
作者在论文的最后说,relation module里面到底学习什么不在本文的讨论范围,为了给一个直观的感受,作者将instance recognition里面接在第一个fc后面的relation module学习得到的w拿出来,如上图所示,蓝色框表示reference box,左边的图表示重叠度高的框对蓝色框的贡献都很高,右边表示对手套特征贡献高的包括了人。