Learning Region Features for Object Detection

图像特征提取,候选区域生成,候选区域特征提取(roi pooling),区域识别,去重

fm x: Cf, H, W
RoI b
y(b) = RegionFeat(x, b)
y(b): K, Cf. K比如是bin的数目
y_k(b): 第k个bin内的特征

一般表述:
将y_k(b)的支持区域由roi pooling的一个bin内部扩展到整个fm x。权重依赖于位置p,fm x和roi b。
权重计算如下:
Learning Region Features for Object Detection

引用原文: building connections between 4D bounding box coordinates and 2D image positions in our problem (是一种注意力,后续再深入这一点)

如图:
Learning Region Features for Object Detection

不同的k之间的差别: 只有使用的W不同?

支持域由roi范围扩大到整个fm,可以通过稀疏采样降低计算量,RoI内部密集一些,外部稀疏一些。

What is learnt?这部分十分有趣,感觉不同的k学到的东西和深度学习的分布式表示特性有关。

提升的原因是引入了更大的context吗

https://www.zhihu.com/question/269181732