Class-Weighted Convolutional Features for Visual Instance Search

Class-Weighted Convolutional Features for Visual Instance Search

文中的主要内容是，从feature map中根据图像目标找到典型**区域。这种方式是基于CAMs的方式。

在re-ranking阶段使用acms形成region proposal。

使用CAMS 形成语义权重，来进行全集层的特征抽取。

文中的主要贡献如下：

Class-Weighted Convolutional Features for Visual Instance Search

分类权重卷积特征

Class-Weighted Convolutional Features for Visual Instance Search

不同网络获得的特征**。

类别**map

CAMS表示预测的每个类，模型所关注的的区域展示。

CAMS 则是将分类网络中的全连接层去掉，然后使用全局平均池化代替。然后再链接一个全连接网络。在全局平均池化之前，再添加一个卷积层（CAM layer）。

所以CAMS可以直接提取再没有做任何改变的情况下。

CAM可以认为是feature maps的线性组合，其中权重是线性分类的那个类别的权重。其公式如下

Class-Weighted Convolutional Features for Visual Instance Search

其中convk表示，第k个feature map, wkc表示c类别中链接第k个feature map的权重。

Cam还能够给出bounding box进行目标定位，给出一个阈值，小于它的给出0值。

图像encode

分成三个部分

CAM 提取后需要进标准化到[0, 1]。并且resize 成需要提取的卷积的大小。

使用sum-pooling然后再进行，pca降维。

计算第几个feature map的权重，如下

Class-Weighted Convolutional Features for Visual Instance Search

然后得到channel 权重如下

Class-Weighted Convolutional Features for Visual Instance Search

然后就得到了固定长度的向量

Class-Weighted Convolutional Features for Visual Instance Search

然后使用L2正则化，PCA降维，L2正则化。

其中vgg16所选取的层是conv5_1层。