Class-Weighted Convolutional Features for Visual Instance Search

Class-Weighted Convolutional Features for Visual Instance Search

 

    文中的主要内容是,从feature map中根据图像目标找到典型**区域。这种方式是基于CAMs的方式。

    在re-ranking阶段使用acms形成region proposal。

使用CAMS 形成语义权重,来进行全集层的特征抽取。

 

文中的主要贡献如下:

  1. 使用卷积的CAMS来确定**区域的特征权重提取特征。
  2. 使用卷积CAMS 应用到re-ranking阶段。

 

Class-Weighted Convolutional Features for Visual Instance Search

 

分类权重卷积特征

 

Class-Weighted Convolutional Features for Visual Instance Search

不同网络获得的特征**。

 

类别**map

 

CAMS表示预测的每个类,模型所关注的的区域展示。

CAMS 则是将分类网络中的全连接层去掉,然后使用全局平均池化代替。然后再链接一个全连接网络。在全局平均池化之前,再添加一个卷积层(CAM layer)。

所以CAMS可以直接提取再没有做任何改变的情况下。

CAM可以认为是feature maps的线性组合,其中权重是线性分类的那个类别的权重。其公式如下

Class-Weighted Convolutional Features for Visual Instance Search

其中convk表示,第k个feature map,  wkc表示c类别中链接第k个feature map的权重。

Cam还能够给出bounding box进行目标定位,给出一个阈值,小于它的给出0值。

 

图像encode

 

分成三个部分

  1. 特征和cam抽取。
  2. 特征白化和pooling。
  3. 表达的回归。
  1. 特征和cam抽取

CAM 提取后需要进标准化到[0, 1]。并且resize 成需要提取的卷积的大小。

 

  1. 特征白化和pooling

使用sum-pooling然后再进行,pca降维。

 

计算第几个feature map的权重,如下

Class-Weighted Convolutional Features for Visual Instance Search

 

然后得到channel 权重如下

Class-Weighted Convolutional Features for Visual Instance Search

然后就得到了固定长度的向量

Class-Weighted Convolutional Features for Visual Instance Search

Class-Weighted Convolutional Features for Visual Instance Search

然后使用L2正则化,PCA降维,L2正则化。

其中vgg16所选取的层是conv5_1层。