论文阅读:Deep Filter Banks for Texture Recognition and Segmentation

论文阅读:Deep Filter Banks for Texture Recognition and Segmentation
论文阅读:Deep Filter Banks for Texture Recognition and Segmentation


2015年的CVPR,深度卷积特征+Fisher Vector的方法在纹理数据库上得到了比较优秀的performance

Motivation:
作者认为,对于纹理特征来说,使用全连接层的特征有一下三个问题:

  1. 卷积层的特征更像一个非线性的滤波器,而全连接层能够扑捉到空间的信息,但这对纹理的表示没有用的
  2. 输入层必须固定尺寸以适应全连接层的大小,这需要大量的计算
  3. 浅层具有更好的传递性

Contributions:

  1. 在Open Surfaces(OS)数据库的基础上又构建了一个新的数据库OSA
  2. 作者将CNN中的卷积层看做为一个filter bank, 然后利用FV做pooling,这种方法在bag-of-words中经常使用。

Experiment:

  1. dataset:
    纹理识别: FMD, DTD, KTH-TIPS-2b
    目标识别:PASCLA VOC 2007
    场景识别:MIT Indoor
    细粒度数据集:Caltech/UCSD Bird
  2. model:在提取特征阶段,他们使用了两个网络——VGG-M和VGG-VD(very deep with 19 layers)
  3. performance :

论文阅读:Deep Filter Banks for Texture Recognition and Segmentation
4. 在VGG-M model中,随着卷积层的变化,结果的变化情况
论文阅读:Deep Filter Banks for Texture Recognition and Segmentation

最后,论文中有一些地方说的很不明白,希望以后会看到相关的解释,再回来更新博客:
1. 前面明明说的使用卷积层来做baseline的特征,可是后面的结果又全都是全连接的特征来做FV pooling的,既然show出来的是FC+FV的结果是最好的,那么卷积层的特征又是怎么一回事?
2. Table 1里的SoA是什么方法?
3. Table 1中倒数第二列是如何做的?