Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

SAM显著性检测模型

本文特点:

1、相比之前做显著性检测的模型,本文最大的特点是采用了neural attentive mechanism

这种机制是什么意思,给出原文的解释(自己不太明白):

Machine attention [16] is a computational paradigm which aims to compute an output as a weighted sum of different parts of the input, by selectively attending to different parts of the input itself via a compatibility function

人眼的选择性注意机制大概是经过类似全局扫描非常快速的决定大概的需要关注的位置之后,依次的看下一个感兴趣的物体,而看的顺序是由重要性决定(可以认为是显著性程度),本文类似引入这种显著性程度引导saliency map的修正。(个人理解)

2、除此之外,人眼观察图像时是有中心偏置的(更倾向于观察图像中心的部分),这在一定程度上是由于收集数据时人眼位于图像正中间的位置,本文显式的学习一种中心偏置,而不是人为提供。且与之前的一篇学习偏置的方法不同(ML-net),两篇论文是同一个作者。

3、在损失函数上做了一定的改进

如下,有一张模型对比图:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

网络细节:

结构图:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

第一部分:attentive model和convLSTM部分

见结构图上左下角那一部分:
X是从卷积网络得到的特征,从图上可以看到深度为512
X’是处理后的输出,和X同样大小
各参数说明如下:

here, the gates It, Ft, Ot, the candidate memory Gt, memory cell Ct, Ct−1, and hidden state Ht, Ht−1 are 3-d tensors, each of them having 512 channels. represents the convolutional operator, all W and U are 2-d convolutional kernels, and all b are learned biases.

思路:

通过利用LSTM修正显著性图,(attentive convolutional lstm ),lstm在这里起的是一个迭代的作用,而attentive model部分起的是引导作用。

LSTM部分:

值得注意的是,相比之前一篇博客 中介绍的论文使用LSTM处理类似时序信号得到global context和scene context,这篇文章不是这样处理,这篇文章直接处理特征图像(三维特征图),为了使得lstm能够处理空间信号(从lstm原始公式上看,一般是处理类似时序的一维向量的信号),为了使lstm能处理空间信号,将内部表达式按元素操作的部分改成了卷积,其余均不变,公式如下,并且现在没有时序的特征图输入,通过迭代的方式反复更新输出,起到refine的作用:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

attentive model部分:

如何引导更新,即结构图左下角上面的一部分:
这一部分对应的公式如下:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

不明白公式什么的为什么要这么做,只知道大概思路是学到一个二维(和feature map同样尺寸但深度为1)的attentive map表示类似注意力的相对重要性,然后通过点乘的方式融合到新的feature map中去,使其再更新(通过迭代的方式更新。)

这里有一个效果图:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

通过迭代更新产生的saliency map越来越接近ground truth.

中心偏置的学习:

本文的思路是学习16个高斯函数(和feature map同样尺寸的二维高斯函数),在通道上组合得到新的特征。做法和deep fix那篇论文差不多,不同的是deep fix是手动给偏置,而本文是通过学习的方式。

特征提取部分:

本文的特征提取采用的网络是vggres-net(vgg已经被很多论文证实在显著性方面效果良好,res-net使用的还不多,可能是考虑到网络的复杂性,担心过拟合的问题)
值得注意的是本文同样采取了空洞卷积的策略,并且经实验证明这样的策略对结果的影响很大(感觉进一步说明了context的重要性),之前有提到过,使用空洞卷积的目的在于改变网络的部分结构使得空间信息保留的更丰富一些,使得神经元的感受野不会因为结构的改变而变小。
这里仅给出网络结构图,细节不做介绍:下图红色部分代表做了空洞卷积的部分

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

损失函数部分:

本文做的改进是以多任务损失函数的形式组合了三个评估指标,NSS,CC,KL-DIV(如下公式中从左到右,超参数分别是-1、-2、10)

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

实验结果:

* 平均意义上讲,本文提出的loss更好
* 本文提出的各策略之间的比较:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

五种模型依次是普通cnn、空洞cnn、空洞cnn+attentive lstm、空洞cnn+学习中心偏置、最终模型。
可以看出,空洞卷积的影响是最大的,尽管这不是这篇文章的重点,attentive lstm策略和prior能带来改善。

* 中心偏置策略比较:

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
其实就是比较作者自己的两个模型的prior学习策略(也只有这两个模型是通过学习的方式得到的),本文的方法更好。

* 各模型之间评估指标对比:

基本上该模型都是前列的位置,尤其是该模型获得2017的lsun冠军(salicon数据集),在cat2000数据集上也是最好的,在mit300数据集上也几乎是最好的(结果在论文上有,就不粘了)。