手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

摘要

文中提出了一种新的FG-SBIR(Fine-Grained Sketch-Based Image Retrieval)模型,虽然其本质上是一个常用的多分枝深度结构,不过相比于其它模型,其有以下特点:

1)在每一个深度神经网络上都添加了注意力模块,因此使其对特征的学习可以更多的关注到显著性区域。

2)通过对一个特征融合的方式将粗糙和细致的语义信息进行了融合。

3)引入了一个基于高阶可学习的能量损失(距离)函数,建立了两个模态特征之间的关联关系,使其对不同模态未对齐的特征具有更好的鲁棒性。

关于attention

Sotf attention 因为可微分、可参与端到端的训练因此使用比较广泛。而hard  attention由于不可微分,因此常通过强化学习的方式进行学习。在本文中,采用了soft attention模型。当给一个从CNN任意一层计算得到的feature map, soft attention模型将会将该feature map作为输入并生成一个attention mask。之后,利用该mask对输入的feature map进行权重计算从而生成一个attended feature map以传入网络的下一层。如下图所示,文中的attention模块加到了最后一层卷积层的后边。

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval表示feature map f在空间(i,j)上的值,其相应的attention得分手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval和最终的mask α可由以下两个公式得到:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

其中 手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval是通过attention module学习得到的mapping function, 手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval是attention module的权重。文中attention module包含两个卷基层。

Attended feature map:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

 不过,由于特征与图像之间的空间不齐问题会导致上式得到的attended map一方面容易受到噪声影响,另一方面也会丢失原始feature map上的一些重要信息,因此最终的attended feature map通过下式获取:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

Coarse-fine 特征融合

尽管由attention module得到的attended feature对空间及细节比较敏感,但是在通过全连接层后很大程度上会丢失这些细节。为了解决该细节丢失的问题,文中对attented feature map和全连接层输出的特征进行了融合。融合的方式为简单的拼接(concatenation operation),在拼接前对attended feature map利用全局average pooling进行了降维操作。

高阶损失函数(HOLEF, higher-order learnable energy function)

一阶损失函数的不足

常用的triplet loss形式如下所示:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

当其中的距离函数D()是一阶函数时,比如欧式距离,其关注点仅仅是两个向量对应点之间的减法,而无法考虑非对应点之间的关系,因此无法体现cross-channel之间的关系。为了克服一阶距离的缺陷,文中借助outer subtraction引入了二阶距离函数。outer subtraction 的形式如下:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

考虑到并不是所有outer subtraction得到的项都是有价值的,文中引入了权重因子,并最终得到了二阶距离函数:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

由此设计的triplet loss:

手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval