Image Captioning with Semantic Attention

摘要

自动生成图像的自然语言描述水冲浪者最近引起了人们的兴趣,这不仅是因为冲浪者在实际应用中的重要性,而且因为它连接了两个主要的人工智能领域:计算机视觉和自然语言处理。现有的方法要么是自上而下的,即从图像的要点开始,然后将其转换为单词,要么是自下而上的,即提出描述图像各个方面的单词,然后将它们组合在一起。在本文中,我们提出了一种通过语义注意模型将两种方法结合在一起的新算法。我们的算法学习选择性地注意语义概念建议,并将其融合到隐藏状态和递归神经网络的输出中。选择和融合形成连接自上而下和自下而上计算的反馈。我们根据两个公开的基准评估我们的算法:Microsoft COCO和Flickr30K。实验结果表明,在不同的评估指标上,我们的算法明显优于最新方法。

介绍

Image Captioning with Semantic Attention
Top:拟议框架的概述。给定图像,我们使用卷积神经网络提取自上而下的视觉特征,并同时检测视觉概念(区域,对象,属性等)。我们采用语义注意力模型将视觉特征与视觉概念结合在生成图像标题的最新神经网络中。Bottom:我们展示了相对于递归神经网络迭代,几个候选概念的注意权重的变化。

现有的图像字幕方法有两种一般的范例:自顶向下和自底向上。自上而下的范例从图像的“要点”开始并将其转换为单词,而自下而上的范例首先提出描述图像各个方面的单词,然后将它们组合起来。在两种范式中都使用语言模型来形成连贯的句子。现有技术是自上而下的范例,其中基于递归神经网络从图像到句子都有端到端的表述,并且可以从训练数据中学习递归网络的所有参数。自上而下的范例的局限性之一是很难关注细节,这对于描述图像可能很重要。自下而上的方法没有问题,因为它们可以在任何图像分辨率下*操作。但是,它们还遭受其他问题的困扰,例如缺少从各个方面到句子的过程的端到端表述。

人们不会在图像中描述所有内容。相反,他们倾向于谈论图像中语义上更重要的区域和对象。

在本文中,我们提出了一种新的图像字幕方法,该方法通过语义注意模型将自上而下和自下而上的方法结合在一起。通过上图以获得我们算法的概述。我们在图像字幕中对语义注意的定义是能够提供对语义重要对象的详细,连贯的描述,这些语义重要对象在需要时准确地需要它们。特别地,我们的语义注意力模型具有以下属性:

  1. 能够关注图像中语义上重要的概念或关注区域;
  2. 能够加权对多个概念的关注的相对强度
  3. 能够根据任务状态动态切换概念之间的注意力。

具体来说,我们使用自下而上的方法将语义概念或属性检测为注意力的候选者,并采用自上而下的视觉功能来指导应在何时何地**注意力。我们的模型建立在递归神经网络(RNN)的基础上,递归神经网络的初始状态从自上而下的功能捕获全局信息。随着RNN状态的转变,它通过在网络状态和输出节点上强制实施的关注机制,从下至上获取属性的反馈和交互。这种反馈使算法不仅可以更准确地预测新单词,而且还可以更可靠地推断现有预测和图像内容之间的语义鸿沟

我们的工作与其他注意力用于图像字幕[37]有几个重要区别。首先,在[37]中,注意力以固定的分辨率在空间上建模。在每次循环迭代中,该算法都会计算一组与预定义空间位置相对应的注意力权重。相反,我们可以在任何位置以任何分辨率使用图像中的概念。实际上,我们甚至可以使用在图像中没有直接视觉效果的概念。其次,在我们的工作中,存在一个反馈过程,该过程将自上而下的信息(全局视觉功能)与自下而上的概念结合在一起,这在[37]中不存在。第三,在[37]中,在特定的空间位置使用预训练特征。相反,我们使用与检测到的视觉概念相对应的单词特征。这样,我们可以利用外部图像数据训练视觉概念,并利用外部文本数据学习单词之间的语义。