Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介

本篇文章介绍的VQAv2是人工标注的开放式问答数据集,通过收集互补的图像来平衡目前的VQA数据集,针对视觉问题回答(VQA)任务的语言偏见,使视觉(VQA中的V)变得重要,相较于VQAv1尽量减少了语言偏见(为每个问题补充了图片)。
同时,本文提出一个新的用于识别互补图像的数据收集模型,该模型除了为给定的(图像、问题)对提供答案外,还提供基于反例的解释。具体来说,它识别出与原始图像相似的图像,但它认为对同一个问题有不同的答案。这有助于在用户之间建立对机器的信任。
一、文章引入
先前的相关文章中提出,在VQA数据集中存在一种特殊的“视觉启动偏差”,比如当实验人员在查看图像时看到了图片上的钟楼,那么人们只会问:“画中有钟楼吗?”。这里作者提出了一个特别反常的例子——对于VQA数据集中以“Do you see a…”开头的问题,盲目地回答“是”而不阅读问题的其余部分或查看相关的图像结果的VQA准确度为87%。
本文提出了应对这些语言偏见的方法,并提升了图像理解在VQA中的作用。为了实现这一目标,本文收集了一个平衡的VQA数据集,该数据集显着减少了语言偏见。具体来说,通过给定VQA数据集中的(图像,问题,答案)三元组(I,Q,A),要求人类对象识别与I类似的图像I’,但导致问题Q的答案变为A’(与A不同)。下图显示了来自平衡数据集的示例。
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介
作者的假设是,这个平衡的数据集将迫使VQA模型专注于视觉信息。 毕竟,当一个问题Q对于两个不同的图像(分别为I和I’)具有两个不同的答案(分别为A和A’)时,知道正确答案的唯一方法是查看图像。而纯语言模型根本没有区分这两种情况(Q,I)和(Q,I’)的依据。
二、VAQv2 dataset
作者克服语言偏见的关键思想是:对于VQA数据集中的每个(图像,问题,答案)三元组(I,Q,A),目标是识别与I类似的图像I’,但结果在问题Q的答案中变为A’(与A不同)。文中构建了一个注释界面(如下图所示),以在Amazon Mechanical Turk(AMT)上收集此类补充图像。向AMT工作人员显示了24张针对图像I的问题Q和答案A的最邻近图像,并要求他们从24张图像中选择一张图像I’,对于这些图像,Q是“有意义的”,而Q的答案不是A。
收集完互补图像后,进行第二轮数据注释以收集有关这些新图像的答案。具体来说,向10名新AMT工作人员显示带有问题Q的选择图像I’,并收集10个ground truth答案,10个答案中最常见的答案就是新答案A’。
这个两阶段的数据收集过程最终会导致成对的互补图像I和I’在语义上相似,但是对同一问题Q分别具有不同的答案A和A’。由于I和I’在语义上相似,因此VQA模型必须理解 I和I’之间的细微差别来为两个图像提供正确的答案。
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介
在不平衡/平衡的VQA数据集上进行训练/测试时VQA模型的性能。UB代表在不平衡数据集上训练在平衡数据集上测试。UU、BhalfB和BB的定义类似。
三、Counter-example Explanations
作者提出了一种新的解释方式:反例。 提出一个模型,该模型在被问到有关图像的问题时,不仅提供答案,而且还提供与输入图像相似的示例图像,但模型认为输入问题的答案不同,这将使用户相信模型确实可以“理解”所询问的概念。 例如,有一个问题“消火栓是什么颜色?” 如果VQA模型除了说“红色”之外还添加“不像这样”,并且显示一个示例图像,其中包含非红色的消火栓,则VQA模型可能被认为更值得信赖。
3.1 model
具体而言,在测试时,我们的“否定解释”或“反例解释”模型分两个步骤运行。 第一步,类似于常规的VQA模型,它以(图像,问题)对(Q,I)作为输入并预测答案Apred。 在第二步中,它将预测的答案Apred与问题Q一起使用,以检索与I类似但与问题Q的Apred具有不同答案的图像。为了确保相似性,模型选择了K个最邻近图像中的一个 I(INN = {I1,I2,…,IK})作为反例。
如何找到这些“负面解释”? 从INN中选择反例的一种方法是遵循计算机视觉中流行的经典“硬否定挖掘”策略。具体来说,只需选择具有最低P(A~~pred | Q,Ii)的图像,其中i∈1,2,…,K,将其与强基线进行比较。尽管这确保了P(Apred | Q,Ii)对于Ii而言很低,但并不能确保Q对于Ii是“有意义的”。 因此,当试图对“ Q:女人在做什么? 答:打网球”,如果目标是让用户相信模型已经理解了问题,那么这种“强否定挖掘”策略可能会在没有女性的情况下选择图像,这会向用户显示一个令人困惑且无意义的解释。
取而代之的是,我们利用平衡的数据收集机制直接进行培训,以识别出良好的反例。 注意,根据定义,人类选择的I’是一个很好的反例。 Q与I’相关(因为要求工人确认是否为真),I’的答案A’与A(原始答案)不同,并且I’与I相似。因此,我们监督了训练数据,其中I’是反指标, 问题IN和答案A的示例来自INN(K = 24)。我们训练了一个模型,该模型将从该监督数据中学习提供否定或反示例说明。
总而言之,在测试期间,模型做了两件事:首先,它回答了问题(类似于常规的VQA模型),其次,它通过一个反例解释了它的答案。 第一步,输入图像I和问题Q,并输出预测的答案Apred。 对于第二步(解释性步骤),输入问题Q、待解释的答案A和模型必须从中识别反例的一组INN。 在训练时,模型会得到图像I、问题Q和相应的ground truth A以学习回答问题。 同时给出了Q,A,I’(人工挑选),INN(I’∈INN)学习解释。
本文模型架构在一个共享的基础“主干”上包含两个头——一个用于回答问题,另一个用于提供解释。具体来说,模型由三个主要部分组成:
**1)Shared base:**模型的第一部分是学习图像和问题的表示。 它是一个2通道网络,将一个图像CNN嵌入作为一个分支中的输入,问题LSTM嵌入作为另一个分支中的输入,并通过逐点乘法来组合这两个嵌入以获得联合的QI嵌入。 第二和第三部分(应答模型和解释模型)以联合QI嵌入作为输入,因此可以被视为第一共享部分的两个头。 总共25张图像——原始图像I和24个候选图像{I1,I2,…,I24}通过网络的这个共享组件传递。
**2)Answering head:**第二部分是学会回答问题。它由一个完全连通的层组成,该层被送入一个softmax中,softmax可以预测给定QI嵌入的答案的概率分布。仅对应于原始图像I的QI嵌入被传递到这个该分量,并且导致交叉熵损失。
3)Explaining head:
第三个组成部分是学习通过反示例图片解释答案A。这是一个2通道网络,它将联合QI嵌入(从第一个组件输出)和待解释的A(作为输入提供)线性转换为公共嵌入空间。它计算这2个嵌入的内积,得出INN中每个图像的标量数(也作为输入提供,将从中选择反例)。然后,将K个候选图像的这K个内积值通过一个全连接层以生成K个分数S(Ii),其中i∈{1,2,…,K}。然后根据这些得分S(Ii)将K个候选图像{I1,I2,…,IK}分类为最有可能或最不可能成为好的反例或否定解释。
四、Result
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介
由本文模型生成的三个反例或负面解释(右三列),以及输入图像(左)、输入问题Q和预测答案A。
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介
与强基线相比,本文模型具有负的或反例的解释性能。
五、主要成果
(1)通过收集互补图像来平衡现有VQA数据集,这样平衡数据集中的几乎每个问题都不仅与单个图像相关,而且与一对相似的图像相关联,对这个问题有两种不同的答案。结果是得到了更加均衡的VQA数据集,其大小大约也是原始数据集的两倍。
(2)评估了平衡数据集上最新的VQA模型,并显示了在现有的“非平衡” VQA数据集上训练的模型在新的平衡数据集上的表现不佳。这一发现证实了作者的假设,即这些模型一直在利用现有VQA数据集中的语言先验来获得更高的准确性。
(3)最后,开发一个新颖的可解释模型,该模型除了回答有关图像的问题外,还提供了基于反例的解释——它检索它认为与原始图像相似但对该问题有不同答案的图像。这样的解释可以帮助在他们的用户之间建立对机器的信任。