论文-《MUREL: Multimodal Relational Reasoning for Visual Question Answering Remi》重点翻译+扩展
Multimodal attentional networks are currently state-of-the-art models for Visual Question Answering (VQA) tasks involving real images.
多模态注意力网络是目前最先进的涉及真实图像的VQA任务模型。
In this paper, we propose MuRel, a multimodal relational network which is learned end-to-end to reason over real images.
在这篇文章中,我们提出了MuRel,一个多模态关系网络,这个网络采用端到端学习的方式对整个真实图像进行推理。
Since the success of Convolutional Neural Networks(ConvNets) at the ILSVRC 2012 challenge [29], Deep Learning has become the baseline approach for any computer vision problem.
自从卷积神经网络在ILSVRC 2012年挑战赛上取得成功以来,深度学习就成为任何计算机视觉问题的基本方法。
注释:
- 自2010年以来,每年度ImageNet大规模视觉识别挑战赛(ILSVRC),研究团队在给定的数据集上评估其算法,并在几项视觉识别任务中争夺更高的准确性。其中2012年的挑战赛上,Alex Krizhevsky等人创造了一个“大型的深度卷积神经网络”,也就是现在众所周知的AlexNet,赢得了当年的ILSVRC,这是史上第一次有模型在ImageNet数据集表现如此出色。目前,ILSVRC挑战赛已于2017年结束。
- ImageNet图像数据集始于2009年,当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,其中该图像数据集超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象。
However, it is not straightforward to use ConvNets in a context where a high level of reasoning is required.
然后,在要求使用高级推理的上下文中使用卷积神经网络并不简单。
To fill this need, synthetic datasets have been released, e.g. CLEVR [21], which specific structure controls the exact reasoning primitives required to give the answer [22].
为了满足这一需求,合成数据集被发布,例如CLEVR ,它的特定控制结构控制给出答案所需要的精确推理原语。
注释:
CLEVR数据集为合成数据集,是做VQA视觉推理常用的数据集,由一些简单的几何形状构成的视觉场景。数据集中的问题总是需要一长串的推理过程,为了对推理能力进行详细评估,所有问题分为了5类:属性查询(querying attribute),属性比较(comparing attributes),存在性(existence),计数(counting),整数比较(integer comparison)。所有的问题都是程序生成的。该数据集的人为标注数据子集为CLEVR-Humans。
However, methods that tackle the VQA problem on real data struggle to integrate this explicit reasoning procedure.
然而,在真是数据集处理VQA问题的方法很难集成这个显示的推理过程。
Our first contribution is to introduce the MuRel cell, an atomic reasoning primitive enabling to represent rich interactions between question and image regions. It is based on a vectorial representation that explicitly models relations between regions.
我们第一个贡献是引入MuRel 单元,这是一个自动推理原语,能够表示问题和图像区域之间丰富的交互信息,它基于一个向量表示,能对区域之间的关系进行建模。
Our second contribution is to embed this MuRel cell into an iterative reasoning process, which progressively refines the internal network representation to answer the question.
我们第二个贡献是将MuRel单元嵌入到迭代推理过程中去,它能够逐渐的对内部网络表示进行精化来回答问题。
The visual reasoning of our MuRel system is formed by this multi-step relational module that discards useless information to focus on the relevant regions.
我们的MuRel系统的视觉推理是由多步关系模块构成,该模块抛弃了无用的信息并且聚焦于相关区域。
In particular, explicit reasoning techniques have been developed relying on synthetic datasets [21, 41]. Meanwhile, real-data VQA systems are the test bed for more practical approaches based on high quality visual representations or multimodal fusion schemes.
特别是依赖于合成数据集的显示推理方法。同时,真实数据集VQA系统也成了基于高质量视觉表示或者多模态融合方案最使用方法的试验台。
In such methods [22, 19, 34], a neural network reads the question and generates a program, corresponding to a graph of elementary neural operations that process the image.
在这种方法中,一个神经网络读取问题并且生成一个程序,该程序与处理图像的基本神经操作图相对应。
However, there are two major downsides to these techniques. First, their performance strongly depends on whether or not program annotations are used to learn the program generator; and second, they can be matched or surpassed by simpler models that implicitly learn to reason without requiring program annotation.
然而,这些技术有两个主要的缺点。首先,它们的性能很大程度上依赖于是否使用程序注释学习程序生成器;其次,它们能够被更简单的模型比上或超过,这些模型可以隐式地学习推理而不需要使用程序注释。
In particular, FiLM [37] modulates the visual feature map with an affine transformation whose parameters depend on the question.
特别是,FiLM使用仿射变换调节视觉特征图,仿射变换的参数取决于问题。
注释:
做VQA的视觉推理最常用的数据集是CLEVR,FiLM为处理CLEVR数据集较好的模型。
仿射变换,又称仿射映射,是指在几何中,一个向量空间进行缩放(Scale)、平移(transform)、旋转(rotate)、反射(reflection, 对图形照镜子)、错切(shear mapping),变换为另一个向量空间。如下图:
仿射变换中集合中的一些性质保持不变:
(1)凸性
(2)共线性:若几个点变换前在一条线上,则仿射变换后仍然在一条线上
(3)平行性:若两条线变换前平行,则变换后仍然平行
(4)共线比例不变性:变换前一条线上两条线段的比例,在变换后比例仍然步
In more recent work, the MAC network [20] draws inspiration from the Model-View-Controller paradigm to design the trainable MAC cell on which the network iterates.
在更多最近工作中,MAC网络从模型-试图-控制器中典范中获得灵感,涉及了可以在迭代网络中进行训练的MAC单元。
注释:
1.除了FiLM,MAC网络也是处理CLEVR数据集较好的模型。MAC 网络是一个端到端可微架构,旨在实现明确的多阶段推理论证过程,由一个输入神经元,核心的循环网络(由 p 个 MAC 神经元组成)以及一个输出神经元组成。(1)输入神经元将原始图像和问题转化为分布式向量表征。(2)核心的循环神经网络将问题分解为一系列运算(也叫控制),它们可以从图像(知识库)中检索信息,并将结果聚合为循环记忆。通过这些运算,网络按照序列推理问题。(3)输出分类器使用问题和最终记忆状态,计算得出最终答案。
2.MAC网络连接了 p 个循环 MAC 神经元,其中每个负责一步推理步骤。MAC 神经元包含一个控制元、一个读取元和一个写出元,执行双重控制和记忆隐藏状态。控制元连续参与到任务描述(问题)的不同方面,更新控制状态,并在每一个时间步长中表征神经元实现的推理操作。在控制元的引导下,读取元从知识库(图像)中提取出信息。写出元整合检索得到的信息,并记入记忆状态,产生根据当前推理运算得出的新的中间结果。
3.MVC全名是Model View Controller,是模型(model)-视图(view)-控制器(controller)的缩写,一种软件设计典范,用一种业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。MVC被独特的发展起来用于映射传统的输入、处理和输出功能在一个逻辑的图形化用户界面的结构中。
Among these multimodal fusion algorithms, the most effective ones use second order (or higher [45]) interactions, made tractable through sketching methods [16], or with more success using the tensor decomposition framework.
在这些多模态融合算法中,最有效的一个是使用二阶(或者更高阶)的交互作用,通过描绘方法使其易于处理,或者更成功地利用张量分解框架。
注释:
一般一维数组,我们称之为向量(vector),二维数组,我们称之为矩阵(matrix);三维数组以及多位数组,我们称之为张量(tensor)。 张量分解(tensor decomposition)主要包括CP分解和Tucker分解。
CP分解:
Tucker分解(CP分解是Tucker分解的一种特殊形式:如果核心张量是对角的,且P=Q=R,则Tucker分解就退化成了CP分解。):
In this work, we move away from the classical attention framework widely used in real-data VQA systems. Instead, we use a vectorial representation, more expressive than scalar attention maps, to model the semantic interaction between each region’s visual content and the question.
在这项工作中,我们去掉了在VQA系统真实数据集中广泛应用的传统注意力框架,相反,我们使用了一个向量表示,与标量注意力图像相比,该方法具有更强的表达能力,可以对每个区域的视觉内容和问题的语义交互进行建模。
Our MuRel network embodies an iterative process with inspiration from works driven by the synthetic reasoning CLEVR dataset, e.g., MAC [20] or FiLM [37], which we adapt to the real data VQA purpose.
我们的MuRel体现了一个迭代过程,灵感来源于对合成推理数据集CLEVR驱动的工作,例如MAC或者FiLM,我们适应于真实数据集VQA目的。
In particular, we improve the interactions between image regions and questions by using richer bilinear fusion models and by explicitly incorporating relations between regions.
尤其是,我们通过使用丰富的双线性混合模型和明确的合并区域间的关系来提高图像区域和问题之间的交互。
In Section 3.1, we present the MuRel cell, a neural module that learns to perform elementary reasoning operations by blending question information into the set of spatially grounded visual representations.
在3.1节,我们介绍了MuRel单元,这是一个神经模型,它通过将问题信息混合到一组基于空间的视觉表示中来学习执行基本的推理操作。
Next, in Section 3.2, we leverage the power of this cell using the MuRel network, a VQA architecture that iterates through a MuRel cell to reason about the scene with respect to a question.
接下来,在3.2节中,我们使用MuRel网络来利用这个单元的能力,这是一个VQA体系结构,它能遍历所有的MuRel单元来推理和问题相关的场景。
In classical attention models, the fusion between image region and question features s and q only learns to encode whether a region is relevant. In the MuRel cell, the local multimodal information is represented within a richer vectorial form mi which can encode more complex correlations between both modalities.
在经典的注意力模型中,图像区域与问题特征s和q的融合只学习对一个区域是否相关进行编码,在MuRel单元中,局部多模态信息以更丰富的形式mi进行表示,它可以对模态间更复杂的联系进行编码。
Interestingly, our model surpasses both MUTAN [8] and MLB [25], which correspond to some of the latest development in visual attention and bilinear models. This tends to indicate that VQA models can benefit from retaining local information in mulitmodal vectors instead of scalar coefficients.
有趣的是,我们的模型超过了MUTAN和MLB,这与视觉注意力和双线性模型的一些最新发展一致。这表明VQA模型可以从多模态向量而不是标量系数中保留的局部信息中获益。
注释:
1.Multi-modal Low-rank Bilinear (MLB)基于两个特征向量的Hadamard product。优点:输出低维特征,参数少。缺点:对于超参数敏感 ,收敛速度慢。
2.MUTAN:借助于Tucker decomposition
This property of VQA-CP v2 implies that the pairwise iterative structure of MuRel is less prone to question-based overfitting than classical attention architectures.
VQA-CP v2这一特性意味着MuRel的成对迭代结构比传统注意力体系结构更不易出现基于问题的过拟合。