图像和语言的顺序嵌入

上位性，文本含义和图像标题可以看作是单词，句子和图像上单个视觉语义层次的特殊情况。在本文中，我们提倡对这种层次结构的偏序结构进行显式建模。> 为了实现这一目标，我们介绍了一种学习有序表示的通用方法，并展示了如何将其应用于涉及图像和语言的各种任务。> 我们表明，所得到的表示形式相对于上调预测和图像标题检索的当前方法提高了性能。

1引言

计算机视觉和自然语言处理越来越紧密地交织在一起。视觉方面的最新工作已经超越了对固定对象类别的区分，而是自动生成了图像的开放式语言描述（Vinyals等，2015）。 Young语言等自然语言处理的最新方法。（2014）通过在视觉世界中扎根语言来学习语言的语义。展望未来，自治的人工代理将需要共同为视觉和语言建模，以解析视觉世界并与人交流。

但是，确切地说，图像与我们用来描述它们的单词或标题之间的关系是什么？这类似于单词之间的上位关系，以及短语之间的文字蕴含：字幕只是图像的抽象。实际上，所有这三种关系都可以看作是图像和语言上部分顺序的特殊情况，如图1所示，我们将其称为视觉语义层次。作为部分顺序，这种关系是传递的：“女人walking狗”，“女人walking”，“人走路”，“人”和“实体”都是最右边图像的有效抽象。我们在这项工作中的目标是学习尊重这种偏序结构的表示形式。
Order-Embeddings of Images and Language

用于建模上位，包含和图像标题关系的最新方法涉及学习分布式表示或嵌入。这是一种非常强大且通用的方法，可以将感兴趣的对象（单词，短语，图像）映射到高维向量空间中的点。一项工作，以Chopra等人为例。（2005年），并首次应用于Socher等人的字幕-图像关系。（2014），要求映射必须保持距离：语义相似的对象映射到嵌入空间中附近的点。通常使用对称距离度量，例如欧几里得距离或余弦距离。由于视觉语义层次结构是反对称关系，因此我们希望这种方法会引入系统模型误差。

其他方法没有这样的显式约束，它们学习感兴趣的对象（例如，对象）之间的或多或少的一般二进制关系。 Bordes等。（2011）； Socher等。（2013）； Ma等。（2015）。值得注意的是，没有现有方法直接强加部分顺序的可传递性和反对称性，而使模型可以从数据中得出这些特性。

相比之下，我们提出通过学习映射来开发视觉语义层次结构的部分顺序结构，该映射不是保留距离，而是在嵌入空间上保留视觉语义层次结构与部分顺序之间的顺序。我们将以这种方式学习的嵌入称为顺序嵌入。只需将它们的比较操作替换为我们的方法，就可以将这种想法整合到现有的关系学习方法中。通过以这种方式修改现有方法，我们发现顺序嵌入相对于用于高位预测和字幕图像检索的最新技术提供了显着的改进，并为自然语言推理提供了近乎最新的性能。

此篇文章的结构如下。我们在第2节中开始对任务进行统一的数学处理，并描述学习订单嵌入的一般方法。在接下来的三个部分中，我们详细描述了我们要解决的任务，如何将订单嵌入概念应用于每个任务以及获得的结果。任务是上位词预测（第3节），字幕图像检索（第4节）和文本修饰（第5节）。

在补充材料中，我们可视化了在我们学习的图像和语言嵌入中出现的新颖向量规则。

2学习顺序嵌入

为了统一我们对各种任务的处理，我们引入了部分订单完成的问题。在部分订单完成中，我们给出了从部分有序集（X，X）中抽出的一组有序对的正例P = {（（u，v）}}，以及一组已知的负例N 无序的。我们的目标是预测是否存在不可见对（u，v）。请注意，上位词预测，标题图像检索和文本包含都是该任务的特例，因为它们都涉及在（部分排序的）视觉语义层次结构中对概念对进行分类。

我们通过学习从X到部分有序嵌入空间（Y，Y）的映射来解决此问题。这个想法是根据嵌入空间中X的看不见对的顺序来预测。仅当映射满足以下关键属性时，才有可能：
定义1.如果对于所有u，v∈X，函数f：（X，X）→（Y，Y）是阶嵌入。
Order-Embeddings of Images and Language
这个定义意味着嵌入空间Y，阶Y和阶嵌入f的每种组合将数据的唯一完成确定为部分阶orderX。在下文中，我们首先考虑Y和Y的选择，然后讨论如何找到合适的f。

2.1 R + N上的冲销产品订单

Y和Y的选择在某种程度上取决于应用程序。为了建模语义层次结构，出于以下考虑，我们的选择范围有所缩小。

人类语言的表达能力大部分来自抽象和合成。对于任何两个概念，例“狗”和“猫”，我们都可以命名为这两个概念的抽象概念，例如“哺乳动物”，以及组成这两个概念的概念，例如“追狗猫” 。因此，为了表示视觉语义层次，我们需要选择一个足以丰富这两个关系的阶orderY。

我们还将自己限制在阶数为ordersY的顶部元素，该元素位于该顺序中的所有其他元素之上。在视觉语义层次中，此元素表示最一般的可能概念。实际上，它为嵌入提供了锚点。

最后，我们选择嵌入空间Y为连续的，以便允许使用基于梯度的方法进行优化。

满足所有这三个属性的自然选择是R + N上的逆产品订单，该订单由每个坐标上总订单的合计来定义：
Order-Embeddings of Images and Language
对于具有非负坐标的所有向量x，y。注意方向的反转：较小的坐标表示部分顺序中的较高位置。然后，原点是订单的顶部元素，代表最一般的概念。

除了将我们的嵌入视为单点x∈R + N，我们还可以将它们视为集合{y：x y}。单词的含义是所有概念的结合，它是一个上位词，句子的含义是所有包含该概念的句子的结合。然后，视觉语义层次可以看作是子集关系的一种特殊情况，Young等人也使用了这种联系。（2014）。

2.2违反订单规定

固定了嵌入空间和顺序之后，我们现在考虑在该空间中找到顺序嵌入的问题。实际上，订单嵌入条件（定义1）过于严格，无法强加为硬约束。相反，我们的目标是找到一种近似的订单嵌入：一种违反订单嵌入条件的映射，该映射被作为软约束施加，并且尽可能少。

更准确地说，我们定义了一种惩罚措施，用于衡量一对点违反产品订单的程度。特别地，我们将R + N中点的有序对（x，y）的惩罚定义为
Order-Embeddings of Images and Language
至关重要的是，根据求逆的产品顺序，E（x，y）= 0⇐⇒x y；如果不满足顺序，则E（x，y）为正。这有效地强加了关系空间上的先验，从而鼓励了我们所学的关系，以满足传递性和反对称性的偏序性质。这种惩罚是我们方法的关键。在本文的其余部分中，我们将在以前的工作使用对称距离或学习比较运算符的地方使用它。
回想一下，P和N分别是我们的正例和负例。然后，要学习近似的订单嵌入f，我们可以使用最大利润损失，该损失鼓励正样本的罚金为零，而负样本的罚金大于余量： Order-Embeddings of Images and Language
在实践中，通常不会给出负面的例子，在这种情况下，这种损失可以忽略将所有对象映射到同一点的简单解决方案。解决此问题的最佳方法取决于应用程序，因此我们将在接下来的几节中介绍特定于任务的损失变化。

3超级预报

为了测试我们的模型从不完整数据中学习部分订单的能力，我们的首要任务是预测WordNet中的隐含上位词对（Miller，1995）。高位词对是一对概念，其中第一个概念是专业化概念或第二个概念的实例，例如，（女人，人）或（纽约，城市）。我们的设置与以前的工作有很大不同，因为我们仅使用WordNet层次结构作为训练数据。最相似的评估是Baroni等人的评估。（2012），他们以分布语义向量的形式使用外部语言数据。 Bordes等。（2011）和Socher等人（2013）也对WordNet层次结构进行了评估，但他们使用WordNet中的其他关系作为训练数据（在Socher的情况下为外部语言数据）。

另外，后两者仅考虑直接上位词，而不考虑完整的，传递上位词。但是，预测传递式上位关系是一个定义更明确的问题，因为WordNet中的各个上位边缘在所需的抽象度方面差异很大。例如，（人，生物）是直接的上位对，但是从猫到生物需要八个上位边。

3.1损失功能

要将订单嵌入应用于上位，我们遵循Socher等人的设置。（2013年）在学习WordNet中每个概念的N维向量时，但我们用等式中定义的阶数违约罚则代替了它们的神经张量网络。（2）。就像它们一样，我们通过用随机选择的概念替换两个概念之一来破坏每个上位对，然后将这些破坏的对用作训练和评估的否定示例。我们使用它们的最大保证金损失，这对于积极的例子鼓励违反订单的惩罚为零，而对于消极的例子鼓励大于保证金α： Order-Embeddings of Images and Language
其中E是违反我们的命令，而（u，v）是（u，v）的损坏版本。由于我们为每个概念学习了独立的嵌入，因此映射f只是一个查找表。

3.2数据集

WordNet层次结构的可传递闭合为我们在WordNet中的82192个概念之间提供了838073个边。像Bordes等人。（2011），我们随机选择4000条边作为测试分割，另外选择4000条边作为开发集。请注意，大多数测试集边缘可以简单地通过应用传递性来推断，从而为我们提供了强大的基线。

3.3训练细节

我们使用最大余量目标（4）使用余量α= 1，为WordNet中的每个概念学习一个50维非负向量，每批中采样500个真对和500个假上位对。我们使用Adam优化器（Kingma＆Ba，2015）训练30-50个纪元，学习率为0.01，并在验证集中提前停止。在评估过程中，我们在验证集上找到最佳分类阈值，然后将其应用于测试集。

3.4结果

由于我们的设置新颖，因此没有可比较的公开数字。因此，我们将模型的三个变体与两个基线进行比较，结果如表1所示。

传递闭包基线不涉及任何学习；如果它们在训练和验证集中边缘并集的传递闭包中，则将它们归类为正。 word2gauss基准评估了Vilnis＆McCallum（2015）将单词表示为高斯密度而不是嵌入空间中的点的方法。这允许使用KL散度自然表示层次结构。我们使用了50维对角高斯嵌入，在最大余量目标上训练了200个历元，边界为7，由网格搜索1选择。

订单嵌入（对称）是我们的完整模型，但是使用对称余弦距离而不是我们的不对称惩罚。订单嵌入（双线性）用Socher等人（2013）使用的双线性模型代替了我们的惩罚。订单嵌入是我们的完整模型。
Order-Embeddings of Images and Language
只有我们的完整模型才能比传递基线更好，与大多数以前的工作和我们的双线性基线一样，与使用对称相似性或学习一般的二元关系相比，它显示了利用偏序结构的价值。

所得的50维嵌入很难可视化。为了给所学的结构提供一些直觉，图2显示了玩具2D实验的结果。

4字幕图像检索

字幕图像检索任务已成为视觉和语言联合模型的标准评估（Hodosh等，2013； Lin等，2014a）。该任务涉及通过对查询标题的相关性（图像检索）对大型图像数据集进行排名，以及对查询图像的相关性对标题（标题检索）进行排名。给定一组对齐的图像字幕对作为训练数据，然后目标是学习要在测试时使用的字幕图像兼容性评分S（c，i）。

许多现代方法通过嵌入具有内积相似性的公共“视觉语义”空间（Socher等人，2014； Kiros等人，2014）或通过使用规范相关性分析来对称地建立字幕-图像关系的模型。在图像和字幕的分布式表示之间（Klein等，2015）。 Karpathy＆Li（2015）和Plummer等人。（2015年）对图像中的区域与字幕段之间的精细对齐进行建模，它们使用的相似度仍然是对称的。另一种方法是通过以图像为条件的神经语言模型（Vinyals等，2015； Mao等，2015）或使用多模式CNN（Ma等，2015）来学习无约束的二元关系。

与这些工作方式相反，我们建议将标题-图像对视为两级偏序，并在其描述的图像上方添加标题，并让 Order-Embeddings of Images and Language
对于E，我们在等式（2）中定义的违规罚款和fc，fi是将字幕和图像的函数嵌入到R + N中。

4.1损失函数

为了便于比较，我们使用与Socher等人相同的成对排名损失。（2014），Kiros等人（2014）和Karpathy＆Li（2015）曾在此任务上使用-只需用我们的不对称违规罚金替换其对称相似性度量即可。此损失函数鼓励地面实况字幕图像对的S（c，i）比所有其他对的S（c，i）大一些： Order-Embeddings of Images and Language
其中（c，i）是地面真实字幕图像对，c覆盖了没有描述i的字幕，i覆盖了c没有描述的图像。

4.2图像和字幕嵌入

要学习fc和fi，我们使用Kiros等人的方法。（2014），因为我们正在嵌入
R + N，我们通过取嵌入向量的绝对值来约束它们具有非负项。因此，要嵌入图像，我们使用 Order-Embeddings of Images and Language
其中Wi是学习的N×4096矩阵，N是嵌入空间的维数。 CNN（i）与Klein等人使用的图像特征相同。（2015）：我们将图像重新缩放到侧面的最小像素为256像素，我们从角，中心和它们的水平反射中获取224×224作物，并通过Simonyan＆Zisserman（2015）的19层VGG网络运行10种作物（在ImageNet上进行预训练并在训练过程中固定权重），然后对它们的fc7功能进行平均。 Order-Embeddings of Images and Language
为了嵌入字幕，我们使用了具有GRU**的递归神经网络编码器（Cho等，2014），因此fc（c）= | GRU（c）|是处理最后一个单词后隐藏状态的绝对值。

4.3 数据集

我们对Microsoft COCO数据集（Lin等人，2014b）进行了评估，该数据集包含12万多幅图像，每幅图像至少带有五个人工注释的标题。这是迄今为止通常用于字幕图像检索的最大数据集。我们使用Karpathy＆Li（2015）的数据拆分来进行训练（113,287张图像），验证（5000张图像）和测试（5000张图像）。

4.4 训练细节

为了训练模型，我们使用方程式中的标准成对排名目标。（5）。我们对128个随机图像字幕对的微型批次进行采样，并从微型批次中绘制所有对比项，从而为每个字幕提供127个对比图像，为每个图像提供字幕。我们使用Adam优化器以0.001的学习率训练15-30个纪元，并尽早停止验证集。

我们将嵌入空间的尺寸和GRU隐藏状态N设置为1024，将学习单词嵌入的尺寸设置为300，并将余量α设置为0.05。所有这些超参数以及学习率和批量大小均使用验证集进行选择。为了与Kiros等保持一致。（2014年）并为减轻过度拟合，我们将标题和图像嵌入限制为具有单位L2范数。该约束意味着不能用零违规罚分准确地对两分进行排序，但是由于我们使用排名损失，因此只有罚分的相对大小很重要。

4.5结果

给定一个查询标题或图像，我们按惩罚增加的顺序对测试集的所有图像或标题进行排序。我们使用标准排名指标进行评估。我们测量Recall @ K，即GT项是检索到的前K个查询之一的查询百分比；以及中位数和平均排名，它们是GT词在检索顺序中位置的统计数据。 Order-Embeddings of Images and Language
为了便于进行比较并评估模型各部分的贡献，我们评估了订单嵌入的四种变化：订单嵌入是我们如上所述的完整模型。

order-embeddings（反转）会颠倒字幕和图像嵌入在我们的违反顺序惩罚中的顺序-将图像置于字幕上方，以我们的模型学习到的部分顺序。这种看似微小的变化表现得很残酷，这证实了我们先前的观点，即字幕比图像要抽象得多，应将其放在语义层次中较高的位置。

订单嵌入（1-crop）仅使用中心作物来计算图像特征，而不是对10个作物进行平均。

顺序嵌入（symm。）用对称余弦距离代替了我们的不对称代价，并允许嵌入的坐标为负-本质上是复制MNLM，但具有更好的图像特征。在这里，我们发现不同的余量（α= 0.2）效果最佳。

在这四个模型之间，DVSA由于其使用了Krizhevsky等人的较低判别力的CNN，因此其结果与我们的研究无法比拟的唯一工作是DVSA。（2012），但使用20个区域特征而不是单个完整图像特征。

除此限制外，如果仅考虑单个模型，则即使我们控制图像特征，订单嵌入也明显优于最新的图像检索方法。

4.6探索

为什么订单嵌入在如此浅的部分订单上表现良好？为什么它们对图像检索比对字幕检索更有用？从直觉上讲，当图像的字幕的细节级别差异很大时，对称相似性将失败，因为字幕是如此相似，以至于无法将两个嵌入都映射到同一图像嵌入附近。顺序嵌入不存在此问题：不太详细的标题可以嵌入到离图像很远的位置，同时以部分顺序保留在图像上方。

为了评估这种直觉，我们使用字幕长度作为细节级别的代理，并在我们的验证集中的共同参考字幕对之间选择长度差异最大的100对。对于具有1000个目标图像的图像检索，该组字幕的平均秩对于订单嵌入为6.4，对于余弦相似度为9.7，这与整个数据集相比，差异要大得多。图3中显示了一些特别引人注目的示例。此外，如果我们使用较短的标题作为查询，并按误差增加的顺序检索标题，则对于顺序嵌入，较长标题的平均排名为34.0，余弦为47.6。相似性，表明顺序嵌入能够捕获长度相差很大的共同引用字幕的相关性。

这也解释了为什么顺序嵌入为字幕检索提供的改进要比图像检索小得多：所有字幕检索指标均基于第一个地面真相字幕在检索顺序中的位置，因此嵌入仅需要学习检索一个每个图像的五个标题中，对称相似度非常适合。
Order-Embeddings of Images and Language

5文字表达/自然语言推论

自然语言推理可以看作是从单词到句子的上位词的概括。例如，从“女人walking狗在公园”中，我们可以推断“女人walking狗”和“在公园里的狗”，而不是“老妇”或“黑狗”。给定一对句子，我们的任务是预测是否可以从第一个句子（前提）推断出第二个句子（假设）。

5.1损失函数

要将订单嵌入应用于此任务，我们再次将其视为部分订单完成-当假设在视觉语义层次结构中位于前提之上时，我们可以准确地从前提推断假设。

与我们必须为之生成对比否定词的其他任务不同，自然语言推理的数据集包括标记为否定的例子。因此，我们可以简单地使用最大保证金损失：
Order-Embeddings of Images and Language
其中（p，h）是前提和假设的正对，（p，h）是负对。要嵌入句子，我们使用与字幕图像检索任务中相同的GRU编码器。

5.2数据集

为了评估自然语言推理任务的顺序嵌入，我们使用了最近提出的SNLI语料库（Bowman等，2015），其中包含570,000对句子，如果推理有效，则每个句子都标有“ entail”，即“矛盾”。如果两个句子矛盾，或者如果推断无效但没有矛盾，则为“中立”。我们的方法仅允许我们区分蕴含和非蕴含，因此我们将“矛盾”和“中立”类别合并在一起，作为我们的否定例子。

5.3实现细节

就像标题图像排名一样，我们将嵌入空间和GRU隐藏状态的尺寸设置为1024，将单词嵌入的尺寸设置为300，并限制嵌入的单位为L2范数。我们用128个句子对的批次训练10个时期。我们使用学习率为0.001的Adam优化器，并尽早停止验证集。在评估期间，我们在验证时找到最佳分类阈值，然后使用该阈值对测试集进行分类。 Order-Embeddings of Images and Language

5.4结果

SNLI上用于3类分类的最新方法是Rockt-aschel等人的方法。（2015）。不幸的是，它们不计算2级精度，因此我们无法直接与它们进行比较。作为促进比较的桥梁，我们使用了具有挑战性的基线，可以对2类和3类问题进行评估。基线被称为“跳思想”，涉及在“跳思想”向量之上的前馈神经网络（Kiros等人，2015），这是一种最先进的句子语义表示。给定成对的句子矢量u和v，网络的输入是u，v和绝对差| u-v |的串联。我们使用Adam优化器调整了层数，层尺寸和丢包率，以优化开发集的性能。使用批次归一化（Ioffe＆Szegedy，2015）和PReLU单位（He et al。，2015）。我们最好的网络使用2个隐藏层，每个隐藏层1000个单位，输入层和隐藏层的丢失率均为0.5。我们没有通过跳过思想的编码器进行反向传播。
我们还针对EOP分类器（Bowman等人，2015年引入的2类基线）以及模型的版本进行了评估，在该模型中，我们的订单违规惩罚被对称余弦距离，订单嵌入（对称）替代。

所有模型的结果都显示在表3中。我们看到，尽管不使用外部文本语料库，但订单嵌入优于跳过思想的基线。虽然我们的方法几乎可以肯定比Rockt–aschel等人的最新方法要差。（2015年），它使用了逐词注意机制，也要简单得多。

6结论与未来工作

我们引入了一种简单的方法来对学习到的分布式表示中的顺序进行编码，这使我们能够显式地建模视觉语义层次结构的部分顺序结构。正如我们在涉及计算机视觉和自然语言处理的三项艰巨任务中所展示的那样，我们的方法可以轻松地集成到现有的关系学习方法中。在两项任务中，上位词预测和字幕图像检索，我们的方法优于所有以前的工作。

未来工作的一个有希望的方向是在ImageNet上学习更好的分类器（Deng等，2009），该分类器由WordNet层次结构安排了超过21k个图像类。以前的方法，包括Frome等。（2013）和Norouzi等人。（2014年）已将单词和图像嵌入到具有对称相似性的共享语义空间中，我们的实验表明该单词和图像与WordNet的部分顺序结构不太匹配。我们期望使用订单嵌入可以在ImageNet分类以及一枪和零枪学习的相关问题上取得重大进展。

更进一步，顺序嵌入可以使您能够在单个模型中学习整个语义层次，这共同导致了上位率，内含性以及感知和语言之间的关系，从而统一了迄今为止几乎是独立的工作领域。

Order-Embeddings of Images and Language