From Red Wine to Red Tomato: Composition with Context

Ishan Misra ,Abhinav Gupta ,Martial Hebert
The Robotics Institute, Carnegie Mellon University
@CVPR2017

Introduction

作者指出在当前的识别或检索任务中,state of art的方法多采用了data driven approach,就是通过监督学习从成千上万的数据中对复杂的概念进行建模,而不是像人类本能的那样通过将简单的概念组合为复杂的概念.
但将复杂的概念视为简单概念的组合不可避免的遇到一对关系:复合性和语境性.
From Red Wine to Red Tomato: Composition with Context
作者用上图意在说明对于属性的视觉表达要依赖于他对应的物体(语境),红色对于酒的组合与红色对于西红柿的组合是完全不同的.作者提出了一种组合概念的方式,使其符合相应的语境,并且对于未训练过的组合有着良好的泛化能力.

Approach

本文的目标是将数个简单的视觉概念组合为一个复杂的视觉概念作为输出.作者将训练过的分类器作为相应的视觉概念的表达,然后通过学习一个神经网络,将数个简单的视觉概念的表达(分类器)转换为一个复杂的视觉概念表达作为输出.不失一般性的,作者展示了对于两个分类器的组合实现.其中Va表示属性概念的集合,Vb表示物体概念的集合,Vab表示组合而成的属性-物体复杂概念.这里假设Va包括了M个概念,Vb包括了N个概念,则Vab应该包含了MN个概念组合.假设用于训练的数据集中包括了属于MN个组合中的K个.对于每一种概念集合(本文中是两个,属性和物体)都训练一个SVM分类器,并以此产生了M+N个权重向量,分别以wawb表示.作者本想直接训练wab,但由于K远小于MN,以此训练SVM较为困难(缺数据),故作者希望通过wawb直接学习得到wab=T(wa,wb).
From Red Wine to Red Tomato: Composition with Context
这里作者不选用相应属性/物体的 feature作为输入,而是选择了对应的分类器的权重.对于wa,也就是属性分类器,他的维度应该是DM维,其中D对应了图像的feature维度,M对应了可能的属性分类个数.
T代表相应的Transform神经网络,由三个全连接层组成,输入为MDwaNDwb,输出为D维?这里作者没有给出输出的分类器的全部维度,个人认为应该是MN,D维,对应生成的wab.与此同时一张大象图像通过CNN提取到D维的feature,然后与wab做点乘再加上sigmoid**函数,生成一个MN维度的概率向量.通过Loss

L(I,wa,wb)=ylog(p)+(1y)log(1p)
的约束使得输出的概率向量仅在对应的(large,elephant)上概率较高,在其他位置概率较低.

Experiments

作者对比了几个Baseline,包括
Individual:不进行组合,仅仅使用wa,wb进行预测,并且只考虑最大的p(a)p(b).
Visual Product:不考虑语境只进行组合,认为p(a,b)=p(a)p(b)
Label Embeddings:对label进行词义的映射而不是分类.
Label Embeddings Only Regression (LEOR): 相比LF修改了loss
Label Embeddings With Regression :前两者的结合
作者在MITStates上进行了测试,任务是预测训练集中从未出现过的(A,O)对.
From Red Wine to Red Tomato: Composition with Context