【2018ECCV】Zero-Shot Deep Domain Adaptation 零样本深度域适应

背景及简介

现实情况中,经常会遇到这样的一种情况:现有任务的数据很少,或者采集困难、采集成本昂贵,比如医学上的分类问题、软件缺陷分类、生产线优化等。零样本学习通过一些之前学习的特征以及现有任务的属性知识,完成对现有任务的学习,这与迁移学习的概念是有交叉的,迁移学习根据与现有任务(也叫作Target task目标任务)相似的任务(Source task源任务)学习,将对目标任务有益的一部分迁移到目标任务学习中,但是现有的迁移学习方法多数假设任务相关的目标域数据是可用的,Zero-Shot Deep Domain Adaptation(ZDDA)方法主要针对该问题。ZDDA是一种领域性适应和传感器融合(Sensor fusion)方法,它从任务无关的双域训练对中学习,而不使用任务相关的目标域训练数据。

一些解释

什么是传感器融合(Sensor fusion)?WiKi的解释参考:https://en.wikipedia.org/wiki/Sensor_fusion。Sensor fusion(传感器融合)是将传感器数据或者从分散源产生的数据结合在一起,从而使结果信息跟各自独立使用时会少一些不确定性 。 例如立体视觉(通过结合来自两个稍微不同的视点的照相机的两种维度的图片深度信息的计算)。传感器融合方法则是基于传感器融合的信息具有多样性和复杂性,因此,对信息融合方法的基本要求是具有鲁棒性和并行处理能力, 一般情况下,基于非线性的数学方法,如果它具有容错性、自适应性、联想记忆和并行处理能力,则都可以用来作为融合方法。

MNIST-M数据集:由MINIST数据集数字随机混合上BSD500数据集上的颜色形成。

Fashion-MNIST数据集:该数据集是关于Zalando( 是总部位于德国柏林的大型网络电子商城, 其主要产品是服装和鞋类 )产品的图像,Fashion-MNIST经常作为原始MNIST数据集的替代品,用于对机器学习算法进行基准测试。

TOI,Task of Interest 感兴趣的任务


【2018ECCV】Zero-Shot Deep Domain Adaptation 零样本深度域适应

图中是ZDDA完成从MNIST到MNIST-M的任务,源域和目标域分别是灰度和RGB图像,目标任务使用MNIST和MNIST-M测试数据进行数字识别,其中假设MINIST-M训练数据(目标域)是不可用的。在该实验中,ZDDA目的在于使用MNIST训练数据、Fashion-MNIST数据集中任务不相干灰度-RGB图像对、Fashion-MNIST-M数据集(加上颜色的Fashion-MNIST数据集),来训练关于MNIST和MINIST-M图像的数字识别。

原理

设定存在一个TOI,一个源域Ds 和一个目标域Dt

ZDDA主要完成两个任务:

  • 域适应
  • 传感器融合


【2018ECCV】Zero-Shot Deep Domain Adaptation 零样本深度域适应

上图描述了ZDDA的流程,在第一步中,建立了两个CNNs,s1t,将任务不相关的RGB-D对的depth图像和RGB图像作为输入。这一步的目的是通过将depth图像输入s1近似于将RGB图像输入t中,通过固定t并在训练时在s1和t之上强制执行L2损失来实现这一点,其中L2损失可以使用任何合适的损失函数替代。步骤1中的设计类似于幻觉架构[2]和监督转移[3],但不需要任务相关的双域训练对。 相反,通过使用任务不相关的双域对来训练。

步骤2中,添加了另一个CNN–s2(与s1的网络框架一样),以及添加了一个分类器到网络中,使用带标签的depth图像训练集中学习,为了简单,使用的分类器是一个全连接层。新添加的CNN将任务相关的depth图像作为输入,并且与初始Souce CNN分享全部权值,使用s2来代表他们。和第一步一样,在训练阶段,从s1预训练s2并固定t。固定t的思想是受到ADDA[4]中adversarial adaptation(对抗适应)的灵感启发,t在步骤2中同样是可训练的,但是由于数据量的限制,选择将它固定,使得可训练的参数是可控的。s2和source分类器通过训练以使得softmax损失和L2损失的加权和最小化。

第二步之后,期望获得一个depth特征,使得该depth特征接近于特征空间的RGB特征(因为与第一步权值共享)并且在场景分类中表现比较好(使用任务相关的depth数据训练)。在前两步中,通过连接s2/t和经过训练的source分类器来构建在depth/RGB中的场景分类器,完成了第一个任务: 域适应。


【2018ECCV】Zero-Shot Deep Domain Adaptation 零样本深度域适应

为了执行传感器融合,提出了步骤3,其中仅使用任务相关的depth训练数据训练RGB-D输入的联合分类器。创建了两个CNN–s3/s4(每一个都与s1的网络结构一样),并且添加了一个连接层用来连接他们的输入特征,这些特征被连接到联合分类器中。在训练阶段,分别从s2/s1预训练s3/s4并且固定s4s3/s4都采用任务相关的depth图像作为输入。为了训练一个更加鲁棒的RGB-D场景分类器,随意的选取s3/s4的一些输入,并选择性的添加一些噪声到这些输入中。使用用于场景分类的depth训练数据的标签来监督整个网络,其通过在联合分类器之上强制执行的softmax损失来完成。

根据第一步,如果将任务相关的RGB图像输入到t中,s4的输出则是期望于模拟RGB的特征,这种期望是基于双域成对数据之间的关系相似的假设,无论数据是任务相关还是任务不相关。给定模拟的RGB特征,训练s3以学习适合于RGB-D场景分类的depth表示,而不受步骤2中L2损失的约束。在测试阶段,s4可以被t代替,它将任务相关的RGB测试图像作为输入,添加了可选噪声,以测试ZDDA的性能。经过训练之后,在图2中,可以构建在RGB(彩色图),depth(深度图)和RGB-D(RGB+depth)中的三个场景分类器,并且被训练过的RGB-D分类器被期望于处理带有噪声的输入。

References

[1] Peng K C, Wu Z, Ernst J. Zero-Shot Deep Domain Adaptation[J]. 2017.

[2] Gupta S, Hoffman J, Malik J. Cross Modal Distillation for Supervision Transfer[J]. 2016:2827-2836.

[3] Hoffman J, Gupta S, Darrell T. Learning with Side Information through Modality Hallucination[C]// Computer Vision and Pattern Recognition. IEEE, 2016:826-834.

[4] Tzeng E, Hoffman J, Saenko K, et al. Adversarial Discriminative Domain Adaptation[J]. 2017.