Importance Weighted Adversarial Nets for Partial Domain Adaptation
本篇是迁移学习专栏介绍的第十二篇论文,被计算机视觉顶会CVPR 2018接收:《Importance Weighted Adversarial Nets for Partial Domain Adaptation》。文章作者团队来自澳大利亚卧龙岗大(University of Wollongong)
Abstract
本文提出了一种基于权重加权对抗网络的无监督域自适应方法,特别适用于目标域类数少于源域的局部域自适应。以往的领域自适应方法一般采用相同的标签空间,从而减小了分布的差异,实现了可行的知识迁移。然而,在更现实的场景中,这种假设不再有效,该场景需要从更大、更多样化的源域适应到更小、类数更少的目标域。本文扩展了基于对抗性网络的域自适应方法,提出了一种新的基于对抗性网络的局部域自适应方法来识别可能来自异常类的源样本,同时减少了域间共享类的迁移。
1. Introduction
在统计学习理论中,一般假设训练数据和测试数据来自于相同的分布。不幸的是,这种假设在许多应用程序中并不适用。域适应[1,20]是一种经过深入研究的解决此问题的策略,它使用以前标记过的源域数据在一个新的目标域中使用少量甚至没有标记过的数据来促进任务。因为深度学习进展表明,更多的转移和域不变的特性可以通过深度提取框架,适应技术领域也从浅层迁移[1, 20, 15, 16, 8, 6, 28]深到深层迁移[25, 14, 18, 17, 27, 22, 23, 7, 24, 3, 13, 19]。
与基于浅层学习的方法相比,基于深度学习的方法具有更好的性能。然而,目前的大多数方法仍然假定源域和目标域之间有相同的标签空间。例如,以前的基于深度学习的领域自适应方法通常遵循源分布和目标分布之间的差异较小的思想,特征空间和自适应可以通过匹配统计矩[25、14、18、17、27、22]来实现,也可以通过域对抗网络domain adversarial nets[23、7、24、3]来实现,也可以通过批量归一化Batch Normalization统计[13、19]来实现。由于所有的方法都依赖于比较源域和目标域之间的边缘分布,因此需要在两个域之间使用相同的标签空间来实现可行的自适应。本文关注的是另一种更实际的场景,即目标域只有一个类子集,称为局部域适应(类似于[4])。此外,目标域中没有已标记的数据以及目标类的潜在编号和名称是未知的。我们假设源域很大,并且包含目标域中出现的所有类。
直观地说,当目标域只包含类的子集时,不可能通过直接比较源分布和目标分布来减少域转移。换句话说,减少分布偏移对目标任务没有好处,因为由于不同的标签空间,域之间的边际分布本质上不应该相同。在这种情况下,从源域转移到目标域的一种自然且可行的方法是重新加权源域样本,这些样本的类很可能出现在分布匹配过程的目标域中。然而,目标域是未标记的,要发现呈现了哪些类以及哪些源域样例对传输很重要并不容易。针对这一问题,提出了一种基于加权对抗性网络的深域自适应方法。基于对抗性网络的领域自适应由特征提取器和领域分类器组成。区域分类器的目的是识别源样本和目标样本分布的差异,找到真实区域分布散度的一个更紧的下界,而特征提取器作为区域分类器,通过向相反的方向移动来减小分布散度。本文提出了一种两域分类器策略来识别源样本的重要性得分。具体地说,对于任意一个特征提取器,第一个域分类器的最优参数的输出给出了样本来自源域的概率。该加权方案的直观意义在于,当第一个域分类器的**量较大时,该分类器几乎可以很好地从目标域识别出样本。因此,样本很可能来自源域中的离群值类,因为样本的邻域区域只覆盖很少或根本不覆盖目标样本,并且为样本分配了较小的权重。因此,我们使用第一个域分类器的**作为每个源样本对目标域重要性的指示器。然后将学习到的权值应用于源样本,并将加权后的源样本和目标样本输入第二域分类器对特征提取器进行优化。我们证明了特征提取器与第二域分类器之间的极小极大博弈对策在理论上等价于减小加权源密度与目标密度之间的詹森-香农散度Jensen-Shannon divergence。
提出的方法是在三个常用的跨域对象数据集上进行评估的,设置目标域具有类的子集。结果表明,该方法在很大程度上优于已有的区域自适应方法,与目前最先进的局部转移方法具有可比性。
2. Related Work
包括深度卷积神经网络(CNN)[12]在内的深度神经网络的发展极大地提高了视觉识别能力。最近的研究表明,深度神经网络可以学习到更多的可转移特征[2,5,26],方法是分离数据样本中变异的解释因子,并根据其与不变因子的相关性对深度特征进行分层。
最近的研究表明,在深度学习框架上显式减少域发散可以进一步利用域不变特征。文献中确定了三种主要方法。一种是基于统计矩匹配的方法,即最大平均差(MMD)[25, 14, 18, 17],中心矩差(CMD)[27],二阶统计量匹配[22]。第二种常用的方法是基于对抗性损失的方法,它鼓励不同领域的样本对领域标签具有非歧视性,即借鉴GAN[9]的思想,采用基于领域对抗性网络的适应方法[23,7,24,3]。第三种方法使用批处理规范化统计数据[13,19],它将源分布和目标分布对齐到一个规范分布。然而,所有这些方法都依赖于特征空间中的边缘分布匹配,因此假设域之间的标签空间是相同的,从而实现了可行的自适应。
Ganin等人提出的[7]方法与我们的工作有关。它们使用单一的域分类器对提取的特征进行正则化,使其对不同的域不加区分。然而,他们假设在分布差异较小的域之间存在一个共享的特征空间。相比之下,我们使用两个不同的特征提取器来学习更多的领域特定的特征。此外,在学习两个域分类器时,我们对源域样本进行加权,这样就可以忽略源域的异常样本,以便更有效地传输,特别是当目标域只包含源域类的子集时。另一个相关的工作是[24],它还通过在基于对抗网络的框架中不共享权重来学习两个不同的特性提取器。然而,它假设域之间的标签空间相同,不能处理本文所述的部分域自适应。
Cao等人最近的一份报告[4]还解决了用类的子集从大的源域转移到目标域的问题。SAN为每个类训练一个单独的域分类器,并根据标签预测器给出的类概率引入实例级和类级权重。所提出的方法与[4]中的方法有本质的区别。首先,他们的方法为两个域使用一个共享的特征提取器。其次,我们的方法只需要两个域分类器而不是多个域分类器(每个源类一个),这使得它们的方法很难扩展到具有大量类的源数据,并且计算开销很大。最后,我们的方法不需要类级权值,因此能够处理不平衡的目标数据,因为如果应用类级权值,那么样本数量较少的目标类在自适应后可能无法很好地分类。
3. Proposed Method
本节详细介绍了所提出的方法。它从术语的定义开始。源域数据由分布
绘制,目标域数据
由分布
绘制,其中D为数据实例的维数,
和
分别为源域和目标域中的样本个数。我们专注于无监督领域适应问题,假设有足够的标记源域数据,
,和标记目标域数据,
,
,在训练阶段。相同特征空间是假定:
在目标域标签包含在源域标签空间
。此外,由于域移动,即使域之间的标签空间相同,
。
3.1. Adversarial Nets-based Domain Adaptation
[7,24]在一般的前馈模型上应用域分类器,形成了基于对抗性网络的域适应方法。其基本思想是同时学习类判别和域不变特征,使源数据的标签预测器损失最小化,域分类器损失最大化。具体来说,基于对抗网络的域适应框架类似于原始GAN,具有极大的损失
其中和
分别为源数据和目标数据的特征提取器,可以是相同的[7](共享权重)或不同的[24](非共享权重),D为域分类器。D是一个二进制域分类器(对应于原始GAN中的鉴别器),所有源数据标记为1,所有目标数据标记为0。对D参数的极大极小损失使得真域分布散度的下界更小,而对F参数的极大极小损失使得特征空间的分布散度最小。
在本文中,我们对源域和目标域采用非共享的特征选择器feature extractors来捕获,[28,24]中报道的共享特征提取器更多的域特定特征,并分别训练源判别模型。我们采用与[24]类似的过程,通过学习源特征提取器和分类器
的参数,训练用于分类任务的源判别模型
:
其中L为源域分类任务的经验损失,本文采用交叉熵损失。
在已知的情况下,通过优化
和
,利用域对抗性损失来减少域间的转移
为了避免简并解的出现,我们通过跟随[24],用的参数初始化
。给定
(对应于GAN中真实图像),对于任意
(对应于GAN中生成的图像),最优D取
其中为特征提取网络后特征空间中的样本。与[9]相似,我们对方程4给出如下证明。
证明。对于任意的和
,域分类器D的训练准则为:
我们对目标5对D,求偏微分,在[0,1]处达到最大值,在4处,利用莱布尼兹规则交换微分和积分的顺序。
3.2. Importance Weighted Adversarial Nets-based Domain Adaptation
Sample weights learning 在方程3的极大极小对策中,域分类器 给出:
其中是sigmoid函数。假设域分类器已经收敛到当前特征提取器的最优值,则域分类器的输出值给出了样本来自源分布的可能性。因此,如果
,那么样本很可能来自源域中的离群点类,因为覆盖样本的区域几乎没有或只有很少的目标样本,而且域分类器几乎可以完全从目标分布中区分出来。这些样本的贡献应该很小,这样域分类器和特征提取器都会忽略它们。另一方面,如果
很小,则更有可能来自域之间的共享类。应该给这些示例更大的重要性权重,以减少共享类上的域转移。因此,权重函数应该与
成反比,定义源样本的重要性权重函数的一种自然方法是
使。注意,权重被定义为域分类器的函数。因此如果我们应用权重在同一个域分类器,理论极大极小博弈的结果将不会减少JensenShannon两个密度之间的分歧(因为最优鉴别器(如方程4)不会源密度之间的比例,源和目标密度之和由于引入加权函数也是一个函数的D)。因此,为了解决这一问题,我们提出在提取的特征上应用第二个域分类器,即D0,对加权后的源数据和目标数据进行比较。这样,第一个域分类器D只是用于获取源领域的重要性权重基于
和当前
。因此,D的梯度不会back-propagated更新英国《金融时报》,因为D的梯度学习未加权的样本来源,不会是一个很好的指标减少域共享类转变。毕竟,是D0(带有加权的源数据和目标数据)用
最小博弈来减少共享类上的转移。
对域分类器D0的源样本加入重要权重后,加权域对抗网的目标函数为:
其中w(z)作为D的函数,与D0无关,可以看作常数。因此,给定和D,对于任意
,得到加权对抗网的最优D0为
注意,由于我们对重要性权重进行了归一化,所以
仍然是一个概率密度函数:
给定最优D0,极大极小对策9可重新表述为:
因此,基于加权对抗性网络的域自适应本质上是减小了特征空间中加权源密度与目标密度之间的詹森-香农散度,使其在上达到最优。
Target data structure preservation 由于目标域没有标签,因此保存数据结构以便有效传输非常重要。如果特征空间中加权源分布与目标分布之间的偏移量较小,则从源数据中学习的分类器C可以直接用于目标域。在这里,我们进一步利用熵最小化原理[10]约束Ft,以鼓励类间的低密度分离 :
其中H(·)为信息熵函数。由于源分类器C直接应用于自适应目标特征,因此目标熵最小化仅用于约束,这与以往的使用不同[18,4]。我们认为,如果目标特征提取器和应用熵最小化分类器[18, 4],副作用是目标样本很容易被困到一个错误的类由于大域转移的早期阶段训练,很难被纠正。相比之下,如果只使用目标熵最小化来约束Ft,则会减少副作用。
Overall objective function 因此,基于加权对抗性网络方法的总体目标是: :
其中λ是权衡参数。目标在阶段优化。在源域数据上预先训练,然后固定。然后
同时优化而不需要修改
。注意,D仅用于获取源域
和当前的
,D0是极大极小博弈,对目标域特征提取器更新
。为了求解
之间的极小极大博弈,我们可以迭代地训练这两个目标分别类似于GAN,或者插入梯度反转层(梯度反转层GRL)[7]将梯度乘以-1,使特征提取器同时学习特征提取器和域分类器。在本文中,我们选择使用GRL来解决这个问题,以便与之前的方法进行公平的比较。建议的体系结构可以在图1中找到。
4. Experiments
4.1. Set-ups
Datasets 在三种常用的跨领域目标识别数据集上对该方法进行了评价。Gong等人发布的public Office+Caltech-10 object datasets[8]包含四个不同的域:Amazon(从在线商户下载的图像)、Webcam(网络摄像头下载的低分辨率图像)、DSLR(数码单反相机拍摄的高分辨率图像)和Caltech-256[11](前三个域来自Office-31[21])。四个域中的十个共享类构成了Office+Caltech-10数据集。
图2显示了四个不同域的示例图像。当一个域用作目标域时,将选择前五个类。我们将包含10个类的源域表示为A10、W10、D10和C10,而包含5个类的目标域表示为A5、W5、D5和C5。
我们还对Saenko等人研究的Office-31数据集进行了评估,该数据集由三个不同的域组成:Amazon、DSLR和Webcam。与Office+Caltech-10相比,涉及的课程更多(31个班级)。我们遵循[4]的实验设置,从一个包含31个类别的域转移到另一个包含10个类别的域(这是Office31和Caltech-256[11]之间的共享类)。因此,三个源域分别表示为A31、W31和D31,三个目标域分别表示为A10、W10和D10。
为了在更大尺度的数据集上进行评价,我们对Caltech256 Office10数据集形成的三对域进行了实验,其中源域为Caltech-256数据集,包含256个类,目标域为Caltech-256和Office-3之间的三个具有10个共享类(即Office-10)的Office域 。
Baselines and Settings 将该方法与仅使用源数据(AlexNet+瓶颈)对CNN进行微调的基线以及RevGrad[7]、RTN[18]、da -grl[24]、SAN[4]等几种最先进的深度学习基域自适应方法进行了比较。注意,ADDA-grl是原始ADDA[24]方法的一个变体,其中极大极小博弈不是迭代训练的,而是使用GRL层,就像在我们的方法中所做的那样,以便进行公平的比较。因此,da -grl可以看作是我们的方法的一个特例,没有加权方案。
由于跨域数据集相对较小,为了成功地训练深度网络,我们对在ImageNet上预先训练的AlexNet进行了微调,类似于以前基于深度学习的域适应方法[7,18]。为了公平比较,特征提取器和域分类器采用了与RevGrad方法[7]相同的网络结构。具体来说,特征提取器是没有fc8层的AlexNet,在fc7层上增加了一个瓶颈层,尺寸为256。这两个域分类器具有相同的体系结构,它们是81个连接到瓶颈层的三个完全连接的层(1024 1024 1)。Fs是通过调整AlexNet+瓶颈从源域数据获得的。
为了避免训练过程早期的噪声信号,我们使用类似于[7]的调度方法对折衷参数进行更新,将其初始化为0,并逐渐增加到一个预定义的上界。计划的定义是:, p是线性变化从0到1的培训进展,
,和u上限设置为0.1在我们的实验。
4.2. Results and Analysis
Evaluation of partial domain adaptation 表1、表2和表3显示了所提出方法与基线方法的比较结果,其中SAN方法的结果直接从原始论文[4]中复制。提出(γ= 0)在表1和表2是该方法的变体,而目标域熵最小化。结果表明,该方法在很大程度上优于AlexNet+瓶颈、RevGrad、RTN和da -grl,在大部分数据集上也可与目前最先进的局部域自适应方法SAN相媲美。
我们还演示了AlexNet+瓶颈、RevGrad、RTN、da -grl瓶颈层的A31 W10数据**,以及图4中提出的方法,其中红点(离群值类)和绿点(共享类)表示源域样本,蓝点表示目标样本。如果蓝点与绿点很好地对齐,则对齐是有效的。结果表明,与基线方法相比,该方法能有效地将目标类匹配到相关的源域类中。
RevGrad是一种基于对抗性网络的方法,将域分类器作为源域分类任务的正则化。由于对抗性训练过程只减少了域之间的边际分布,而没有考虑条件分布,因此RevGrad方法在两个数据集中的大多数域对上获得的结果甚至比AlexNet+瓶颈基线差得多。图4b还验证了虽然目标域只包含10个类,但是示例将扩展到源域中的所有31个类。RTN方法没有使用对抗性损失,而是基于MMD准则减小了区域偏移。此外,利用残差块提出了源域和目标域的非共享分类器,并应用目标域熵最小化来保持目标域结构。图4c显示,由于目标域结构保存期限的关系,目标样本没有像RevGrad中那样扩展到所有类。然而,RTN对目标域分类任务的执行仍然不满意,也存在负迁移。因此,虽然涉及到残差网和目标熵最小化,但是没有出现在目标域中的源域异常类仍然会破坏性能。
ADDA-grl可以看作是我们方法的未加权版本。为了公平比较,我们对da -grl和我们的方法使用完全相同的参数集。结果表明,该方法在大多数域对上都优于ADDAgrl算法。因此,提出的加权方案可以有效地检测离群值类,减少共享类之间的转移。图4d和图4e比较了两种方法的**情况。与da -grl相比,该方法中的目标数据与所选源类的对齐效果更好。
SAN方法具有相同的假设条件,并与所提出的方法进行了比较。然而,与我们的方法(即源类的数量vs .s. 2)相比,SAN中需要大量的域分类器,这导致需要在SAN中训练更多的参数。SAN-entropy圣法没有目标熵最小化,这对应于该方法与γ= 0。表2中的结果表明,该方法(γ= 0)获得更好的性能(86.73%)比圣(85.64%),平均规模小得多的参数的数量。
Further analysis and evaluations 为了进一步验证所提议的权重方案的有效性,我们还在图5中演示了源类和目标类标签的对齐。图4中使用了相同的**。目标域中的10个类用蓝色标记为0,9,它们与源域中的0,9用红色标记的一组类相同。因此,红色的数字10 30是源域中的异常类。它显示大多数目标类都与正确的源类对齐。图6显示了使用第一个域分类器D0获得的权重。如果源样本的权值较大,则样本的颜色趋于红色,而较小的权值将分配给蓝色。中间值是根据颜色条来排列的。从图中可以看出,大部分红色样本来自于09个类,而离群值类大多为蓝色,说明了本文提出的加权方法对离群值源类样本识别的有效性。
我们还进行了目标域类数目变化时性能评估的实验。图3显示了A→W域对的结果。源域总是有31个类,但是目标域类的数量从31到5不等,即{31,25,20,15,10,5}。结果表明,该方法优于AlexNets+bottleneck大多数情况下都是直线。具体地说,当目标类的数量越来越少时,相对的改进就越大。还可以观察到,目标类越少,da -grl方法的精度就越低。因此,当目标域类的数量未知时,我们的方法可以一致地提高性能。
为了在传统的非局部域自适应设置上对所提出的方法进行评估,我们进一步使用标准的full协议对Office-31和Office+Caltech-10数据集进行了实验。表4的结果表明,与最先进的方法相比,没有发现明显的退化。
5. Conclusion
将基于对抗性网络的无监督域自适应扩展到局部域自适应。提出了一种基于对抗性网络**的加权方案,用于检测源域离群值类中的样本,有效地减小了目标数据与目标类中的源数据之间的偏移量。实验结果表明,该方法在很大程度上优于已有的区域自适应方法,与现有的局部转移方法具有可比性,证明了该方法的有效性。在今后的工作中,我们将以更大规模的局部域自适应为重点,进一步探索该方法。