翻译“Learning Transferable Features with Deep Adaptation Networks”

利用深度适应网络学习可迁移特征

摘要：最近的研究表明深度神经网络可以学习可迁移特征，这些特征用于域适应时在新的任务上表现出很好的泛化能力。然而由于深度特征随着网络层数的增加由一般到特殊转变，特征的可迁移能力在网络高层急剧下降，极大地增加了域之间的差异性。因此减少不同数据集间的偏差，同时增加任务特征层的可迁移能力是非常重要的。在本文中，我们提出了一个新的深度适应网络（DAN)架构，把深度卷积神经网络推广到域适应场景。在DAN，所有特定任务层的高层表达被嵌入到一个重生希尔伯特空间，在这里不同域分布的嵌入平均可以被显式地匹配。通过使用一个最优多核选择方法用于嵌入平均匹配，域之间的差异性也进一步被减少。DAN可以学到有统计上保证的可迁移特征，而且是线性尺度变换，通过对核嵌入的无偏估计。大量的实证表明提出的这个架构得到了最先进的图像分类误差在标准域适应基准数据集上。

1.介绍

只有有限训练样本的有监督机器学习泛化误差非常大。然而对于多种多样的应用领域手工标注大量的样本需要付出的代价是非常高的。因此，建立有效的算法来减少标注花费是非常有必要的。典型的方法是利用现有的大量数据从相关的源域到目标域进行迁移。域适应解决的问题是：我们有数据来自两个相关的域，但是服从不同的分布。域之间的差异使得在不同域之中使用预测模型时存在障碍。例如，一个目标识别模型在手工标注的图像上训练的在测试图像上可能泛化得不好如果测试图像存在大量的姿态、遮挡或者光照的变化。域适应建立知识迁移从有标注的源数据到没标注的目标域通过探索域不变的结构来连接不同的域或者大量的分布差异^[1]。

建立知识迁移的主要方法之一是从数据中学习域不变的模型，这可以沟通源域和目标域在一个同构的隐特征空间。朝着这个方向，以前的一种卓有成效的工作专注于通过联合最小域差异的距离测度学习浅层特征^{[2],[3],[4],[5],[6],[7],[8]}。然而，最近的研究表明深度神经网络可以学到更加有迁移性的特征用于域自适应^{[9],[10],[11]}。这在一些域适应数据及上产生了突破性的结果。深度神经网络能够探索造成不同任务差异的因素在数据样本的基础上，并且分层的组织特征依照它们与不变因素的关系，使得表达对噪声鲁棒。

深度神经网络用于学习通用的和可迁移的特征更加有效，然而最新的研究同时揭示了深度特征最终必然会从一般到特殊进行转变随便网络层数的加深，特征的可迁移能力在高层也会急剧下降随着域之间的差异在高层增多。换句话说，在网络高层计算的特征一定会极大地依赖于特定的数据集和任务^[11]。因此，在高层学习到的特征是特定任务的特征，是不同安全地迁移到新的任务上的。另一个有趣的现象是解开网络高层的变化因素可能扩大域之间的差异性，使得有这个新的深度表达的不同的域变得更加紧凑和更加人工可分辨的^[9]。尽管深层特征对于区分来说是显著的，扩大数据集偏置可能恶化域适应性能，导致统计上无界的风险对于目标任务^[12]
[13]。

受到对关于深度神经网络可迁移性的文献的最新理解的鼓舞，我们再本文中提出了一个新形的深度自适应网络（DAN）架构，将深度卷积神经网络推广到域适应场景。这个工作的主要思想是增强深度神经网络的特定任务层的特征迁移能力，通过显式地减少域差异性。为了达到这个目的，所以的特定任务层隐式表达嵌入到一个重生希尔伯特空间，在这个空间里不同分布的域的平均嵌入可以被显式的匹配。由于平均嵌入匹配对核的选择很敏感，一个最优的多核选择程序被设计来进一步地减少域差异性。此外，对于核平均嵌入我们实施了一个线性时间无偏估计来保证可拓展的训练，这对于深度学习是非常有必要的。最后，由于深度模型预训练利用大规模的资源库，例如ImageNet^[14]，对于一般目的的任务是非常有表征能力的^[11],[15]。提出的DAN模型的训练通过微调在ImageNet上预训练的AlexNet^[16]，在caffe上实现^[17]。大量的实际证据表明提出的架构比当前最好的结果表现得更好在标准的域适应基准数据集上。

这篇文章的贡献总结如下：

（1）我们提出了一个先进的深度神经网络架构用于域自适应，在这个架构里，所有的对应于特定任务的层被适应通过一个层级的行为，因此受益于深度自适应；

（2）我们探索了多个核用于使用深度表达，和单核方法相比大幅度增强了适应效果，还可以得到统计上保证的无偏深度特征。

2.深度自适应网络

在无监督域适应中，我们给出带有个标签样本的源域，以及带有个无标签样本的目标域。概率分布和分别表征源域和目标域。本篇论文的目标是构建一个深度学习神经网络，这个网络可以学习可跨越域差异的可迁移特征，并构建一个分类器，这个分类器可以最小化目标风险。在半监督的适应中，目标域具有少量带有标签的样本，我们定义为，是来自源域和目标域的注释样本。

2.1模型

MK-MMD 域适应面对的挑战主要因为在目标域不存在标签，为了解决这个问题，许多方法希望通过将源域误差加上源域和目标域之间的偏差度量来限制目标域的误差[13]。探索了用于双样本测试的两类统计之后，在这双样本测试中对于零假设p=q作出接受或拒绝决定，并对分别从p和q产生的样本计算：能量距离和最大平均差异（MMD）[18]。在本文中，我们专注于由Gretton 等人提出的 MMD的多内核变体（MK-MMD）[19]。MK-MMD 是联合最大化两个样本的测试功率并最小化 II 类误差的正式表达，即拒绝假零假设的失败。

H_k定义为具有特征内核k的重构希尔伯特空间，H_k中分布p的嵌入平均值是唯一的，记为μ_k (p)，这使得对所有fϵH_k，有E_(x~p) f(x)=〈f(x)，μ_k (p)〉_(H_k )。概率分布p和q之间的MK-MMD d_k (p,q)的值被定义为p和q的嵌入平均值之间的RKHS 距离。MK-MMD的平方公式定义为：

d_k^2 (p,q)≜‖E_p [∅(x^s )]-E_q [∅(x^t )]‖_(H_k)^2

最重要的特性是p=q时有d_k^2 (p,q)=0[20]。与特征映射∅，k(x^s,x^t )=〈∅(x^s ),∅(x^t )〉，相关的特征核，被定义为m个 PSD 内核{k_u }的凸组合,

K≜{k=∑_(u=1)^m▒〖β_u k_u 〗:∑_(u=1)^m▒β_u =1,β_u≥0,∀u}

其中对系数{β_u }的约束加强可以保证生成比较典型的多内核k。Gretton 等人的一项研究显示[19]，适用于p和q的嵌入平均值的内核对于确定测试功率以及低测试误差来说至关重要。多内核k可以利用不同的内核来增强 MK-MMD 测试，这就是优化内核选择的原理方法。
控制域差异的一种可行方法是找到源域和目标域中相似的抽象特征表示[13]，这个想法很早就提出了，本篇论文之前还没人尝试在深度学习神经网络中用 MK-MMD 来增强特征表示的迁移能力[2], [6], [8]。

DAN这篇论文中，作者在深度学习网络中为了学习可迁移特征而探索了基于MK-MMD的适应方法。作者用深度学习卷积神经网络（CNN）作为开端[16]，这种网络的特点是域不变而在适应到新任务上时很强壮[10],[15]。可是目标域没有或只有很少的有标签信息，因此直接将 CNN 通过微调应用到目标域上是不太合理并且很容易过拟合的。受启发于域适应思想，作者想构建一个深度学习适应网络（DAN），这个网络既可以利用有标签的源域数据，也可以利用无标签的目标域数据，DAN模型如下图1所示。

翻译“Learning Transferable Features with Deep Adaptation Networks”

图1 学习可迁移特征的DAN模型

从零开始的深度学习神经网络的训练是相当繁杂的，工作量代价过于庞大，所以本篇论文采用已经存在预训练的模型来减少开销，预训练的模型来自于AlexNet[16]，这一模型包含五个卷基层（conv1~conv5）和三个全连接层(fc6~fc8)。每个全连接层fc中有l学习非线性映射h_i^l=f^l (W^l h_i^(l-1)+b^l ), 其中h_i^l是点x_i的第l层隐藏表示。W^l和b^l是第l层的权重和偏置。而且f是**函数，对于隐藏层选择作为整流器联合f^l (x)=max(0,x)，而对于输出层选择作为最大平滑化联合f^l (x)=e^x/∑_(j=1)^|x|▒e^(x_j ) 。Θ={W^l,b^l }_(l=1)^L表示 CNN 的所有参数，CNN 的经验风险函数为

■([email protected]Θ) 1/n_a ∑_(n=1)^(n_a)▒J(θ(x_i^a ),y_i^a ) （3）

其中是交叉熵的损失函数，θ(x_i^a )是 CNN将x_i^a转变为接近y_i^a的函数。这篇论文并不讨论如何计算卷积层因为，论文中的方法并不在卷积层中做域适应的相关分布调整。因为卷积层学习通用特征时在conv1~conv3是可以直接迁移的，conv4~conv5只需要微调即可[11]。因此当使用AlexNet作为预训练时，论文选择将conv1~conv3固定不变，即在训练时这几层中不学习，对conv4~conv5进行微调，即在训练时训练步幅非常非常小，以此保护脆弱的适应性[21]。
在标准 CNNs 中，深度特征必须通过网络的最后一层从一般转为具体，而且在迁移高层fc6~fc8[11]时迁移跨度会随域差异的增大而增大。fc层因为是对于原任务中源域量身定制的所以对于目标域来说会造成性能下降，因此fc层不能通过微调直接迁移到目标域中。在本篇论文中，作者提出在源域中有标签样本上微调 CNN，并且使源域和目标域在全连接层下的隐藏表示变得相似。这可以通过将基于MK-MMD 的多层适应正则化（公式 1）加入到 CNN 的风险函数（公式 3）中实现：

■([email protected]Θ) 1/n_a ∑_(n=1)^(n_a)▒J(θ(x_i^a ),y_i^a ) +λ∑_(l=l_1)^(l_2)▒d_k^2 (D_s^l,D_t^l )

其中λ>0是一个惩罚参数, l_1和l_2是存在正则化项的层。在 DAN 的实现中，我们设置l_1=6，l_2=8。对于不同大小的有标签的源域数据集以及不同数量的微调层中的参数数目，有着不同的设置。

3.实验
我们在无监督和半监督适应问题上比较了DAN模型和最先进的迁移学习和深度学习方法，集中在利用多核MMD进行多层自适应的效果上。

3.1设置
Office-31[22]这个数据集是一个用于域适应的标准数据集。由31个类别的4652张图片组成。这些图片收集于三个不同的域：Amazon(A)，包括从amazon.com上下载的图片，Webcam(W)和DSLR(D)，包括利用网络照相机拍摄的图片和利用数字SLR相机拍摄的图片。这些图片在一个办公室里，分别有着不同的环境变化。我们用3个迁移任务评估我们的方法，A—>W、D—>W和W—>D，并且在深度学习方法中经常用到[10],[23]。此外，我们还包括了另外3个迁移任务：A—>D、D—>A和W—>A。Office-10+Caltech-10[24]这个数据集由Office-31中的10个类别和Caltech-256(C)[25]数据集组成，经常用于迁移学习方法中[3],[4]。我们可以另外新建6个迁移任务：A—>C、W—>C、D—>C、C—>A、C—>W和C—>D。使用更多的迁移任务，我们可以把数据集的偏差当做是无偏的[26]。

表1. 精度在Ofﬁce-31数据集通过标准无监督适应协议

表2. 精度在Ofﬁce-10 + Caltech-10数据集通过标准无监督适应协议

表3. 精度在Ofﬁce-31数据集通过典型的无监督和半监督适应协议

我们比较了一系列方法：TCA[2]、GFK[24]、CNN[16]、LapCNN[27]和DDC[23]。TCA是一种基于MMD正则化PCA的常规迁移学习方法；GFK是我们数据集广泛采用的一种方法，在位于中间的子空间中通过内插来桥连源域和目标域；CNN是ImageNet2012年比赛中用过的优秀模型，是学习可迁移特征的强有力模型[11]；LapCNN是基于拉普拉斯图正则化的CNN半监督变体；最后，DDC是CNN的域适应变体，在fc7和fc8层加入一个自适应层，并在自适应层中使用单核MMD正则化。我们用Caffe实现基于CNN的方法[17]，比如CNN、LapCNN、DDC和DAN。为了研究多层适应和多核MMD的效果，我们将DAN做了几种变体：

[1] 只有一个隐藏层的DAN，仅在fc7或fc8加入迁移，分别对应着DAN7和DAN8；

[2] 使用单核MMD，如DSNSK。

对于非监督的迁移，我们主要遵守标准的评估协议，使用所有带标签的源样本和不带标签的目标样本[5]。为了使我们的结果具有更直观的可比较性，我们给出了一个经典协议[22]：对源样本进行随机下采样，半监督适应的每个种类都需要3个带标签的目标样本。我们比较了每个任务分类精度的平均值和标准差，对于基本方法，我们采用模型选择的标准计算；对于基于MMD的方法，我们使用高斯核；对于DAN，我们使用多核MMD，考虑m高斯核，以21/2为步长将带宽γ在2-8γ和28γ之间变化[19]。由于最小化MMD相当于最大化从目标到源的分类误差[28]，我们可以通过联合估测源分类器和二分类器的测试误差来自动选择MMD验证集上的罚项γ。然而，由于数据集的有限训练样本，我们通过反向传播修正从预训练模型复制的卷积层conv1-conv3，微调con4-conv5和全连接层fc6-fc7，以及训练分类层fc8。由于分类器是从头开始训练的，所以我们将其学习率设为低层的10倍。我们使用Caffe中实现的随机梯度下降算法，学习率在10-5和10-2之间。

3.2 结果与讨论
Office-31数据集的6个迁移任务非监督适应结果如表1所示，Office-10+Caltech-10数据集的另外6个迁移任务结果如表2所示，为了直接地和DDC比较，我们给出了使用DDC进行相同任务的半监督适应结果，如表3所示。我们可以观察到，DAN在大多数迁移任务上的效果明显比其他方法好，在简单的迁移任务如D—>W和W—>D上也有很好的效果，这是因为D和W两个域的图片是很相似的[22]。这个现象可以解释对于不同的迁移任务，适应能力会呈现不同。而性能的提升也表明我们基于多核MMD的多层适应架构可以在不同领域迁移预处理好的深度模型。
从实验结果，我们可以看出：
[1] 基于深度学习的方法大多比常规的浅迁移学习方法效果提升巨大。
[2] 在深度学习方法中，半监督的LapCNN相比于CNN没有性能上的提升，这说明域差异的问题不能简单地通过半监督学习来解决。
[3] 通过单核MMD进行单层适应的CNN跨域变体DDC，通常优于CNN，证明了它在使用域适应深度模型学习可迁移特征的有效性。需要注意的是，尽管基于Caffe AlexNet的DDC明显优于没有微调的DeCAF[10]，而Caffe AlexNet使用微调也不能得到一个很大的收益。这表明了使用单核MMD在单层适应的局限性，不能发挥出深度网络和多核在域适应中的优势。
为了更深入了解DAN，下面给出三种DAN变体的结果：
[1] DAN7,DAN8 的性能优于 DDC，这说明多核的 MK-MMD比单核的 MMD在桥连域差异上表现更好。究其原因是具有不同带宽的多内核既可以匹配高阶矩也可以匹配低阶矩来将Ⅱ类错误最小化[19]。
[2] DANSK 效果优于DDC，这说明深度架构对于分布适应能力更强。原因与深度网络相似，即深度网络的每一层可以提取不同抽象级别的特征，因此我们需要对每个特定任务层匹配分布来统一所有层的适应效果。多层结构是深度学习有效性的关键原因之一，我们认为这对基于MMD的适应也是同样重要的。多层变体DANSK和多核变体DAN7、DAN8的效果比较证明了他们对于域适应是同等重要的。正如所预期的，DAN联合使用多层适应和多核MMD可以达到最佳效果，DAN的另一个优势是它使用了内核嵌入的线性时间无偏估计，比现有的TCA和DDC方法效果更好。虽然可以通过计算每个小批量SGD中的MMD来加快DDC[23]，但这导致了对MMD的偏差估计以及适应精度的降低。

3.3 经验分析
特征可视化 为了证明DAN学习特征的可迁移性，我们在图2(a)-2(b)和2(c)-2(d)中对应画出迁移任务C—>W中分别使用DDC特征和DAN特征的图像，可观察到如下结果：（1）使用DDC特征不能较好的区分目标点，而使用DAN特征时，可以得到更好的区分（2）使用DDC特征时，源和目标之间的类别不够一致，而使用DAN特征，域间类别则一致得多。这些观察结果都可以证明DAN比DDC更优的性能：（1）使用DAN特征可以更容易地区分目标点（2）使用源分类器可以更好的区分目标点。DAN可以学习更多的转移特征，实现有效的域适应。
Λ距离：理论研究表明，Λ距离可以作为域差异的衡量，但由于很难精确地计算Λ距离，所以定义了一个估计距离dΛ = 2(1-2ε)，其中ε是用来区分输入样本源域和目标域的双样本分类器泛化误差。图3(a)分别表示了在迁移任务A—>W和C—>W上使用原始特征、CNN特征和DAN特征的dΛ值，可以看出使用CNN特征和DAN特征的dΛ值都比原始特征大，这说明抽象的深度特征用于识别不同类别和不同域的效果显著。然而，域适应能力可能会随着域差异的变大而变差[13]。DAN特征上的dΛ值比CNN特征上的dΛ值小，这也保证了更多的迁移特征。
参数的敏感度 最后，我们研究了参数λ的影响，图3(b)给出了在迁移任务A—>W和C—>W上，当λ∈{0.1,0.4,0.7,1,1.4,1.7,2}时迁移分类效果的差异图。我们可以看到DAN的精度随着λ的变化先增大再减小，类似一个钟形曲线。这也证明了联合地学习深度特征、适应分布差异的显著效果，因为两者的折中可以增强特征的可迁移性。

4 结论

本文提出了一种深度自适应网络（DAN）结构，用来加强神经网络特定任务层的特征可迁移性。我们证明了一般的特征对于新任务泛化能力较好，但原始任务的特定特征不能有效的桥接域差异。通过均值嵌入匹配再生内核希尔伯特空间的多层代表域，可以很大程度上提高特征的可迁移率。尽管均值嵌入的无偏估计给出了一种用于大规模数据集的深度学习算法，最优的多核选择策略提高了嵌入匹配效果，广泛使用的标准域适应经验评估也论证了本文提出的模型相比于其他相关模型的有效性。在之后的研究工作中，我们将继续研究CNN卷积层（conv1-conv5）上分布适应的影响，并进一步增强特征的可迁移性。

参考文献

[1] Pan, S. J. and Yang, Q. A survey on transfer learning. IEEE Transactions on Knowledge andData Engineering,22(10):1345–

1359, 2010.

[2] Pan, S. J., Tsang, I. W., Kwok, J. T., and Yang, Q.Domain adaptation via transfer component analysis.IEEE Transactions on Neural Networks and Learning Systems, 22(2):199–210, 2011.

[3] Long, M., Wang, J., Ding, G., Sun, J., and Yu, P. S.Transfer feature learning with joint distribution adaptation. InICCV, 2013.

[4] Baktashmotlagh, M., Harandi, M. T., Lovell, B. C., andSalzmann, M. Unsupervised domain adaptation by domain invariant projection. InICCV, 2013.

[5] Gong, B., Grauman, K., and Sha, F. Connecting the dotswith landmarks: Discriminatively learning domain-invariant features forunsupervised domain adaptation. InICML,2013.

[6] Zhang, K., Sch¨olkopf, B., Muandet, K., and Wang, Z.Domain adaptation under target and conditional shift. InICML, 2013.

[7] Ghifary, M., Kleijn, W. B., and Zhang, M. Domain adaptiveneural networks for object recognition. Technical report, arXiv:1409.6041,2014.

[8] Wang, X. and Schneider, J. Flexible transfer learning undersupport and model shift. InNIPS,2014.

[9] Glorot, X., Bordes, A., and Bengio, Y. Domain adaptationfor large-scale sentiment classification: A deep learning approach. InICML, 2011.

[10] Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang,N., Tzeng, E., and Darrell, T. Decaf: A deep convolutional activation feature forgeneric visual recognition. InICML,2014.

[11] Yosinski, J., Clune, J., Bengio, Y., and Lipson, H. Howtransferable are features in deep neural networks? InNIPS, 2014.

[12] Mansour, Y., Mohri, M., and Rostamizadeh, A. Domainadaptation: Learning bounds and algorithms.COLT,2009.

[13] Ben-David, S., Blitzer, J., Crammer, K., Kulesza, A.,Pereira, F., and Vaughan, J. W. A theory of learning from different domains.Machine Learning, 79(1-2):151–175, 2010.

[14] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh,S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C.,and Fei-Fei, L. ImageNet Large Scale Visual Recognition Challenge. Technicalreport, arXiv:1409.0575, 2014.

[15] Hoffman, J., Guadarrama, S., Tzeng, E., Hu, R., Donahue,J., Girshick, R., Darrell, T., and Saenko, K. LSDA: Large scale

detection throughadaptation. In NIPS, 2014.

[16] Krizhevsky, A., Sutskever, I., and Hinton, G. E. Imagenetclassification with deep convolutional neural networks. InNIPS,

2012.

[17] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long,J., Girshick, R., Guadarrama, S., and Darrell, T. Caffe: Convolutional

architecture forfast feature embedding. In ACM Multimedia,2014.

[18] Sejdinovic, D., Sriperumbudur, B., Gretton, A., andFukumizu, K. Equivalence of distance-based and rkhs-based statistics in

hypothesistesting. The Annals of Statistics,41(5):2263–2291, 2013.

[19] Gretton, A., Sriperumbudur, B., Sejdinovic, D.,Strathmann, H., Balakrishnan, S., Pontil,M., and Fukumizu, K. Optimal kernel choicefor large-scale two-sample tests. InNIPS,2012b.

[20] Gretton, A., Borgwardt, K., Rasch, M., Sch¨olkopf, B.,and Smola, A. A kernel two-sample test.Journalof Machine Learning

Research, 13:723–773, March 2012a.

[21] Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever,I., and Salakhutdinov, R. R. Improving neural networks by preventing co-adaptationof feature detectors. Technical report, arXiv:1207.0580, 2012.

[22] Saenko, K., Kulis, B., Fritz, M., and Darrell, T.Adapting visual category models to new domains. InECCV, 2010.

[23] Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., andDarrell, T. Deep domain confusion: Maximizing for domain invariance.

Technical report,arXiv:1412.3474, 2014.

[24] Gong, B., Shi, Y., Sha, F., and Grauman, K. Geodesic flowkernel for unsupervised domain adaptation. InCVPR, 2012.

[25] Griffin, G., Holub, A., and Perona, P. Caltech-256 objectcategory dataset. Technical report, California Institute of Technology, 2007.

[26] Torralba, A. and Efros, A. A. Unbiased look at datasetbias. In CVPR, 2011.

[27] Weston, J., Rattle, F., and Collobert, R. Deep learningvia semi-supervised embedding. InICML,2008.

[28] Sriperumbudur, B. K., Fukumizu, K., Gretton, A.,Lanckriet, G., and Sch¨olkopf, B. Kernel choice and classifiability for rkhs embeddingsof probability distributions. InNIPS,2009.

翻译“Learning Transferable Features with Deep Adaptation Networks”

相关推荐