论文阅读笔记之——《Dynamic Conditional Networks for Few-Shot Learning》

DCCN由双子网组成:DyConvNet包含一个动态卷积层和一组基滤波器;CondiNet预测从条件输入到线性组合基滤波器的一组自适应权值。通过这种方式，可以动态地为每个条件输入获取特定的卷积核。滤波器组在所有条件下都是共享的，因此只需要学习一个低维权向量。当训练数据有限时，这大大促进了跨不同条件的参数学习。我们对DCCN进行了四项任务的评估，这些任务可以表述为条件模型学习，包括特定对象计数、多模态图像分类、短语基础和基于身份的人脸生成。大量的实验证明了该模型在有条件小波学习环境下的优越性。

条件模型是一种重要的机器学习框架，可用于多种任务，如多模态学习和条件生成模型。它通常包含两个输入。一个是任务兴趣，另一个是条件输入，提供特定情况的附加信息。近年来，由于深度神经网络在计算机视觉[13,15]、自然语言处理[37,19]、语音识别[26,1]等许多重要领域取得了前所未有的进展，深度条件模型引起了人们的广泛关注。然而，在具有挑战性的条件性少拍学习场景中，由于条件性空间的高维性，虽然训练样本的总数可以很大，但是每个条件的训练样本都是有限的，因此，他们的学习效果通常会下降。

基于深度学习的方法通常需要大量的标签数据进行训练，同时还需要专门的计算平台和优化策略来实现令人满意的性能。由于过度拟合问题严重，训练样本量较小的学习问题往往导致学习成绩严重下降。相比之下，人类，甚至儿童都能非常快地掌握一个新概念(如长颈鹿)，高效地取样，并能从对少数例子(如书中的图片)的短暂接触中合理地归纳出新的案例[4,20]。这一现象激发了对少拍学习问题的研究，即，任务是动态地学习一个新概念，从每个类别的几个甚至一个带注释的示例中学习[3,36]。

Few-shot学习无论在学术上还是在工业上都具有重要意义，因为1)模型在这项任务上的出色表现将有助于减轻昂贵的和劳动密集型的数据收集和标记，因为它们不需要大量的标记训练数据来实现合理的性能;2)实际的目标数据通常有大量不同的类别，但每个类别的例子很少。例如，当机器人在自然环境中工作时，在每个[17]只看到几个例子后，应该能够识别出许多不熟悉的物体。在这些场景中进行泛化的能力将有助于更有效地对实际数据分布进行建模。

在本文中，我们主要关注于改进两种条件少拍学习场景下的模型，即区别的和生成的。判别模型通常采用手工制作的特征，并付出巨大的人力工程努力，然后采用度量学习算法，或从大量标记数据中提取深度学习解决方案。然而，这种数据驱动的方法在计算上过于复杂，无法满足实际应用。此外，覆盖所有潜在变化的大量带标签的训练数据通常是昂贵和不可用的。生成模型通常利用数据生成模型，如生成对抗网络(GANs)[10]、条件生成对抗网络(Conditional-GANs)[24]、边界均衡生成对抗网络(BE-GANs)[2]等来合成辅助训练数据进行数据扩充。然而，在目前的生成方法中，合成数据的质量还远远不能满足实际分析任务的需要。

摘要为了解决具有挑战性和现实意义的条件极值学习问题，我们探索了一种新的方法，即从每个条件的几个标记示例中学习一个深度条件模型，这种方法可以很好地推广到相同条件下的其他情况。这些条件可以基于类别标签、数据的某些部分，甚至来自不同模式的数据。此外，为了实现高效的实时计算，我们将这个有条件的小波学习问题以端到端方式联合化为双子网学习。其中一个子网叫做DyConNet，它包含一个动态卷积层和一组可训练的基滤波器。给定任何条件输入，另一个子网CondiNet预测一组自适应权值来线性组合基过滤器。通过这种方式，可以动态获得每个条件输入的具体卷积核，如图1所示。