《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

此篇文章是对论文 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks的纯翻译,英语水平有限,很多地方是直接翻译,有不对的地方还请大家指正。之后会出一篇详细的讲解版本,敬请期待。。。

摘要

这篇文章提出一个模型无关的元学习算法,该算法适用于任何一个可使用梯度下降更新训练的模型,并且可用于分类、回归、强化学习等场景。元学习的目标是在大量不同的任务上预先训练出一个模型,用这个模型可以在新任务的少量样本上进行训练。本文提出的方法中,该模型已经被训练出不错的参数,因此使用这组参数在新任务的少量样本上只需要经过几步梯度更新的微调就可以取得不错的泛化效果。我们的模型在目前少样本学习的两个 图片分类 benchmarks 任务中都取得了最好的成绩,并且在少样本回归问题及策略梯度的强化学习中也都取得了很好的结果。

1.介绍

快速学习是人类的一个特点,比如即使见过很少的样本也能分辨这些类别或者经过几分钟训练就能学会一个新技能。那么人工智能应该也能做同样的事情,从少量样本中学习并且快速适应,随着样本量的增多还能持续调整。但这种快速且灵活的学习具有很大的挑战,因为人工智能必须将之前学习的经验与少量的新信息集成在一起,同时避免在新数据上发生过拟合。此外,以往经验和新数据的形式将取决于任务,因此,为了获得更大的适应性,学习如何学习(元学习)的机制应该适用于任务及完成该任务所要求的计算方式。

在这项工作中,我们提出一个通用的和模型无关的元学习算法,它可以用于任何学习问题并且这个模型是通过一次梯度下降更新得到的。这篇文章聚焦深度神经网络,但我们说明了我们的方法如何轻松的处理不同网络架构及不同学习问题,包括分类、回归、策略梯度强化学习。在元学习中,训练的模型的目标是在新任务的少量样本中快速学习,这个模型是通过 meta-learner 在大量不同的任务中预先训练好的。这个方法的核心思想是预训练出模型的初始参数,继而使用这些初始参数在新任务的少量样本上经过一次或者多次梯度下降的微调就可以获得最大性能。与之前元学习研究中学习更新函数或者更新规则的方法((Schmidhuber, 1987; Bengio et al., 1992; Andrychowicz et al., 2016; Ravi & Larochelle, 2017))不同,我们的算法并没有扩展模型参数也没有限制模型结构(Santoro et al., 2016) or a Siamese network (Koch, 2015)),比如要求是递归神经网络等,而且我们的算法可以很方便的和全连接网络、卷积网络、递归网络相结合,它还可以用于各种不同的损失函数,包括监督学习下的不同损失函数及不可微强化学习目标。

经过少量几次甚至是一次梯度更新,在新任务上就可以取得不错的效果,可以从特征表示的角度来看待,即构建适用于多任务的模型内部表示,这样只需要微调模型(如主要修改模型的顶层参数)就可以在新任务上产生很好的效果。实际上,我们的程序对模型做出了优化,以使得它可以简单快速地进行微调,在正确的学习空间中快速适应。从动力系统的角度看,我们的学习过程可以看做是使新任务的损失函数对参数的敏感度最大化,当敏感度高时,参数的微笑变化就可以导致损失函数的大幅度变化。

这项工作的主要贡献是提出一个简单的模型无关且任务无关的元学习算法,就是训练出模型的初始参数从而在新任务上经过少量几次梯度更新就可以快速适应。该算法适用于不同的网络模型,包括全连接网络、卷积网络以及多个不同领域,如少样本下的回归、分类和强化学习。评估表明,在特别设计的有监督分类问题中,与之前最先进的少样本学习模型相比,我们的模型使用了更少的参数,它同样适用于回归任务,并且可以在任务可变性的情况下加速强化学习,大大优于初始化的直接预训练。

2 Model-Agnostic Meta-Learning

我们的目标是训练可以快速适应的模型,任务设定是小样本学习场景,在这节中,我们将定义任务设定并给出我们算法的一般形式。

2.1 元学习问题设定

小样本学习的目标是训练一个模型,它在一个新任务上只用少量样本经过少数几次迭代就可以适应。为了实现这一目标,这个模型是在元学习阶段在大量任务上训练得到的,所以被训练过的模型可以在新任务的少量样本上快速适应。实际上,元学习阶段把所有的 tasks 当做训练样本。在本节中,我们设置了一个通用的形式来表述元学习问题,包括几个不同学习领域的问题示例。我们将会在第三节中详细地讨论两种不同的学习领域。

我们用 f 表示一个模型,它将观察样本 x 映射到输出 a。在元学习训练阶段,该模型被训练成能够快速适应大量任务,由于我们想将我们的框架应用于不同的领域,例如从分类到强化学习,我们在下面介绍了一个一般的学习任务的表示,每个任务可以表示为 《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记,其中 L 是损失函数,q(x1)是初始观察的 x 的分布,q(x t+1∣x t,a t)是过渡分布,episode 长度是 H,在独立同分布的监督学习问题中,这个长度 H=1,模型在每个 t 时刻,选择一个输出 at 可以生成长度为 H 的样本。损失函数 L 是具体任务的反馈,反馈的形式可以是错误分类 loss 或者马尔科夫决策过程中的成本函数。

在我们的元学习场景中,考虑一个任务分布 P(T),我们希望模型能够适应这个分布。在 K-shot 学习的问题设置中,从任务分布 P(T) 中抽样一个任务 Ti,从 qi 中抽取 K 个样本用,模型在这 K 个样本上训练,生成任务 Ti 的损失函数 Lti,然后在任务 Ti 的新样本上进行测试。模型 f 关注 qi 中抽样的新数据的测试误差随参数的变化情况,以次来提高模型性能。实际上,在所有抽样任务 Ti 上的测试误差构成了元学习训练阶段的训练误差,在元学习的最后阶段,从任务分布 P(T) 中抽样一些新任务,每个任务具有 K 个样本,通过 K 个样本的学习后,模型的性能作为元训练阶段的模型评估性能。通常用于元测试的任务存在于元训练期间。

2.2 一个模型无关的元学习算法

与之前的工作不同,之前的研究试图在全部数据上训练递归神经网络(San- toro et al., 2016; Duan et al., 2016b) 或者 feature embedding 空间,从而可以在测试时使用非参数化的方法(Vinyals et al., 2016; Koch, 2015),我们提出一种可以学习任何标准模型参数的元学习算法,在这种方式下训练出的模型可以快速适应。这种方法背后的思想是,一些内部表示比其他表示更加容易迁移,例如,神经网络可能会学习到广泛应用于 P(T) 中所有任务的内部特征表示,而不是单个任务的特征表示,我们如何能让这种通用表示出现呢?

我们提出了明确的方法来解决这个问题:既然模型最终是要在新任务上通过一次梯度下降更新来微调,那么我们训练时的目标就使用这个规则来更新,使得模型可以在 P(T) 中抽样的任务上快速适应,同时不会产生过拟合。实际上,我们旨在找到一组对任务中变化比较敏感的参数,这样,当 loss 的梯度方向发生改变时,参数的微小变化将对从 P(T) 中抽样的任务的损失函数产生较大的变化,见图 1。我们对模型的形式不做任何限制,只是假设它可以由一些参数向量 θ 参数化表示,并且可以用梯度下降的技术来更新 θ。
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

MAML 算法的示意图,旨在优化可以快速适应新任务的参数表示 θ

在形式上,考虑一个由参数θ表示的模型 f(θ),当在一个新任务 Ti 上学习时,参数 θ 变成 θi’。在我们的方法中,θi’是在任务 Ti 上经过一次或更多次梯度下降更新得到的,比如一步梯度更新表示为:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

步长 α 是元学习阶段的超参数,简单起见,我们在剩余的章节中都只考虑一次梯度更新,但是使用多次梯度更新只是一个直接的扩展。

模型的参数通过优化所有任务上的 fθif_θi' 来进行更新,更具体的,元学习的训练目标如下所示:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

需要注意的是,元学习阶段的优化是在模型参数 θ 上进行的,而上述目标是使用更新过的 θθ'得到的。实际上,我们提出的方法是要在新任务上通过一次或几次梯度更新来优化模型参数,这样可以在新任务上产生最大性能表现。

meta 的优化是通过梯度下降进行更新的,meta 更新模型参数的过程如下:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

其中 β 是 meta 更新时的步长,完整的算法流程在下图中进行概述:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

要求 P(T) 是所有任务服从的分布
要求 α,β 是步长超参数

  1. 随机初始化网络模型参数 θ
  2. while 循环(此行代表 meta train,如迭代次数等)
  3. 从任务分布 P(T) 中随机抽样 batch 个 tasks
  4. 遍历所有的任务,对每个任务 Ti 执行:
  5. 在任务 Ti 的 K 个样本上计算出模型 f(θ) 对 θ 的偏导
  6. 使用梯度下降更新参数 θ:θi=θαθ_i'=θ-α⊽
  7. batch 个 Ti 都执行完结束本次循环
  8. meta 更新模型参数 θ
  9. while 结束即完成 meta 训练过程

MAML meta 部分的梯度包含一个梯度到另外一个梯度,在计算上,这需要一个额外的反向传播,通过 f 来计算 Hession 向量集,这个过程可以由标准计算库得到,如 TensorFlow。在我们的实验中,比较了不采用这部分反向传播而使用一阶微分近似的方法,在 5.2 节中会再次讨论。

3 MAML 实例

在这节中,我们讨论几个监督学习和强化学习中具体的元学习的例子,这些领域只是在损失函数的形式、任务生成数据的方式以及数据呈现给模型的方式不同,但是在这些场景中都可以应用相同的基本适应机制。

3.1 有监督分类和回归任务

在监督学习领域中,少样本学习得到了很好的研究,少样本学习的目标是利用元学习中相似任务的先验数据,在该任务的几个 <input, output> 数据中学习一个新函数。例如,目标可能是在看到 SegWay 的一个或几个样本后就可以对图片进行分类,而这个模型之前已经看到了很多个类似的物体。同样地,在少样本回归任务中,目标是通过在很多个具有相似分布的任务上进行训练,然后从该分布中抽样出几个数据点让模型预测出连续值函数的输出。

在 2.1 节中介绍了元学习定义下的有监督分类和回归问题,为了公式化的说明问题,我们定义 episode 长度 H=1,因为监督学习场景下,模型只接受一个输入数据然后生成一个输出,而不是序列化的输入。任务 Ti 的分布是 qi, 并从中生成 K 个独立同分布的样本,任务的损失函数表示为模型预测输出和真实输出直接的误差。

有监督分类和回归问题中,两个常见的损失函数是交叉熵损失和 MSE 损失,其他类型的损失函数也可以使用。对于回归问题,使用均方误差损失,其 loss 形式为:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记
在 K-shot 回归任务中,每个任务只有 K 个 <输入/输出> 对。
针对离散的分类问题,使用交叉熵损失函数:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

K-shot 分类任务中,每个类别也使用 K 个 <输入/输出> 对进行训练,对于一个 N-way 的分类任务,一共有 NK 个数据点。给定任务分布p(Ti) ,损失函数可以直接使用 2.2 节中的公式来执行元学习的训练,整个算法流程如下:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

要求:P(T) 是所有任务的分布集合
要求:α,β 是步长超参数

  1. 随机初始化网络模型参数 θ
  2. while 循环(此行代表 meta train,如迭代次数等)
  3. 从任务分布 P(T) 中随机抽样 batch 个 tasks
  4. 遍历所有的任务,对每个任务 Ti 执行:
  5. 从任务 Ti 中抽取 K 个样本的训练数据集 D
  6. 使用交叉熵损失函数或者均方差损失函数,在 D 上计算出损失函数 Lti 和 损失函数对 θ 的梯度
  7. 该任务使用梯度下降更新参数 θ:θi=θαθ_i'=θ-α⊽
  8. 从该任务 Ti 中抽样出测试集 D’,用于 meta 的参数更新
  9. batch 个 Ti 都执行完结束本次循环
  10. meta 更新模型模型参数 θ=θβθ=θ-β⊽,使用每个任务 Ti 的测试集 D’ 上的的 loss 和对参数 θ 的梯度来更新模型参数
  11. while 结束即完成 meta 训练过程

3.2 强化学习
强化学习不是很熟悉,暂时略过此部分。。。

4.相关工作

我们在论文中提出的方法适用于一般的机器学习问题,包括少样本学习问题。一个流行的元学习的方法是训练一个 meta 学习器来学习如何更新模型参数 (Bengio et al.,1992; Schmidhuber, 1992; Bengio et al., 1990),这个方法已经被用于来学习如何优化深度神经网络(Hochreiter et al., 2001; Andrychowicz et al., 2016; Li & Malik, 2017)。最近的一种方法是,在少样本图像识别数据上,同时学习出权重初始化和优化器,与这些方法不同,MAML 模型参数是使用梯度下降来更新的,而不是一个学习到的更新方式。我们的方法没有引入额外的参数并且没有要求具体的网络结构。

有的研究在一些特定的领域如生成模型(Edwards & Storkey, 2017; Rezende et al., 2016)和图像识别领域(Vinyals et al., 2016)上,开发了少样本学习的方法。少样本图像分类问题中的一个比较成功的方法是,在学习到的度量空间中比较新样本的距离,如孪生网络(Koch, 2015) 或者 带有注意力机制的递归网络 (Vinyals et al., 2016; Shyam et al., 2017; Snell et al., 2017). 这些方法已经产生了成功的效果,但是很难直接扩展到其他问题,如强化学习。相反,我们的方法是和模型的形式及特定的学习任务无关的。

另一个元学习的方法是在很多任务上训练记忆增强网络,当新任务推出时,递归网络被训练来适应新任务。这样的网络已经被用于少样本的图像识别任务中(Santoro et al., 2016; Munkh* & Yu, 2017) 和学习“快速”强化学习体(Duan et al., 2016b; Wang et al., 2016).我们的实验证明,我们的方法在少样本分类问题上要优于这种递归方法。另外,和上述这些方法不同,我们的方法只是简单地提供了很好的参数初始化,并且使用同样的梯度下降法来更新学习器和元学习器。因此,通过对学习器进行额外的几次梯度更新微调就可以适应新任务。

我们的方法也和深度神经网络的初始化方法有关。在计算机视觉中,在大规模图像数据集上预训练的模型已经被证明可以在一系列问题上学习到有用的特征,经常被用作初始化 (Saxe et al., 2014; Kirkpatrick et al., 2016).其中的大多数工作都使用了比较好的随机初始化,有些论文中已经解决了数据依赖的初始化问题(Kra ̈henbu ̈hl et al., 2016; Salimans & Kingma, 2016),包括学习的初始化 (Husken & Goerick, 2000; Maclaurin et al., 2015)。相反,我们的模型明确地训练了给定任务分布上的参数敏感性,可以非常有效地适应 K-shot 少样本学习和快速强化学习问题,只需要一次或少量几次梯度更新微调。

5.实验评估

我们实验评估的目标是回答下述问题:(1) MAML 可以快速适应新任务吗?(2) MAML 可以用于包括有监督分类、回归和强化学习的不同领域的元学习吗?(3) 用 MAML 训练出的模型能否通过额外的梯度下降或更多的样本来持续提升性能 ?

我们考虑的所有元学习问题都要求在测试阶段对新任务进行同样程度的适应,我们将任务的真实标识作为额外的一个输入进行训练,以此得到的模型评估结果作为模型性能的上限,作者称这种情况为 oracle,我们将 MAML 的结果与这种情况进行比较。所有的实验都是使用 TensorFlow 实现的,TensorFlow 可以元学习的参数更新中进行自动微分,实验代码是在网上可获得的。

5.1 回归

我们先从一个简单的回归问题开始,它说明了 MAML 的基本原则。每个任务都是 sine 曲线输入到输出的回归,不同任务的正弦分布,其振幅和相位是不同的,所以 p(T) 是连续的,设定振幅在 [0.1,5.0]之间变换,相位在 [0,π]之间变换,每个任务的输入和输出的维度都是1。在训练和测试期间,数据 x 是从[-5.0,5.0]之间均匀采样,损失函数是 MSE 损失。回归器是一个2层的神经网络,每层的单元数是 40并且使用 RELU **函数。在训练 MAML 时,每个任务只使用 10 个训练样本并且只用一次梯度更新,任务学习器上的更新步长α=0.01,使用 Adam 来更新 meta 参数。baselines 中也是使用 Adam。为了比较性能,我们微调一个训练过的 MAML 模型,它是在不同的 K 个样本的任务上训练得到的,与以下2不baseline 进行比较:(a)在所有任务上进行模型预训练,即预训练一个网络去拟合多个随机采样的正弦函数,然后在测试阶段,在提供的 K 个样本的新任务上,使用梯度下降来微调这个预训练模型,更新时使用自动调整的步长。(b)oracle 设定,即训练时接收真实振幅和相位作为输入。
在附录 C 中,我们展示了与其他多任务和适应方法的结果比较。

我们评估的是经 MAML 训练过的模型在 K=(5, 10, 20)个数据点的新任务上微调后的性能。在微调时,都是在相同的 K 个数据点上计算梯度进行更新,图2中展示了一些定性的结果,更多的扩展结论在附录 B 中展示,这些结论表明我们学习到的模型能够快速适应仅含有 5 个样本点的新任务,在图 2 中显示为紫色的三角形,但是使用标准监督学习方法在所有任务上预训练的模型在如此少量的样本上不能很好的适应,在不发生过拟合的情况下。关键的一点是,当这 K 个训练样本都在输入范围的一半时,用 MAML 训练出的模型仍然可以推断出该范围另一半的振幅和相位,这表明 MAML 训练的模型 f 已经学习到了正弦函数的周期性。此外,我们观察到一些定量和定性的结论(图3和附录B),那就是 MAML 训练出的模型可以通过额外的更多步的梯度下降微调继续提升模型性能,尽管在元训练阶段就考虑了一次梯度下降就可以获得最大性能。这个提升结果表明 MAML 优化了模型参数,使得它们处于一个可以快速适应并且对 P(T) 中的loss函数敏感的区域,就像在 2.2 节中讨论的那样,而不是过度拟合到仅在一次更新后有提升的参数。
下图展示的是正弦函数少样本回归的实验结果:
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

左边两个图:MAML 可以学习出另外一半没有样本的曲线分布,表明模型学习到了正弦函数的周期性质。右边两个图:在同样的任务上微调不使用 MAML 进行预训练的模型,由于预训练是在多个输出相互矛盾的正弦函数上进行的,因此预训练模型不能学习出一个合适的表示,并在在测试任务的少量样本上,产生了很失败的推理。

《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

图3,在 meta 测试任务中,正弦函数回归的定量结果,注意 MAML 可以通过额外次数的梯度下降微调来持续提高性能,而没有在少量样本上发送过拟合,经过微调,MAML 可以达到明显低于 baseline 的 loss 值。

5.2 分类

为了评估 MAML 与之前元学习算法和少样本学习算法的性能,我们在 Omniglot 和 MiniImagenet 这两个少样本图片分类的数据集上应用 MAML。Omniglot 数据由 50 个不同字母的 1623 个字符组成,每个字母有 20 个实例,每个实例都是不同的人手写完成。MiniImagenet 数据是 Ravi & Larochelle (2017) 提出的,包含 64 个训练类别,12 个验证类别和 24 个测试类别,这两个数据集的图像分类任务是目前最常用的少样本学习的基准 (Vinyals et al., 2016; Santoro et al., 2016; Ravi & Larochelle, 2017)。我们按照 Vinyals et al. (2016) 提出的实验方案,涉及在1个或5个样本上的 N 分类。少样本 N 分类问题设置如下:选择 N 个没有见过的类别,每个类别提供给模型 K 不同的实例用于训练,然后评估模型对这 N 个类别中的新样本的分类能力。在 Omniglot 数据上,我们随机选择出 1200 个字符用于训练,不管对应的字母是什么,然后使用剩下的字符进行测试。像 Santoro et al. (2016)提出的那样,我们对Omniglot数据集进行 90 度旋转进行数据增强。

我们的模型设计按照 Vinyals et al. (2016)提出的嵌入函数的结构, 即包含 4 个带有 3*3 卷积和 64 个过滤器的模块,每个模块使用了 batch normalization (Ioffe & Szegedy, 2015),Rulu **函数和 2*2 的最大池化。在 Omniglot数据上,每个图片被下采样到 28*28 大小,所以最后一层隐藏层的维度是 64.和 Vinyals et al. (2016) 使用的分类器一样,最后一层的结果输入到 softmax 函数中。在 Omniglot 数据上没有使用最大池化,而是采用带有步长的卷积操作。在 MiniImagenet 数据上,每层使用 32 个过滤器以降低过拟合 (Ravi & Larochelle, 2017)。为了和记忆增强网络(Santoro et al., 2016)进行公平的比较并且测试 MAML 的灵活性,我们也提供了非卷积网络的结果,使用了4层的全连接网络,每层的大小分别是 256,128,64,64,每一层还包括 batch normalization 和 Relu **函数,然后是线性层和 softmax。所有的分类模型都使用交叉熵损失函数,额外的超参数细节在附录 A.1 中进行展示。
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

上图是 Omniglot 数据上少样本分类结果,下面的图是 MiniImagenet 数据上少样本分类结果。MAML 的效果要优于之前表现较好的卷积网络和递归网络,Siamese nets, matching nets, and the memory module 这三个方法是专门用于少样本图片分类的,并不能直接用于回归或强化学习问题中。注意 Omniglot 数据上的结果可能不是严格的比较,因为之前工作中划分训练集和测试集的方法是不可获得的。MiniImagenet 表格中 baseline 方法评估和 matching 网络的评估结果是来自 Ravi & Larochelle (2017)

我们在表1中展示这些对比结果,MAML 学习的卷积网络达到了最好的结果,比之前的方法表现好一些,先前的一些工作,如匹配网络、孪生网络、记忆网络,它们都是针对小样本学习设计的,并不能很快捷地应用到强化学习之类的其他领域,此外,与这些模型相比,MAML 使用的模型具有更少的参数,因为我们的算法没有引入除了模型自身参数外的其他参数。与之前的这些方法相比,尤其是递归元学习网络,MAML 代表了一种更广泛应用的方法,可以被应用到其他任务如强化学习。从比较结果中可以看出,MAML 在 Omniglot 和 MiniImagenet 两份数据上的5分类任务中,都要明显优于记忆增强网络和 LSTM 元学习器,无论是包含1个训练样本还是5个训练样本。

MAML 中一个明显的计算开销是来自于,meta 使用反向传播更新参数时的二阶微分计算(参考公式 1)。在 MiniImagenet 数据上,我们对比了 MAML 不使用二阶微分而采用一阶微分近似的结果,注意,这个方法仍然是在 θiθ_i'参数上计算元更新的梯度,这样可以有效的提高元训练的速度。令人惊奇的是,这个方法的性能和完全使用二阶微分相比,差别不大,这表明,MAML 中大部分的性能提升来自更新后参数值目标处的梯度,而不是通过梯度更新微分得到的二阶梯度更新。过去的工作发现 Relu 神经网络在局部是近乎线性的(Goodfellow et al., 2015), 这表明二阶梯度在大多数情况下是接近于0的,部分解释了一阶近似的良好性能原因,这种近似去掉了计算 Hessian-vector 积的计算开销,我们的实际的网络计算中发现,这种近似可以带来大约 33% 的加速效果。

5.3 强化学习

略过。。。

6 讨论和未来的工作

我们介绍了一种通过梯度下降来快速学习模型参数的的元学习方法,我们的方法又很多好处,它很简单而且没有引入其他元学习参数,它还可以和任何基于梯度下降进行更新的模型表示相结合,以及任何可微分的目标函数,包括分类、回归和强化学习。最后,因为我们的模型仅仅提供了一个权重初始化,所以可以使用任意数量的数据和任意次梯度下降更新来提升性能。我们证明,在每个类别只有一个或五个样本的分类任务上,我们的模型表现出了最先进的结果。我们也证明了我们的方法可以适应强化学习智能体,使用策略梯度更新和非常有限的经验。

重用过去任务的知识可能是生成高容量可伸缩模型的关键因素,如可以在少样本数据上快速训练的深度神经网络。我们相信这项工作是朝向简单且通用的元学习技术迈出的一步,该技术可以应用到任意问题和任何模型。这个领域中的进一步研究可以使多任务的初始化成为深度学习和强化学习的一个标准组成部分。