Model-Agnostic Meta-Learning for Relation Classification with Limited Supervision论文解读(将元学习应用于自然语言处理)

元学习在图像分类任务上取得了长足的进展,但是在自然语言处理领域却鲜有研究。本文对MAML进行了改编,并将改编后的方法应用于自然语言处理领域的关系分类任务。

贡献点

  1. 提出了应用于自然语言领域中关系分类任务的元学习方法。

1 引言

关系分类是指判别出两个实体之间存在的关系,它的下游有许多人工智能应用,包括问答,知识库和网络搜索。长期以来进行关系分类任务上的方法都依赖于大量的标记数据,但是很多时候标记数据都是很昂贵的。但是本文提出的元学习关系分类方法仅需要少量的标记数据就能达到不错的预测性能。

2 方法

如果我们考虑将每个关系RiR_i视作一个任务,将p(R)p(R)看成任务的分布。一种关分类方法是以多任务的形式训练一个多分类的分类器。这种方法的优化目标如下:
θ=minθRip(R)LRI(fθ) \theta^* = \min_{\theta} \sum_{R_i \sim p(R)}L_{R_I}(f_\theta)
而作者提出了使用元学习的方法在所有任务上学习出一个良好的初始化参数,然后再少量标记数据上进行微调,从而在测试集上达到较好的性能。

以下是本文的算法。

Model-Agnostic Meta-Learning for Relation Classification with Limited Supervision论文解读(将元学习应用于自然语言处理)

需要特别注意第9行,这是跟MAML方法不同的地方。下面算法的重要步骤:

  1. 在第一个学习阶段,每次迭代开始的时候都将采样出一个批量的任务;(Line 3)
  2. 然后对于每个关系,我们将采样出一个批量的样本;(Line 5)
  3. 通过在采样出的样本上首先计算出训练损失的梯度(Line 6)以及用SGD或 Adagrad方法对参数进行更新(Line 7),从而获得一个改造后的参数θi\theta_i'
  4. 最后,在学习迭代结束时,对批次中每个采样的关系上的改造后的参数取平均,并对模型参数θ\theta进行更新。(Line 9)
  5. 使用训练时一模一样的数据,对模型fθf_\theta进行微调。(Line 11)这里的微调是指正常进行有监督学习的训练,而不是进行元学习的训练。

3 实验

4.1 模型

作者使用了TACRED-PA[1]模型和GCN模型[2]对MLRC方法进行了验证。

[1]: Yuhao Zhang, Victor Zhong, Danqi Chen, Gabor An- geli, and Christopher D Manning. 2017. Position- aware attention and supervised data improve slot fill- ing. In Proceedings ofthe 2017 Conference on Em- pirical Methods in Natural Language Processing, pages 35–45.

[2]: Yuhao Zhang, Peng Qi, and Christopher D. Manning. 2018. Graph convolution over pruned dependency trees improves relation extraction. In Proceedings of the 2018 Conference on Empirical Methods in Nat- ural Language Processing, pages 2205–2215. Asso- ciation for Computational Linguistics.

4.2 实验设定

在训练过程中,我们为所有模型提供相同比例的随机抽样监督样本。 此外,对于每个实验,在所有模型中,每个部分中的监督实例完全相同。 我们通过取十次不同实验的平均值来报告每个实验的结果。

4.3 数据集

作者在 SemEval-2010 Task 8 关系分类数据集和TACRED数据集上进行了实验。其中SEMEval数据集有8000个训练样本和2717个测试样本。

4.4 实验细节和超参数

作者在所有的模型上使用同样的数据。对于MLRC模型,假如取总训练集的10%来作为元学习的训练数据,则在微调阶段,也将使用这同样的10%的数据继续微调。需要再次强调的是,元训练阶段和微调阶段使用的数据是一模一样的!

4.5 实验结果

Model-Agnostic Meta-Learning for Relation Classification with Limited Supervision论文解读(将元学习应用于自然语言处理)

从这个图上可以看出,应用了元学习之后,在少量监督样本的条件下,模型预测性能有了一点幅度的提高。

5 结论

通过将关系分类作为元学习的一个实例,即使在少量监督信息的情况下,关系分类模型的性能也可以得到改善,并提出了一种与模型无关的学习方法,用于训练关系分类器在有限的监督设置中具有增强的预测性能。