论文阅读 Multi-Task Deep Neural Networks for Natural Language Understanding

这是今年arXiv上Microsoft Research的一篇文本embedding的文章,原文在Multi-task DNN

这篇文章的思路很简单,在BERT的基础上,用multi-task learning对embedding layer进行fine-tuned,但在GLEU benchmark上的实验结果非常好,九个NLU任务中八个的表现都有提升,benchmark提升了足足2.2%。

Motivation
训练text embedding有两种比较流行的方法,multi-task learning和language model pretraining。前者利用关联任务的有标签数据协助训练,后者利用大规模无标签数据进行训练。BERT就是后者一个非常出名的代表模型。作者声称这两种方法是可以互补的,提出了MT-DNN模型,先用language model预训练出一个embedding layer,然后利用多任务训练进行微调。MT-DNN模型在GLEU上表现非常出色,相比BERT有很大提升,且表现出了更好的迁移能力。

模型
论文阅读 Multi-Task Deep Neural Networks for Natural Language Understanding
模型分为shared layers和task specific layers两个部分,shared layers由lexicon encoder和transformer encoder组成,前者提取文本向量,即词向量和句向量,后者利用attention模型提取语义向量。task specific layers由四个单独的任务模型组成,作者将NLU任务分成了四类,图中用GLEU的九个任务作为例子,说明是如何分类,具体定义可以查看task section。

算法
论文阅读 Multi-Task Deep Neural Networks for Natural Language Understanding
算法前面已经提及,先用language model预训练出一个embedding layer,然后利用多任务训练进行微调,很直观。

实验

作者在GLEU benchmark上测试了MT-DNN在NLU任务的效果,并在SNLI和SciTail两个数据集上测试了MT-DNN的迁移能力,或者说模型的泛化表现。

论文阅读 Multi-Task Deep Neural Networks for Natural Language Understanding
上图是MT-DNN在GLEU test dataset上的表现,可以看到除WNLI外,其余八个任务都超过了对比模型。

论文阅读 Multi-Task Deep Neural Networks for Natural Language Understanding
上图是MT-DNN在SNLI和SciTail两个数据集的验证集上的表现,在使用同等数量新领域中有标签的训练数据时,MT-DNN的准确率明显高于BERT,表明其具有更好的普遍性,或者说迁移能力。