【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

       本文是Facebook AI team发表在EMNLP2018,个人觉得比较有意思。文章主要目的是验证NLP领域做迁移学习的可行性,在多种NLP任务上进行sentence level的embedding,实验得出在NLI任务上进行预训练的表达在迁移学习的效果上是最好的,作者认为这是由于NLI任务使得句子向量中蕴含了句法或知识等对句子含义的理解。文章同时还探索了做NLI迁移学习的不同模型,实验表明BiLSTM-maxpooling作为编码器效果最好。文章用具体任务来做Sentence Representations预训练这种方式还是很自然也很有想法的。

(1)基本的NLI模型结构

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

训练这种模型通常有两种不同的方式:一种是基于句子的编码方式,显示的分离单个句子的编码,二是允许使用两句话编码的联合方法,即使用从一个句子到另一个句子的交叉特征或注意力。本文采用第一种

(2)encoder方案

本文使用的七种主流的encoder方案进行对比:

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

在后续的迁移任务中效果最好的是BiLSTM-MaxPooling,

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

但其中提到的Inner-attention和H ierarchical ConvNet architecture也很有意思,这里把结构图列出来:

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

(3)在不同的任务上证明了本文提出的NLI预训练进行迁移学习的可行性

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

(4)embedding size对效果的影响

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

可以看出增大embeding size对迁移学习的提升是有好处的。