论文学习 Multiway Attention Networks for Modeling Sentence Pairs

第一次学习主要以记录论文内容为主

因为是第一次读论文,不知道该怎么才能真正理解,自己的相关知识也不是很多,所以以自己的翻译来带动自己的学习,肯定会有很多不标准的地方,但我想仔细读一下学长推荐的论文,我相信以后我一定能在nlp上做出自己的贡献吧。

Abstract

句子对建模(Modeling sentence pairs)在判断两个句子舰关系中起着至关重要的作用,比如paraphrase identification 和 natural language inference 和 anwer sentence selection 。之前的工作通过神经网络结合注意力集中取得了很好的结果。在这篇论文中,我们提出了多路的注意力网络,运用multiple attention function 通过 matching-aggregation framework来匹配句子对,特别的,我们设计了4个attention functions来在相应的句子中匹配词语。然后,我们汇总了所有方法的匹配信息,结合这些通过所有function获得的信息来获得最后的representation。实验的结果证明了我们提出的multiway attention network 改善了在 Quora Question Pairs , SNLI , MultiNLI 和 在SQuAD 数据集上的 answer sentence selection task。

Introduction

在这篇论文中,我们研究了对成对句子进行建模的任务,目的是为了比较两个句子和判断他们之间的关系。他在很多的研究中都是根本的的技术,比如,在parapphrase identification task , 它被用于确定来个句子是否解释相似,在natural language inference task中, 他被用于判断一个假说句子能否从前提句子中推断出来。在answer sentence selection task 它被使用去获得问题和答案对之间的关系,和排列所有候选的答案句子,Table 1 展示了上述提到的三个例子
论文学习 Multiway Attention Networks for Modeling Sentence Pairs在paraphrase identification中 ,+ 的意思是这是S的解释,否则为 - 。
在natural language inference中 , E C N的意思是entailment , contradiction 和 neutral ,我的体会是这代表这个句子和原来句子意思上的符合程度,entailment表示说这个句子可以通过原来的句子得到,继承了原来句子的意思, contradiction表示这两个句子的意思截然不同, neutral代表的是和原来句子的符合程度不高不低,就像阅读理解中,看着是对的但是文章中并得不到准确答复的句子。
在Answer Sentence Selection中,+代表可以当做这个问题的答案, - 代表不能当做这个问题的答案

——————————————————————————
Paraphrase Identification
S: 她和RH达成协议在今天写一本书
+: 她和RH签订了一个合同来写一本书
-:它否认了今天自己和RH达成协议
Natural Language Inference
S:孩子们正在笑着向摄像机招手
E:现在这里有孩子们
C:这些孩子在皱眉
N:他们正在对着他们的父母笑
Answer Sentence Selection
Q:冰川洞穴是怎么形成的
+:一个冰川洞穴是在冰川的冰中形成的
-:冰的表面大约有60米长
——————————————————————
以前的使用神经网络结合注意力集中机制在这个任务上展现出了非常好的效果,这些方法可以被设计成两个框架,一个框架是通过分开对每个句子进行编码进行建模,然后基于这两个representations做出决定。这个框架的限制在于两个句子在编码阶段没有进行相互作用。有一些方法应用注意力集中去改善两个句子的相互影响。它经常使用一个句子的representation去 attend 别的句子,但是这样仍然是在句子级别上进行工作但是缺少词语级别上的相互影响。第二种框架是基于matching-aggregation 框架。 它应用注意力专注在词语级别去改善两个句子的词语匹配。然后匹配的信息被合并到句子级别去做出决定,这个框架可以进行词语级别的交互从而得到阶段性的结果。受到这个框架的启发,我们认为在词语级别进行匹配在句子对建模上是非常重要的。

最后,我们建议使用多路注意力网络(MwAN)进行句子对建模,我们建议使用多重注意力方法在词语级别进行两个句子的匹配。特别的一点是,我们使用四种注意力函数(attention function),包括被 Rockt¨aschel用于自然语言推断的级联注意力函数(concatenated attention function),还有被chen et al 在阅读理解中被用于匹配问题和文章的双线性注意力函数(bilinear attention function),除了这两个广泛使用的注意力函数,我们使用两个额外的注意力函数来计算词语关联

未完待续…