Neural Summarization by Extracting Sentences and Words

Neural Summarization by Extracting Sentences and Words (2016)

原文地址:https://arxiv.org/pdf/1603.07252.pdf
抽取式自动摘要系列第一篇,选择了一些我觉得挺有用的文献放在了下面,直接查找阅读

Abstract:

提出了一种基于神经网络和连续句子特征的数据驱动方法, 可以从大量的文档中提出句子和单词,在没有任何语言注释的情况下依然取得的不错的成绩。

Introduction

之前的摘要技术大多是人类设计的特征来识别句子,如:句子的位置和长度 [1] ,标题中的单词,专有名词的存在,内容特征,如单词频率(Nenkova 等人,2006) [2] ,以及事件特征,如动作名词(Filatova 和 Hatzivassiloglou,2004) [3]。 在如何选择句子上,过去也有很多传统的方法,如: binary classifiers (Kupiec 等人 , 1995)[4],隐藏马尔可夫模型(Conroy 和 O’ Leary , 2001)[5] ,基于图的算法(Erkan 和 Radev , 2004;Mihalcea , 2005)[6] 还有 integer linear programming (Woodsend 和 Lapata , 2010)[7]。
在之前的一些研究中,Encoder-Deocoder的结构(原文是:sequence transduction neural network architectures)已经被用到了机器翻译,机器问答,句子压缩等任务中,并且注意力机制 (Bahdanau et al., 2015) [8] 也经常被用到其中来定位解码过程中的焦点区域。
该论文定义了一个由层级式的encoder和加了注意力机制的extractor组成的单文档摘要抽取器。文章做了一点创新的是,不同以往的注意力机制,他们直接将注意力拿来做句子和单词的提取(在前人的方法里,注意力机制大多会和原先的encoder内容做点积并求softmax)。
和 Rush et al. (2015) 的方法不同,Rush et al. (2015)的方法只是对文章的标题和首句进行了训练,而该论文对整个文档做了摘要的抽取。从网络的结构上,该文提出了从部分文档中检索结果的想法,这就降低了在海量文本预测一下个文本的难度。

Problem Formulation

这一段大致的意思就是,将句子级别的摘要转换成0,1的二分类,多输入的句子进行分类,将符合条件的纳入摘要当中,而单词级别的则是转换成了语言生成的任务,最大化单词出现的对数概率。(hmmmm可能有点含糊,如果感兴趣可以阅读一波原文)

训练数据

为了满足数据有二分类的标签,他们对原数据做了一些处理,(Woodsend and
Lapata, 2010) [7] ,他们做了一个逆向逼近,生成文章中的highlights. 这篇论文的作者们则是借着这个想法,写了一个rule-based的方法,通过句子的位置,文档中句子和高亮句的unigram和bigram的重叠率来判断是否符合。
单词级别的数据准备(原文翻译):
为了创建词提取数据集,我们检查了高亮词和新闻文章之间的词性重叠。如果所有的高亮词(经过stemming后)都来自于原始文档,那么文档-高亮词对就构成了一个有效的训练实例,并被添加到词提取数据集中。对于 out-of-of-vococabulary (OOV) 词,我们试图找到一个语义上等同于新闻文章中存在的替换词。具体来说,我们检查是否在原始文档中存在一个由预训练的嵌入物表示的邻居,从而构成有效的替换。如果找不到任何替换,我们就丢弃文档-高亮对。按照这个过程,我们获得了一个包含170K篇文章的单词提取数据集,同样来自DailyMail

Neural Summarization Model

重点来了,整体的网络结构的设计。
原文:
The key components of our summarization model include a neural network-based hierarchical document reader and an attention-based hierarchical content extractor.
主要就是一个层级式的文档reader和一个基于注意力机制的层级式的内容提取器。文章中也提到了,之所以是层级式的,是为了体现去单词到句子到段落的这么一个过程。

Document Reader

大致的结构就是使用单层的CNN网络提取到特征后,放入RNN中构建文档级别的特征。CNN的输入是单词级别的,由此获取到句子级别的特征,然后放入RNN中得到文档级别的特征。

Convolutional Sentence Encoder
作者提到之所以用CNN来表达句子特征的一个原因是,单层的网络便于训练,其次是,使用CNN来表达句子已经成功的用到了其他的任务,比如情感分析

Recurrent Document Encoder
在文档层面,一个递归神经网络将一串句子向量组合成一个文档向量。可以把递归神经网络的隐藏状态看成是一个部分表示的列表,每个部分表示主要集中在与上下文中对应的输入句子上。这些表征共同构成了文档表征,它以最小的压缩量捕获到局部和全局的句子信息。为避免传统RNN带来的梯度消失问题,文章里的RNN使用的是LSTM网络。
Neural Summarization by Extracting Sentences and Words

网络结构示意图

Sentence Extractor

这边是本文的一处创新点,他们把注意力机制直接拿来提取句子,而在之前的seq2seq with attention中是将注意力矩阵作为中间步骤处理的。
所谓的句子提取器,其实就是另一个LSTM网络,每个time step输入的是句子级别的信息,然后去判断句子是否是符合条件的。不同于传统的LSTM,这里用的是Encoder-Decoder的结构,所以在编码层,输入是Sentences,这样会得到文档级别的context,而被编码的document encode和label(判断过后的)一起传给Decoder。换句话说,在decoder部分,它的输入是前一时刻预测的句子label和有注意力机制的decoder内容。为了使得训练更加快速准确,他们还引入了训练模式 (Bengio et al., 2015) [9]

Word Extractor

句子的提取,实质上就是单纯的标签预测,分类任务,而单词提取更加倾向于文本生成的任务。在上一任务的基础上,他们使用了一个soft attention来捕捉信息,在decoder端,不再预测句子的标签,而是直接抽取单词,软注意力机制是为了单词更加的顺畅。为了使得单词的输出更加合理,作者们似乎是在decoder端使用的beam search,使得概率最大化。这边要注意的是,此时的注意力是sentence-level,而非word-level。
Neural Summarization by Extracting Sentences and Words

单词提取过程

整体来说,这篇论文不同之前的(2015前)的传统的seq2seq方法,他们使用了层级式的特征提取过程,和数据的一些trick的处理,将问题进行了转化,我觉得这是这篇文章的亮点了。

相关文献:
[1] [Radev et al.2004] Dragomir Radev, Timothy Allison, Sasha Blair-Goldensohn, John Blitzer, Arda Celebi, Stanko Dimitrov, Elliott Drabek, Ali Hakim, Wai Lam, Danyu Liu, et al. 2004. Mead-a platform for multidocument multilingual text summarization. Technical report, Columbia University Academic Commons.
[2] [ Nenkova et al.2006 ] Ani Nenkova , Lucy Vanderwende , and Kathleen McKeown . 2006 . A compositional context sensitive multi-document summarizer : exploring the factors that influence summarization . In Proceedings of the 29th Annual ACM SIGIR , pages 573–580 , Washington , Seattle
[3] [ Filatova and Hatzivassiloglou2004 ] Elena Filatova and Vasileios Hatzivassiloglou . 2004 . Event-based extractive summarization . In Stan Szpakowicz Marie-Francine Moens , editor , Text Summarization Branches Out : Proceedings of the ACL-04 Workshop , pages 104–111 , Barcelona , Spain .
[4] [Kupiec et al.1995] Julian Kupiec, Jan O. Pedersen, and Francine Chen. 1995. A trainable document summarizer. In Proceedings of the 18th Annual International ACM SIGIR, pages 68–73, Seattle, Washington.
[5] [Conroy and O’Leary2001] Conroy and O’Leary. 2001. Text summarization via hidden Markov models. In Proceedings of the 34th Annual ACL SIGIR, pages 406–407, New Oleans, Louisiana
[6] [ Erkan and Radev2004 ] Gunes¸ Erkan and Dragomir R. ¨ Radev . 2004 . Lexpagerank : Prestige in multidocument text summarization . In Proceedings of the 2004 EMNLP , pages 365–371 , Barcelona , Spain
[7] [ Woodsend and Lapata2010 ] Kristian Woodsend and Mirella Lapata . 2010 . Automatic generation of story highlights . In Proceedings of the 48th ACL , pages 565–574 , Uppsala , Sweden .
[8] [ Hermann et al.2015 ] Karl Moritz Hermann , Tomas Kocisky , Edward Grefenstette , Lasse Espeholt , Will Kay , Mustafa Suleyman , and Phil Blunsom . 2015 . Teaching machines to read and comprehend . In Advances in Neural Information Processing Systems 28 , pages 1684–1692 . Curran Associates , Inc .
[9] [ Bengio et al.2015 ] Samy Bengio , Oriol Vinyals , Navdeep Jaitly , and Noam Shazeer . 2015 . Scheduled sampling for sequence prediction with recurrent neural networks . In Advances in Neural Information Processing Systems 28 , pages 1171–1179 . Curran Associates , Inc