Neural Summarization by Extracting Sentences and Words （2016）

原文地址：https://arxiv.org/pdf/1603.07252.pdf
抽取式自动摘要系列第一篇，选择了一些我觉得挺有用的文献放在了下面，直接查找阅读

Abstract:

提出了一种基于神经网络和连续句子特征的数据驱动方法, 可以从大量的文档中提出句子和单词，在没有任何语言注释的情况下依然取得的不错的成绩。

Introduction

之前的摘要技术大多是人类设计的特征来识别句子，如：句子的位置和长度 [1] ,标题中的单词，专有名词的存在，内容特征，如单词频率(Nenkova 等人，2006) [2] ,以及事件特征，如动作名词(Filatova 和 Hatzivassiloglou，2004) [3]。在如何选择句子上，过去也有很多传统的方法，如： binary classifiers （Kupiec 等人 , 1995）[4]，隐藏马尔可夫模型（Conroy 和 O’ Leary , 2001）[5] ，基于图的算法（Erkan 和 Radev , 2004；Mihalcea , 2005）[6] 还有 integer linear programming （Woodsend 和 Lapata , 2010）[7]。
在之前的一些研究中，Encoder-Deocoder的结构（原文是：sequence transduction neural network architectures）已经被用到了机器翻译，机器问答，句子压缩等任务中，并且注意力机制 (Bahdanau et al., 2015) [8] 也经常被用到其中来定位解码过程中的焦点区域。
该论文定义了一个由层级式的encoder和加了注意力机制的extractor组成的单文档摘要抽取器。文章做了一点创新的是，不同以往的注意力机制，他们直接将注意力拿来做句子和单词的提取（在前人的方法里，注意力机制大多会和原先的encoder内容做点积并求softmax）。
和 Rush et al. (2015) 的方法不同，Rush et al. (2015)的方法只是对文章的标题和首句进行了训练，而该论文对整个文档做了摘要的抽取。从网络的结构上，该文提出了从部分文档中检索结果的想法，这就降低了在海量文本预测一下个文本的难度。

Problem Formulation

这一段大致的意思就是，将句子级别的摘要转换成0,1的二分类，多输入的句子进行分类，将符合条件的纳入摘要当中，而单词级别的则是转换成了语言生成的任务，最大化单词出现的对数概率。（hmmmm可能有点含糊，如果感兴趣可以阅读一波原文）

训练数据

为了满足数据有二分类的标签，他们对原数据做了一些处理，(Woodsend and
Lapata, 2010) [7] ,他们做了一个逆向逼近，生成文章中的highlights. 这篇论文的作者们则是借着这个想法，写了一个rule-based的方法，通过句子的位置，文档中句子和高亮句的unigram和bigram的重叠率来判断是否符合。
单词级别的数据准备（原文翻译）：
为了创建词提取数据集，我们检查了高亮词和新闻文章之间的词性重叠。如果所有的高亮词（经过stemming后）都来自于原始文档，那么文档-高亮词对就构成了一个有效的训练实例，并被添加到词提取数据集中。对于 out-of-of-vococabulary (OOV) 词，我们试图找到一个语义上等同于新闻文章中存在的替换词。具体来说，我们检查是否在原始文档中存在一个由预训练的嵌入物表示的邻居，从而构成有效的替换。如果找不到任何替换，我们就丢弃文档-高亮对。按照这个过程，我们获得了一个包含170K篇文章的单词提取数据集，同样来自DailyMail

Neural Summarization Model

重点来了，整体的网络结构的设计。
原文：
The key components of our summarization model include a neural network-based hierarchical document reader and an attention-based hierarchical content extractor.
主要就是一个层级式的文档reader和一个基于注意力机制的层级式的内容提取器。文章中也提到了，之所以是层级式的，是为了体现去单词到句子到段落的这么一个过程。

Document Reader

大致的结构就是使用单层的CNN网络提取到特征后，放入RNN中构建文档级别的特征。CNN的输入是单词级别的，由此获取到句子级别的特征，然后放入RNN中得到文档级别的特征。

Convolutional Sentence Encoder
作者提到之所以用CNN来表达句子特征的一个原因是，单层的网络便于训练，其次是，使用CNN来表达句子已经成功的用到了其他的任务，比如情感分析

Recurrent Document Encoder
在文档层面，一个递归神经网络将一串句子向量组合成一个文档向量。可以把递归神经网络的隐藏状态看成是一个部分表示的列表，每个部分表示主要集中在与上下文中对应的输入句子上。这些表征共同构成了文档表征，它以最小的压缩量捕获到局部和全局的句子信息。为避免传统RNN带来的梯度消失问题，文章里的RNN使用的是LSTM网络。
Neural Summarization by Extracting Sentences and Words

网络结构示意图

Sentence Extractor

这边是本文的一处创新点，他们把注意力机制直接拿来提取句子，而在之前的seq2seq with attention中是将注意力矩阵作为中间步骤处理的。
所谓的句子提取器，其实就是另一个LSTM网络，每个time step输入的是句子级别的信息，然后去判断句子是否是符合条件的。不同于传统的LSTM，这里用的是Encoder-Decoder的结构，所以在编码层，输入是Sentences,这样会得到文档级别的context，而被编码的document encode和label（判断过后的）一起传给Decoder。换句话说，在decoder部分，它的输入是前一时刻预测的句子label和有注意力机制的decoder内容。为了使得训练更加快速准确，他们还引入了训练模式 (Bengio et al., 2015) [9]

Word Extractor

句子的提取，实质上就是单纯的标签预测，分类任务，而单词提取更加倾向于文本生成的任务。在上一任务的基础上，他们使用了一个soft attention来捕捉信息，在decoder端，不再预测句子的标签，而是直接抽取单词，软注意力机制是为了单词更加的顺畅。为了使得单词的输出更加合理，作者们似乎是在decoder端使用的beam search，使得概率最大化。这边要注意的是，此时的注意力是sentence-level，而非word-level。
Neural Summarization by Extracting Sentences and Words

单词提取过程

整体来说，这篇论文不同之前的（2015前）的传统的seq2seq方法，他们使用了层级式的特征提取过程，和数据的一些trick的处理，将问题进行了转化，我觉得这是这篇文章的亮点了。

相关文献：
[1] [Radev et al.2004] Dragomir Radev, Timothy Allison, Sasha Blair-Goldensohn, John Blitzer, Arda Celebi, Stanko Dimitrov, Elliott Drabek, Ali Hakim, Wai Lam, Danyu Liu, et al. 2004. Mead-a platform for multidocument multilingual text summarization. Technical report, Columbia University Academic Commons.
[2] [ Nenkova et al.2006 ] Ani Nenkova , Lucy Vanderwende , and Kathleen McKeown . 2006 . A compositional context sensitive multi-document summarizer : exploring the factors that influence summarization . In Proceedings of the 29th Annual ACM SIGIR , pages 573–580 , Washington , Seattle
[3] [ Filatova and Hatzivassiloglou2004 ] Elena Filatova and Vasileios Hatzivassiloglou . 2004 . Event-based extractive summarization . In Stan Szpakowicz Marie-Francine Moens , editor , Text Summarization Branches Out : Proceedings of the ACL-04 Workshop , pages 104–111 , Barcelona , Spain .
[4] [Kupiec et al.1995] Julian Kupiec, Jan O. Pedersen, and Francine Chen. 1995. A trainable document summarizer. In Proceedings of the 18th Annual International ACM SIGIR, pages 68–73, Seattle, Washington.
[5] [Conroy and O’Leary2001] Conroy and O’Leary. 2001. Text summarization via hidden Markov models. In Proceedings of the 34th Annual ACL SIGIR, pages 406–407, New Oleans, Louisiana
[6] [ Erkan and Radev2004 ] Gunes¸ Erkan and Dragomir R. ¨ Radev . 2004 . Lexpagerank : Prestige in multidocument text summarization . In Proceedings of the 2004 EMNLP , pages 365–371 , Barcelona , Spain
[7] [ Woodsend and Lapata2010 ] Kristian Woodsend and Mirella Lapata . 2010 . Automatic generation of story highlights . In Proceedings of the 48th ACL , pages 565–574 , Uppsala , Sweden .
[8] [ Hermann et al.2015 ] Karl Moritz Hermann , Tomas Kocisky , Edward Grefenstette , Lasse Espeholt , Will Kay , Mustafa Suleyman , and Phil Blunsom . 2015 . Teaching machines to read and comprehend . In Advances in Neural Information Processing Systems 28 , pages 1684–1692 . Curran Associates , Inc .
[9] [ Bengio et al.2015 ] Samy Bengio , Oriol Vinyals , Navdeep Jaitly , and Noam Shazeer . 2015 . Scheduled sampling for sequence prediction with recurrent neural networks . In Advances in Neural Information Processing Systems 28 , pages 1171–1179 . Curran Associates , Inc

Neural Summarization by Extracting Sentences and Words