po在前头：本人不是研究NLP领域的，看这篇论文主要想借鉴一下思想，所以笔记内容着重讲了思路，具体细节还请看论文原文，有任何错误的地方欢迎评论区指出。若有转载请标明出处，谢谢。

论文链接： https://arxiv.org/pdf/2001.09386v3.pdf

Part 01 笔记

作者：
2020《Generating Representative Headlines for News Stories》笔记+翻译
任务：
为新闻故事（新闻文章组）生成标题。
理解：每一个新闻事件可以称为一个新闻故事（news story），每个故事有多个新闻文章（news articles），如下图所示为三个新闻文章，他们均讲述了一个故事，也就是属于一个新闻故事。而本文的任务就是基于新闻文章-标题对的数据集，生成新闻故事的标题。
2020《Generating Representative Headlines for News Stories》笔记+翻译

贡献：
（1）我们提出了新闻报道标题生成的任务，并发布了第一个大规模的人类标注的数据集，以服务于研究社区；
（2）我们提出了一种具有多级预训练框架的远程监管方法来训练大规模生成模型，而无需任何人工注释。可以通过合并人类标签来进一步增强该框架，但可以大大减少标签的需求；
（3）我们开发了一种新颖的基于自投票的文章关注模块，该模块可以有效地提取不同文章共同共享的重要信息，并且对输入新闻故事中的噪声具有鲁棒性。

数据集：

NewSHead：包含35.7万个新闻故事，每个故事包含3-5个新闻文章（文章标题对），每一个故事都有人工标注的标题。
NewSHeaddist：包含220万个新闻故事，每个故事包含3-5个新闻文章（文章标题对），每一个故事标题都是由远程监督生成的。

远程监督：
对于每个故事A，我们旨在通过选择最具代表性的文章标题来获得其启发式标题yˆ：
2020《Generating Representative Headlines for News Stories》笔记+翻译
其中Ta代表文章a的标题，而f(T,a)代表任何标题T与文章a之间的语义匹配分数。请注意，a仅在主要段落中包含tokens。换句话说，文章标题的分数是标题与故事中其他文章之间的平均匹配分数。
用BERT预训练的Transformer模型，计算新闻故事A内的文章ai标题ti与其他文章aj的匹配分数（用文章ti可用于描述aj的概率表示），取和所有文章匹配度之和最高的文章标题t作为故事标题T。通过使用现有的文章标题对作为正实例，并采样随机对作为负实例来获取训练数据。
因为可能存在故事中所有文章标题都不足以作为故事标题的情况，这里只计入了包含正标签的故事。
（如果标签在所有文章中的平均预测得分高于0.5，则标签为正。）
2020《Generating Representative Headlines for News Stories》笔记+翻译

模型：基于transformer的encoder-decoder模型作为基本架构。

预训练1：用包含50M篇文章的语言模型预训练数据集（新闻文章的主要段落），学习初始化编码器模块和单词嵌入层的参数，解码器使用另一篇文献中的方法进行初始化。
预训练2：用包含1000万篇文章的单文档预培训数据集（精选的文章标题对），进一步调整编码器和解码器模块参数，以及他们之间的相互关注。
encoding阶段：每篇文章a单独输入，并生成隐层表示Hia，将输入文章组A的向量表示为{Hia}的加权和，即

权重系数{wa}由通过文章级别关注学习的相似度矩阵确定。
decoding阶段：通过文章组的隐层表示，生成新闻故事A的标题T。

给定[y1，y2，…，yi-1]，上面的等式2定义了给定yi成为y的概率。 V是整个词汇表，My是与标记y相对应的可学习的嵌入矩阵M∈RdH×| V |的列。使用波束搜索(beam search)来找到top-k输出序列，使下式最大化:

基于投票的文章级注意力：
基本思想：让每篇文章投票支持故事中的其他文章。总得分高于其他文章的文章应具有更高的关注度。

优点：大多数文章共享的公共信息会在获得更多票数时回显和放大，而与此无关的文章将在此交互式过程中被淡化，以减少对最终输出的有害干扰。

给定文章a的表示向量Ha，我们将其查询(query)向量和关键(key)向量分别计算为Qa = WQ * Ha和Ka = WK * Ha，其中WQ和WK是所有文章共享的可学习矩阵。然后将a的注意力得分计算为：
2020《Generating Representative Headlines for News Stories》笔记+翻译
其中exp（QTa’·Ka）表示a’对a的投票。举例如下：

实验结果：

(因为是新任务，所以作者在作对比的时候进行了一些筛选和处理，具体的请看论文）
2020《Generating Representative Headlines for News Stories》笔记+翻译

Part 02 翻译

本文翻译基本来自google翻译，对于2、3、4、5章节进行了少量手动调整及配图，仅供参考。

摘要
每天都有数以百万计的新闻文章在线发布，这对于读者而言可能是压倒性的。将报道同一事件的文章分组为新闻故事是帮助读者消费新闻的一种常用方法。但是，有效地为每个故事生成具有代表性的标题仍然是一个具有挑战性的研究问题。对文档集的自动汇总已进行了数十年的研究，而很少有研究集中于为一组文章生成代表性的标题。摘要不同于旨在捕获最少冗余的大多数信息的摘要，标题旨在捕获故事文章在短时间内共同共享的信息，并排除每个文章的特定信息。

在这项工作中，我们研究为新闻报道生成代表性标题的问题。我们开发了一种远程监管方法来训练大规模生成模型，而无需任何人工注释。拟议的方法以两个技术要素为中心。首先，我们提出了一个多层次的预训练框架，该框架结合了具有不同质量与数量平衡在不同层次上的大量未标记语料库。我们显示，在多级预训练框架内训练的模型优于仅使用人类管理语料库训练的模型。其次，我们提出了一种新颖的基于自投票的文章关注层，以提取多个文章共享的显着信息。我们表明，包含此关注层的模型对于新闻报道中的潜在噪声具有鲁棒性，并且在干净和嘈杂的数据集上均优于现有基准。我们通过合并人类标签进一步增强了我们的模型，并表明我们的远程监管方法大大减少了对标签数据的需求。最后，为了为研究社区服务，我们在新闻报道的标题生成上发布了第一个手动策划的基准数据集NewSHead，其中包含367K个故事（每个故事包含3-5条文章），是当前最大的多文档摘要数据集的6.5倍。

1 引言
当今的新闻消费者被新闻内容所淹没，每天发布超过200万条新闻文章和博客文章1。结果，组织新闻文章的服务已经在在线用户中流行。一种方法是将文章分类为预定义的新闻主题，每个主题都带有简短的类别标签，例如“技术”，“娱乐”和“体育”。尽管组织得井井有条，但多余的内容仍可以出现在每个主题中。另一个更有效的方法是根据新闻故事在每个主题中对文章进行进一步分组。在这里，每个故事都由报道同一事件的一系列文章组成。新闻故事使完成读者的新闻消费之旅更加有效-读者可以从一个故事到另一个故事，并根据需要深入研究每个故事。但是，当我们仅列出文章标题列表时，读者将无法通读故事的要旨，直到他们通读了几篇文章为止，因为文章标题是针对特定文章量身定制的，因此无法提供整个故事的概述。此外，标题可能太长而无法浏览，尤其是在移动设备上。

为了解决这个问题，我们建议以简洁明了的标题来概括新闻报道。例如，图1中的“猛禽与雄鹿”成为有关两支球队之间比赛的新闻报道的标题。直观地，标题是对新闻群的有用补充：用户可以快速识别他们计划深入阅读的故事，而无需浏览无组织新闻提要的群发。实际上，标题的价值也得到了肯定：Google新闻在其故事完整报道页面的顶部2附加了一个标题。但是，自动生成故事标题仍然是一个具有挑战性的搜索问题。首先，选择现有的文章标题可能不适合，因为文章标题可能太长（特别是对于移动设备上的读者）或单方面（视角不完整），无法涵盖故事的一般信息。其次，依靠人工编辑来策划高质量的新闻头条效率很低，因为它不仅价格昂贵，而且由于大量新兴新闻报道和严格的延迟要求而难以扩展。
为此，我们建议研究自动生成新闻报道的代表性标题的问题。其背后的主要思想被称为“文档摘要” 3，已经研究了超过六十年[29]。摘要任务是将单个文章压缩为简洁的摘要，同时保留其主要信息并减少所生成摘要中的信息冗余[12，33，61]。作为摘要的一项特殊任务，还对单文档标题的生成进行了深入研究，其生成的摘要不超过一个句子[1、9、65]。最近，端到端神经生成模型为抽象总结[6，38，40，54，69]和单文档标题生成[16，19，38，53]带来了令人鼓舞的性能。多个文档的摘要也引起了很多关注[2、4、11、18、26]，而为一组文档生成标题仍然是一个具有挑战性的研究问题。

主要挑战来自缺乏高质量的培训数据。当前最先进的汇总模型由神经编码器-解码器模型[16、19、64、69]主导。这些带有大量数据的模型的高性能得到大量带注释的训练样本的支持。对于单文档标题的生成，可以很容易地从无限制的新闻文章中以很少的成本获取此类培训数据：现有的文章标题对形成了完美的培训样本。不幸的是，这种映射不适用于多文档设置。手动编写一组文档的摘要或标题比在单文档摘要的情况下要花费更多的时间。因此，最近的多文档摘要（MDS）模型要么试图适应单文档模型[22，67]，要么利用外部资源，例如Wikipedia页面[26，27]。 [11]最近提供了一个用于多文档摘要的众包数据集，但是对于多文档标题生成仍然缺少这种资源。为了促进标准研究和评估，我们发布了第一个多文档标题生成数据集。已发布的数据集包含36.7万条新闻报道，新闻报道的标题都是人工策划的，是多文档摘要的最大公共数据集的6.5倍[11]。与网络上的整个新闻语料库相比，367K新闻故事看起来似乎很大，但仍然是沧海一粟。更重要的是，手动管理缓慢且昂贵，并且几乎无法扩展到每天有数百万篇新兴文章的网络规模应用程序。为此，我们建议以两种方式进一步利用未标记的新闻语料库。首先将现有文章视为知识库，然后我们将通过远程监督（即在新闻报道中使用文章标题之一）自动为看不见的新闻报道添加注释。然后，我们提出一个多层次的预训练框架，该框架使用从原始新闻语料库中学到的语言模型初始化该模型，并从单文档文章标题对中转移知识。远程监管框架使我们能够生成另一个无需人工干预即可进行训练的数据集，该数据集是上述人工编制数据集的6倍。我们表明，仅基于远程监督的模型已经可以胜过在人类策划的数据集上训练的相同模型。另外，用少量的人为标记的示例对远程训练的模型进行微调可以进一步提高其性能（第7.3节）。在实际的应用程序中，将新闻报道分组的过程（被视为前提条件）并不总是完美的。为了解决这个问题，我们设计了一个基于自我投票的文档级关注模型，该模型对于新闻报道中的嘈杂文章具有较强的鲁棒性（第7.4节）。提高群集的质量不在这项工作的范围之内，但仍然是一个有趣的未来方向。

我们的贡献总结如下：
（1）我们提出了新闻报道标题生成的任务，并发布了第一个大规模的人类策划的数据集，以服务于研究社区；
（2）我们提出了一种具有多级预训练框架的远程监管方法来训练大规模生成模型，而无需任何人工注释。可以通过合并人类标签来进一步增强该框架，但可以大大减少标签的需求；
（3）我们开发了一种新颖的基于自投票的文章关注模块，该模块可以有效地提取不同文章共同共享的重要信息，并且对输入新闻故事中的噪声具有鲁棒性。

2 问题描述
给定一个新闻故事A作为有关同一事件的新闻文章的集群，其中每个文章a∈A都由token序列[a1，a2，… ]组成，我们的目标是生成简洁且内容丰富的故事标题，以另一个token序列y = [y1，y2，… ]，例如图1中的“ Raptors”:y1，“ vs.”:y2和“ Bucks”:y3，以获取有关讨论两个团队之间的系列的文章列表。
尽管每篇文章的原始标题可能是生成标题的强信号，但我们的模型输入中并未包含该标题，因为（1）它增加了产生点击行为和标题偏差的风险，并且（2）在某些情况下（例如，用户生成的内容），可能缺少高质量的标题。由于这些原因，在此阶段，我们仅将每篇文章的主要段落视为模型输入。
2020《Generating Representative Headlines for News Stories》笔记+翻译

3 新闻标题数据集
为了帮助将来的研究和评估，我们尽我们所知发布了第一个带专家注释的数据集NewSHead，以完成新闻故事标题生成的任务。 NewSHead数据集是从2018年5月至2019年5月之间发布的新闻报道中收集的。NewSHead包括以下主题：政治，体育，科学，商业，健康，娱乐和技术，如图2(a)所示。专有的聚类算法会迭代加载最近时间窗口中发布的文章，并根据内容相似性对其进行分组。对于每个新闻故事，都要求众包平台(crowd-sourcing platform)的负责人（curator）提供最多35个字符的标题，以描述每个新闻文章所涵盖的主要信息。然后，由其他负责人对该精选标题（curated headlines）进行验证，通过验证后加入最终的数据集中。请注意，一个故事可能包含数百篇文章，要求负责人在整理标题之前通读所有文章是不现实的。因此，为了节省人工，（每篇新闻故事）只有3到5个具有代表性的文章被选中。

表1显示了我们的数据集和多文档摘要（MDS）现有数据集的统计信息。在NewSHead中，每个新闻故事包含3-5个新闻文章。这为我们提供了36.7万个数据实例，这比用于多文档摘要的最大数据集[11]要大6.5倍。我们按时间戳划分数据集：验证集中所有文章的时间戳严格大于训练集中的所有文章的时间戳。测试集与验证集也是如此。通过避免重叠的时间窗口，我们可以对存储观察到的标签的过拟合模型进行定标。总体而言，我们分别生成了35.7万个用于训练的故事，5K个用于验证的故事和5K个用于测试的故事。至于人类标注的参考标签，如表1所示，标注的故事标题的长度比传统摘要要短得多，甚至比图2©中的数据集中的文章标题还短。图1显示了一个精选新闻故事的示例。故事标题比群集中的文章标题简洁得多，并且仅涵盖文章共享的一般信息。
2020《Generating Representative Headlines for News Stories》笔记+翻译
尽管看起来很庞大，但NewSHead中的训练数据与整个新闻语料库相比仍然是沧海一粟，在现代模型可以通过更多数据实现更好的性能[28，49]的假设下，仍有较大的性能提升空间。然而，手动注释是缓慢且昂贵的。创建NewSHead数据集所需的工作量和资源已经如此之多，以至于将其扩展到仅50万个实例似乎成本很高。面对这一实际挑战，在下一部分中，我们将介绍一个基于远程监督的新颖框架，以获取无需人工注释的其他训练数据。
2020《Generating Representative Headlines for News Stories》笔记+翻译
4 学习框架
学习一个端到端生成模型需要大量带注释的训练数据。然而，人工注释是缓慢且昂贵的。因此，仅凭人类注释很难提供足够的数据或适应未来的情况。在以下各节中，我们将介绍一个新颖的框架，该框架利用多个级别的监督信号来减轻甚至消除对人类注释的依赖。如图3所示，我们在现有新闻语料库中寻求自然的监督信号，以预训练我们框架的表示学习（representation learning）和语言生成（language generation）模块。此过程包括从大量文本语料库进行语言模型预训练（language model pre-traning），和从文章标题对中转移知识（single-doc pre-training）。然后，我们建议通过Multi-Doc Distant Supervision 生成启发式训练标签。这些监督信号几乎可以从现有数据中自动获取，而无需花费任何成本。稍后在第7节，我们将展示根据这些免费信号训练的模型可以胜过那些在手动策划的训练集合上纯粹训练的模型。
2020《Generating Representative Headlines for News Stories》笔记+翻译
4.1 远程监督：NewSHeaddist
在本节中，我们将展示如何在没有人类故事标注者（curators）的情况下，从现有语料库中生成大量训练数据。事实证明，一种叫远程监督（distant supervision）的相关技术在各种信息提取任务（例如，关系提取[35]和实体键入[51]）中是有效的。基本思想是使用知识库（KB）中的现有任务不可知标签来启发式地生成特定任务的不完整标签。例如，在“实体键入”中，可以将句子中的每个实体提及（例如唐纳德·特朗普）与知识库中的某个条目匹配，然后用该条目的现有类型（例如，政客，人等）进行标记。这样，通过利用现有标签和一些启发式方法，无需花费额外的时间来为感兴趣的特定任务整理标签。
在这里，我们将新闻语料库视为KB，并将现有文章标题视为新闻故事的候选标签。请注意，并非所有文章标题(article titles)都适合作为故事标题(story headlines)，因为，正如我们提到的那样，某些标题太具体了，无法涵盖故事的主要信息。因此，我们需要从许多候选标题中自动选择高质量的故事标签，而无需来自人类专家的注释。具体来说，给定新闻语料库，我们首先将新闻文章分组为新闻故事。这与创建NewSHead数据集的过程相同，是一个不受监督的过程。对于每个故事A，我们旨在通过选择最具代表性的文章标题来获得其启发式标题yˆ：
2020《Generating Representative Headlines for News Stories》笔记+翻译
其中Ta代表文章a的标题，而f（T，a）代表任何标题T与文章a之间的语义匹配分数。请注意，a仅在主要段落中包含标记(tokens)。换句话说，文章标题的分数是标题与故事中其他文章之间的平均匹配分数。
现在唯一的问题是计算匹配分数f（T，a）。我们没有定义启发式得分（例如，词汇重叠），而是训练带有二进制分类任务的评分器，其中f（T，a）是T可用于描述a的概率。可以通过使用现有的文章标题对作为正实例并采样随机对作为负实例来获取训练数据。对于这种具有交叉熵损失的分类任务，我们使用BERT预训练的Transformer模型。
然后，我们按照公式1生成未标记新闻故事的启发式标签。故事中的所有文章标题都可能不足以代表故事标题。因此，我们生成的训练数据中仅仅计入包含正标签5的故事（约占所有故事的20％）。生成的标签的长度分布如图2（d）所示。平均长度比人类标签更长，但在合理范围内可以生成足够的训练实例。这样，我们无需依靠负责人就可以生成约220万个带有标签的新闻故事。新的数据集NewSHeaddist比带注释的NewSHead数据集大6倍。表2显示了NewSHeaddist中启发式生成的标签的示例。在所有五个候选标题中，第二个标题被很好地描述了故事的一般信息，因此被列为首选。相比之下，最后一个标题不合适，因为它太具体且与某些文章不匹配。
这样，我们可以轻松生成大量高质量的培训标签。这一生成过程不依赖于人工。因此，NewSHeaddist易于随时间而扩展，新闻语料库的规模也越来越大。

5:如果标签在所有文章中的平均预测得分高于0.5，则标签为正。
2020《Generating Representative Headlines for News Stories》笔记+翻译
4.2 自然监督下的预训练
对于远程监督的数据集，自然会产生一个问题：在没有人工注释的情况下，故事标题生成任务能走多远？为了充分利用大量未标记的语料库，我们应用了预训练技术来增强我们的模型。
作为概述，我们的模型包括一个编码器-解码器模块作为其构建块，以及一个文章级关注层，用于集成故事中不同文章的信息。详细的模型架构将在5.1节中介绍。在预训练阶段，除了“多文档远程监督”之外，我们的目标是使用来自现有新闻语料库的两种自然监督信号来初始化不同的模块，如下所示。

语言模型预培训从新闻领域的大量原始语料库中转移知识，以增强我们模型的表示学习模块。
我们遵循BERT预训练范式[8]来构建数据集，该数据集基于从Web6收集的超过5000万条新闻文章的主要段落。该数据集总共包含13亿个句子。包含掩盖语言（masked language）模型和下一句预测（next sentence prediction）这两个任务。学习到的参数用于初始化编码器模块和单词嵌入层。解码器模块也可以使用文献[52]中建议的编码器参数进行初始化。但是，在此阶段，编码器和解码器模块之间的交叉注意力仍未初始化。

6：使用CommonCrawl来获取Web文章
单文档预训练利用大量现有的文章标题对来训练编码器-解码器模块，以增强表示学习和语言生成。
在这一步中，我们进一步调整编码器和解码器模块的参数，以及它们之间的相互关注。我们清理了5000万条原始新闻文章，仅保留了1000万条高质量的文章标题对进行培训。为了进行数据清理，我们首先过滤掉文章标题（太短（<15个字符）或太长（> 65个字符）的文章。然后，我们使用其他分类器（additional classifiers）删除点击行为，令人反感或类似观点的文章标题。这些其他分类器由从众包平台收集的二进制标签训练。请注意，此过滤步骤在框架中不是必需的。

该模型在远程监控数据上进行了进一步训练，其权重是从先前阶段初始化的。前两个预训练阶段用于在单个文档设置中初始化编码器和解码器模块。当涉及多个文档时，该模型涉及额外的文档注意事项，我们将这些参数与前面提到的模型组件一起训练。

实验表明，使用上述免费信号训练的模型甚至可以胜过通过人工标注的训练数据训练的模型。通过在人类标注的标签上微调模型，我们可以结合两种监管来源并进一步提高性能。

5 NHNET模型
在本节中，我们将详细介绍我们的多文档新闻标题生成模型NHNet的数学机制。我们将标准的基于Transformer的编码器/解码器模型扩展到多文档设置，并建议使用文章级别的关注层，以捕获大多数（如果不是全部）输入文章共有的信息，并提供了针对在输入中由于聚类质量而产生的潜在异常值的鲁棒性。我们分析了与标准Transformer模型相比的模型的复杂性。
2020《Generating Representative Headlines for News Stories》笔记+翻译
5.1 模型架构
图4说明了我们的生成模型的基本架构。为了充分利用海量的未标记数据，我们从基于Transformer的单文档编码器/解码器模型作为构建模块开始。单文档模型为集群中的每个文章分别生成解码输出。为了有效地从不同文章中提取通用信息，该模型通过基于自我投票的文章级别关注层融合了所有文章的解码输出。事实证明，该框架不仅易于在远程监督下进行预训练，而且对聚类过程中的潜在噪声也很健壮。

我们从标准的基于Transformer的编码器-解码器模型[59]开始作为构建模块。在单文档设置中，来自输入文章a的tokrn序列通过带有h个注意头的标准L层Transformer单元传递。在解码步骤i时，模型将完整的输入序列与直到步骤i-1为止生成的输出序列一起使用（即[y1，y2，…，yi-1]），并产生dH维隐藏向量（用Hia表示。端到端的单文档体系结构最终将预测来自Hia的输出序列中的下一个标记yi，如下所示。
2020《Generating Representative Headlines for News Stories》笔记+翻译
给定[y1，y2，…，yi-1]，上面的等式2定义了给定yi成为y的概率。 V是整个词汇表，My是与标记y相对应的可学习的嵌入矩阵M∈RdH×| V |的列。使用波束搜索(beam search)来找到top-k输出序列，使下式最大化
2020《Generating Representative Headlines for News Stories》笔记+翻译
扩展到多文档设置，我们让每个输入文章通过相同的Transformer单元并独立产生Hia，即，在所有输入文章上应用单文档设置，直到隐藏矢量表示为止。然后我们将输入文章组A的向量表示形式计算为{Hia}的加权和，即HiA =sum{a∈A}(waHia)。权重{wa}由通过文章级别关注学习的相似度矩阵确定（在第5.2节中详细介绍）。最后，为了预测下一个token yi，我们在公式2中使用HiA代替了Hia。

正如我们将在5.2节中展示的那样，除了标准Transformer模型中的参数外，文章级别的注意还引入了明显更少的参数。

5.2 基于投票的文章级注意
文章级别的关注层用于集成所有文章的信息。它为文章分配了不同的关注权重，表明了每篇文章的重要性。为此，以前的工作[67]使用可学习的外部查询向量，称为裁判查询向量Qr∈RdH，来分别确定每篇文章的权重。具体而言，文章a的关注权重计算为
2020《Generating Representative Headlines for News Stories》笔记+翻译
其中Ka是文章a∈A的关键向量（key voctor），通常从其编码表示形式进行线性变换得到。这样的设计是直观的，但是忽略了文章之间的交互。对于标题的生成，我们的目标是捕获故事中大多数文章共享的公共信息，在这些文章中，需要考虑文章间的联系。更重要的是，聚集的新闻故事本身可能并不十分干净：某些文章可能与该新闻中的其他文章之间存在松散的联系，甚至不相关。在这些情况下，文章的注意力得分应由所有文章共同确定，而不是依赖外部裁判。

为此，我们设计了一个简单但有效的基于自我投票的文章关注层。基本思想是让每篇文章投票支持故事中的其他文章。总得分高于其他文章的文章应具有更高的关注度。好处有两个方面：大多数文章共享的公共信息会在获得更多票数时回显和放大，而与此无关的文章将在此交互式过程中被淡化，以减少对最终输出的有害干扰。具体来说，给定文章a的表示向量Ha，我们将其查询(query)向量和关键(key)向量分别计算为Qa = WQ·Ha和Ka = WK·Ha，其中WQ和WK是所有文章共享的可学习矩阵。然后将a的注意力得分计算为
2020《Generating Representative Headlines for News Stories》笔记+翻译
其中exp（QTa’·Ka）表示a’对a的投票。图5说明了裁判注意力和自我投票注意力之间的异同。在这三篇示例文章中，前两篇介绍了两支球队之间的比赛，而第三篇则侧重于伤害信息，因为伤害信息太具体而无法包含在标题中。通过自我投票过程，文章组发现第三篇文章与中心主题距离较远，因此轻描淡写了其重要性。结果，生成的标题更多地集中在猛龙和雄鹿之间的比赛上，而不是伤病信息。裁判的注意力几乎无法实现相同的目标，因为当为每篇文章分配权重时，它会忽略其他文章。正如人们所期望的那样，自动投票注意模块对群集中的潜在噪声也更加强大。在健全性检查实验中，注意力模块通常对故意添加的嘈杂文章的权重接近零，这表明了其检测主题文章的能力，而裁判注意力几乎无法感知到差异。

模型复杂度。标准的Transformer模型由O（L·dH·h·dv）参数组成，其中dv是投影值矢量空间的维数，而L，dH和h如5.1节所定义。增加文章级别的关注会引入一个附加的O（dH·h·dv）参数—Transformer已要求的参数的1 / L。
2020《Generating Representative Headlines for News Stories》笔记+翻译
6 实验设置
为了进行标准评估，我们比较了NewSHead测试集上的所有方法，并调整了验证集上的参数。
由于新闻报道的标题生成是一项新任务，而不是各种模型之间的“最先进”竞赛，因此我们对与实际应用有关的以下问题更加好奇：
（1）如果没有任何人工注释，而仅使用现有的自然监督信号，我们能走多远？
（2）是否可以通过合并人类标签来进一步提高远程监管模型的性能？
（3）随着人为标签的增多，性能如何变化？
（4）由于故事的聚类过程可能不完善，因此这些方法对新闻故事中的潜在噪声的鲁棒性如何？

6.1 基线方法
尽管没有以前的方法可以完全按照我们的任务进行相同的设置，但是多文档摘要（MDS）的方法变体可以作为我们的基本方法，但需要进行一些调整。具体来说，我们考虑两个模型系列。

提取方法。抽取式MDS模型无法直接应用，因为它们通过从文档集中选择句子来生成摘要，而我们的预期输出是一个简洁的标题。从文章正文中提取合适的单词也具有挑战性。在这里，我们考虑两种竞争性基线方法(cheatingly)来从文章标题提取信息：

LCS提取故事中最长的通用（单词）文章标题序列。如果没有共同的单词序列，我们放宽要求，寻找至少两篇文章共有的共同序列的约束。
RepTitles使用我们在第4.1节中引入的标题评分器进行远程监控，以选择故事中最具代表性的文章标题作为预测标题。
请注意，文章标题不适用于抽象模型（包括我们的模型）。

抽象方法。抽象模型将文章正文作为输入，并以端到端的方式生成故事标题。由于我们的完整模型利用了各种不同的其他自然监督（例如，未标记的语料和文章标题对），因此，将其与没使用此类信号的模型进行比较是不公平的。为了说明，我们将这两种传统模型（例如WikiSum [26]）和旨在利用额外监督进行预训练的模型（SinABS [67]）进行比较。附加增强功能被应用到基线模型，以使其更加强大并与我们的模型更具可比性。所有方法都经过相同资源的预训练。

WikiSum [26]作为监督抽象模型的表示，从原始文章中有序段落列表的连接中生成摘要。在抽象阶段，它提出了一种仅具有解码器功能的模块，具有存储器压缩功能。
Concat首先将故事的所有文章中的正文文本连接起来，然后使用我们模型的单文档编解码器构造块来生成标题。这样，Transformer中的每个关注层都可以访问整个故事中的令牌。为了避免在串联后丢失单词位置信息，在每篇文章的第一个标记处重置位置编码，因此该模型仍可以识别每篇文章的重要前导句子。
SinABS [67]是最近提出的模型，它通过对单文档摘要任务进行预培训来适应和超越最新的MDS模型。它使用裁判注意模块来集成来自不同文章的编码输出，作为文章集的表示。为公平起见，我们将原始LSTM编码器替换为具有与模型相同参数大小的变压器架构。
SinABS（增强版）：原始模型仅利用单篇文章中的知识。我们将通过远程监督进一步增强它（表3中的H + LSD）。
NHNet是我们在第5节中提出的模型。我们在不同的训练设置下测试这些基准方法，并在第7节中报告详细的性能比较和分析。

6.2 数据集
正如在第3和第4节的多级培训框架中介绍的那样，这项工作中使用的数据集包括
（1）包含50M篇文章的语言模型预训练数据集（L）；
（2）包含1000万篇文章的单文档预培训数据集（S）；
（3）包含220万个故事的远程监督数据集NewSHeaddist（D）；
（4）包含35.7万个故事的人工标注数据集NewSHead（H）。

整个NewSHead包含367k实例，其中我们使用5k进行验证，并使用5k进行最终测试。

这项工作中用于训练和测试的标签是没有大小写的，因为人工标记和受远程监督的标题标签都可能包含各种案例格式，这会影响学习和评估过程。在应用程序中，从生成的无大小写标题中恢复案例信息的任务（在自然语言处理中也称为truecasing）被视为单独的任务。同时，我们发现，从故事内容中的频繁出现的n-gram进行简单多数投票是一种准确的解决方案。

6.3 复制细节
我们使用WordPiece工具[62]进行标记化。词汇量设置为50k，并且来自无大小写的新闻语料库。新闻文章中的每个句子都被标记为子词，从而大大减轻了out-of-vocabulary（OOV）问题。我们还尝试加入复制机制[17]，这是降低OOV的另一种流行选择，但没有看到明显的改善。为了提高效率和减少内存消耗，每篇文章最多使用200个WordPiece的token作为输入。

对于Transformer模型，我们采用标准（L =）12层架构，具有（h =）16个头，（dH =）768尺寸的隐层状态和（dv =）48尺寸的投影值空间。为了进行训练，我们使用Adam [21]优化器，其学习率为0.05，批处理大小为1024。对于每个模型，我们都使用相同的提前停止策略来缓解过度拟合：首先让模型训练10k步，然后再进行训练一旦模型无法在验证数据集上稳定达到更高的性能，则停止训练过程。我们在Tensorflow中实施该模型并在云TPU上训练。我们的代码将与NewSHead数据集一起发布。

6.4 评估指标
为了进行评估，我们使用了开源评分工具7，该工具汇总了自举过程中的得分。我们报告5k NewSHead测试集的平均结果。我们使用以下指标来评估生成的标题：

ROUGE会测量预测的标题和金标之间的n克重叠。
相对长度衡量（Relative Length）的是预测标题和金标之间的比率（LenPed ict LenGold）。在这里，我们以字数（Len-W）和字符（Len-C）的形式报告了比率。相对长度越接近1.0，则生成的标题与金标题的长度就越相似的可能性越大，金标题的分布如图2（b）所示。

7: https://github.com/google-research/google-research/blob/master/rouge/scoring.py

7 实验结果
在下文中，我们将回答上一节开头提出的问题。

7.1 性能比较
表3显示了使用不同数据集组合训练的比较方法的性能。通常，即使提取方法可以访问现有文章标题中已概述的信息，抽象方法也要优于提取方法。在抽象方法中，精心设计的串联模型可以实现与现有最新技术相当的性能。当使用远程监督的训练数据（H + LSD）进行增强时，SinABS模型可以具有更强的性能。当使用相同的资源训练时，我们的模型始终优于基线方法。

7.2 远程监管的有效性如何？
为了研究为此目的进行手动管理的必要性，我们将仅具有人工注释的完全监督模型与具有所有自然监督信号（即语言模型预训练和单文档预训练）的远程监督模型进行了比较。令我们惊讶的是，尽管与最终测试集相比，远程监督的训练标签具有不同的样式和长度，但是远程监督的模型在很大程度上优于完全监督的模型。通过揭示一种轻松的方法来完成此任务，结果令人鼓舞。我们可以不用一天的时间来依靠人类专家来编排新闻头条，而是可以自动从现有新闻数据中挖掘高质量的新闻头条和自然监督信号，以便在一天内进行培训。该观察结果可以为将来大规模生产模型的开发打下坚实的基础。使用人工标签对学习的模型进行微调可以进一步提高性能。作为消融研究，我们研究了在不同的预训练设置下经过全人类注释微调的模型。从只有人注解（H）的全监督模型开始，每个预训练过程（+ L + S + D）都会带来我们所期望的巨大改进。

7.3 我们需要多少个手动标签？
当将人类注释与各种遥距和自然监督（H（100％）+ LSD）结合使用时，我们的模型可获得最佳性能。由于受远程监督的模型可能仍需要一些手动标签来调整其生成的标题的样式和长度，因此，有必要研究手动标签的数量与最终性能之间的权衡以合理地节省人工。
图6显示了当我们使用不同比例的手动标签来微调远程监督模型时，测试性能如何变化。通常，如人们所期望的那样，更多的手动标签可以带来更好的测试性能。但是，不同的模型对人类标签具有相同性能的需求不同。如图所示，当只有2％的人类标签可用时，即使使用语言模型预训练（H（2％）+ L），受监督的模型也比使用100％人工标签训练的模型获得明显更差的性能。相反，我们具有远程监管（H（2％）+ LSD）的模型在很大程度上优于完全监管的模型。超出此数量的更多标签只会带来轻微的改进。这进一步证实了我们的想法：通过远程监督，我们能够以很少的手动标签来学习高质量的模型。

7.4 注意模块是否对噪音有抵抗力？
到目前为止，我们主要考虑的是理想环境下的模型，用于训练和测试的新闻故事相对较干净且经过验证。但是，在现实世界中，自动聚集的新闻故事可能会很吵，即它们可能包含一些无关紧要的文章，甚至可能包含离题的文章。这是文章级关注模块通过为文章分配不同的权重来发挥作用的时候。
在本实验中，我们有意通过用整个语料库中随机抽取的文章随机替换每个故事中的文章，从而给训练和测试故事（NewSHead和NewSHeaddist都添加了噪音）。在相同的架构下，我们比较了三种不同的文章级别注意设计：（1）统一注意，它为每篇文章分配相同的权重；（2）裁判注意，它通过第5.2节和图5中介绍的外部“裁判”矢量确定物品的重量；（3）我们基于自我投票的注意力。我们将比较他们在所有预训练设置下的表现。
表4显示了不同注意设计的性能。在所有注意模块中，“裁判注意”的性能最差，这是预期的，因为“裁判注意”会给嘈杂的物品分配不适当的较大权重，从而严重破坏最终输出。在第8节中将通过实际示例对此进行进一步验证。为进行比较，简单的“统一注意”模块将至少避免将注意力集中在错误的文章上，因此比“裁判”具有更好的性能。从模型的角度来看，“裁判员”模型更为复杂，并且在资源有限的情况下很难训练。该实验还表明，当主题文章占据主导地位时，即使简单的统一注意力也可以通过集成不同文章的解码输出来达到令人满意的效果，但是传统的“裁判注意”可能会产生危险的结果。我们的基于自动投票的注意力在所有设置下均能达到最佳性能，这归功于其利用文章之间的动态投票过程来强调共享公共信息的大小并识别噪音的能力。在没有任何预训练（H）的情况下进行测试时，如果最初的文章表示不甚理想，则不同注意设计之间的性能差距会更加生动。

8 案例研究
我们进行案例研究，以更好地了解所建议模型的优势。表5比较了完整模型和不带人工监督且无远程监督的干净数据集的变体。正如人们可能会发现的那样，使用纯远程监督的模型已经可以产生具有代表性和信息性的高质量标题。在人类标签上进行微调会进一步降低输出的长度和样式，方法是丢弃不完整的词语，例如完整的人名和介词。
没有远程监督的模型没有注意重要的单词，这导致标题的意义不大，而且经常不清晰。例如，在有关沃尔玛反对Amazon Prime交付的举动的新闻报道中，该模型意外地产生了关于亚马逊的毫无意义的标题，因为新闻报道中经常出现“亚马逊”一词。相反，完整模型会生成高质量的标题，其语义与人类标签非常接近，用“要约”代替“公告”。在有关“新口袋妖怪手游”的故事中也可以看到类似的情况。
表6显示了在第7.4节中描述的嘈杂数据集上自投票注意力和裁判注意力之间的代表性比较。当将异常文章添加到故事中时（第2条），裁判注意仍为其分配了相对较高的关注权重，因此在标题（“第七局”）中引入了虚假信息。相反，我们的模型通过动态投票过程成功地识别了异常值，并且避免在生成的标题中添加噪音。
在我们的研究过程中，我们还发现了可以改进的案例。具体来说，在某些情况下，现有模型生成的标题可能会关注与人类标签不同的信息。例如，我们的算法将一个被人类专家标记为“对中国关税出价”的故事标记为“对价格大肆批评的出价”。两者都是这个故事的很好的总结，但重点放在不同的方面。将来，我们可能会考虑两个方向，以进一步满足个性化信息需求。

9 相关工作
三项研究密切相关：文档摘要，新闻标题生成和语言模型预培训。
单文档摘要（SDS）已经研究了六十年了[29]。早期的提取方法结合了手工制作的特征和基于图的结构信息来选择信息性句子以形成摘要[12、33、61]。神经提取模型通过有效的表征学习[6，37，40，69]取得了显着改善。 seq2seq模型的最新成功激发了端到端编码器-解码器体系结构的各种抽象汇总方法，从而实现了最新的性能[53]。编码器模块使用单词嵌入，语言特征[38]和抽象含义表示[25，58]表示输入句子。使用RNN或Transformer及其变体将输入序列编码为中间表示，并解码为目标序列[5、23、26、38]。为了减轻词汇量不足（OOV）的问题，先前的工作还在框架中纳入了各种复制机制[17、54、60]。最近的工作在长度[20，30，39]和信息量[24，43，46，64]方面提高了所生成摘要的质量。此外，由于ROUGE的限制，最近还提出了许多替代评估指标[31、41、63]。
另一方面，多文档摘要（MDS）的目的是为一组文档生成摘要。关于MDS的早期工作探索了提取方法[4，10，18，34，47]和抽象方法[2，15，32，48]。 MDS的端到端抽象模型受到缺乏大规模注释数据集的限制。最近的工作要么尝试利用外部资源[26、27]，要么使单文档摘要模型适应MDS任务[3、22、67]。最近开发的多新闻数据集[11]为受监督的MDS提供了首个大规模培训数据，而对于多文档标题生成任务仍然缺少这种数据集。
标题生成是文档摘要的一项特殊任务，用于生成标题样式的文章摘要[55]，这些文章通常比句子[1]短。在过去的十年中，基于规则的[9]，基于压缩的[13，14]和基于统计的方法[1，65]都已通过手工制作的功能和语言规则进行了探索。端到端编码器-解码器体系结构[16、19、36、53、68]主导了最新的最新标题生成模型。类似于汇总模型，编码器模块考虑输入表示的不同格式，包括单词位置嵌入[7]，抽象含义表示[58]和其他语言特征[38]。指针网络[38]和长度控制机制[20]也为此任务而开发。但是，据我们所知，以前几乎没有研究过为多个文档生成标题的任务。
语言模型预训练已被证明可以有效地提高各种NLP任务的性能，而成本却很少[8，45，49，50，57，70]。最近应用预训练语言模型的工作在摘要和标题生成任务中也取得了重大成功[52、56、66]。在这项工作中，我们研究了不同级别的预培训如何使多文档标题生成受益。

10 结论
在这项工作中，我们建议研究在新闻故事的背景下生成标题样式的文章摘要的问题。为了进行标准研究和评估，我们发布了第一个基准数据集NewSHead，该数据集是由人类专家为此任务策划的。但是，缓慢且昂贵的策划过程需要轻而易举的解决方案，以从Web级未标记的语料库中获取大量的培训数据。为此，我们建议通过远距离监督自动注释未见的新闻报道，在这种情况下，将具有代表性的文章标题选为报道标题。结合多级预训练框架，这种新的数据增强方法为我们提供了6倍大的数据集，而无需人工管理，并使我们能够充分利用基于Transformer的模型的功能。随后，将一种新颖的基于自投票的文章注意力应用于更好地提取多个文章共享的显着信息。已经进行了广泛的实验，以验证NHNet的卓越性能及其对新闻报道中潜在噪声的鲁棒性。

2020《Generating Representative Headlines for News Stories》笔记+翻译

Part 01 笔记

Part 02 翻译

相关推荐