《Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model（ACL-2019）》论文阅读

前言

论文地址：https://arxiv.org/pdf/1906.01231.pdf
代码：https://github.com/lancopku/Graph-to-seq-comment-generation

Abstract

本文要解决的是通过文章生成评论，对与传统 encoder-decoder 的模型来说，文章通常过长，所以作者提出一个 Graph-to-Sequence 的模型来生成评论。

1、Introduction

说了一些生成评论面临的一些问题：

新闻可能很长，用经典的 sequence-to-sequence 效果不一定好；另外标题又太短，提供不了足够的信息。
新闻标题有时使用与文章内容语义不同的 hyperbolic expressions。
用户评论时关注的点不同，评论具有多样化。

然后表示本文有三个贡献点：

提出用一个主题交互图来表示文章。
提出一个 grahp-to-sequence 的模型来从图中生成评论。
发布了一个数据集，包括标题、内容、评论。

2、Related Work

这部分提了一些图卷积神经网络的应用，没什么好说的，过。

3、Graph-to-Sequence Model

3.1 Graph Construction

构建图大致过程如下：

先使用现成的工具(如Stanford CoreNLP)对新闻文章进行分词和命名实体识别。由于单独的命名实体识别不足以涵盖文档的主要重点，我们进一步用了关键字提取算法，如TextRank来获取额外的关键字。

在得到新闻的关键字κ之后，我们将文档的每个句子与其对应的关键词相关联。这里使用一种简单的策略，如果k出现在句子中，则将句子s分配给关键字k。请注意，一个句子可以与多个关键字相关联，这隐含地表示两个主题之间的关联。不包含任何关键字的句子被放入一个名为“Empty”的特殊顶点。因为文章的标题对理解新闻至关重要，所以我们还添加了一个名为“Title”的特殊顶点，其中包含文章的标题句子。

如果顶点vi和vj共享至少一个句子，我们在它们之间添加边缘eij，其权重由共享句子的数量计算。这种设计背后的直觉是，将两个关键词组合在一起的句子越多，这两个关键词越接近。还可以使用基于内容的方法，例如vi和vj的内容之间的tf-idf相似性。

3.2 Vertex Encoder

将图中的每个顶点编码为一个向量 $v$ ，顶点编码器由两部分组成，一是嵌入模块，二是用 multi-head self-attention。

对于单词序列中的第 $i$ 个单词 $w_i$ ，先查找其词嵌入 $e_i$ （文章中关键词和非关键词共享一个嵌入表），然后将位置信息 $p_i$ 添加到单词中，其中，关键词的位置信息为 $p_0$ 。
$\epsilon_i = e_i + p_i$

得到了每个词向量后，扔进一个 multi-head self-attenton 模块得到每个词的 hidden vector $a_i$ ，(ps：关于 self-attention 可以去看我的 Transformer 那篇博客），最后使用 $a_0$ 作为整个顶点的向量，也就是关键词的那个向量（因为关键词在最前面，位置信息为 $p_0$ ）。