NAACL 2019 | 利用图变换网络实现从知识图到文本的生成
文章《Text Generation from Knowledge Graphs with Graph Transformers Normalization》提出一种基于知识图和图变换网络的方法,实现了文献摘要的自动生成。利用知识图结构,描述想要表达的多句文本的结构信息。通过对文章标题以及知识图的编解码,自动生成与文章标题语义相符的文章摘要部分。
论文地址:
https://arxiv.org/abs/1904.02342
代码地址:
https://github.com/rikdz/GraphWriter
引言
随着计算能力的提升,生成符合语法规范的句子已经可以实现。但想要生成多个与主题相关,并且描述一致的文献语句仍然较为困难。因为它需要符合文献的语言结构特点,并按照科技文献的方式描述并解释某一问题。
本文提出了一种GraphWriter模型,通过利用所要表达内容的图结构和文章标题的编码解码过程,实现文章摘要的撰写。该方法在定量的以及人为评测的指标上,相比以前方法有了较大提升。
数据集
为训练并验证GraphWriter模型的效果,作者建立了Abstract GENeration DAtaset (AGENDA)数据集。该数据集包含来自12个AI顶会的4万多篇论文。每个样本保留了文章的题目和摘要信息,并利用SciIE系统提取了摘要的知识图信息。该数据集被分为38720个训练样本、1000个验证样本和1000个测试样本。
模型
GraphWriter模型包含编码结构和解码结构,如图1所示。模型对文章标题和提取的知识图进行编码,解码时每一时刻输出从知识图和标题复制还是从字典生成的概率,以及对应的预测概率分布。利用最大似然为损失函数监督网络的端到端训练。
编码器
编码器部分包含图预处理过程、文本编码网络和图变换网络三部分内容。
图像预处理
由于图变换网络的输入为无标签连通图,而由SciIE系统提取的图为有标签的非连通图,所以要对数据集中图结构进行预处理。处理过程如图2所示。
处理过程先把原图中的所有实体节点和关系都作为新图的节点,原图中的每个关系生成新图的前向和后向两个节点,并把实体节点和前向后向关系节点连通。为保证生成图为连通图,构造一个全局节点,与所有实体连通。全局节点的特征后续会作为rnn结构的初始隐状态。
文本编码网络
文本编码网络作用为,对于标题以及图中的关系和实体的文本内容进行编码。由于科技文献中的实体与关系词多为多字的词组,所以利用双向rnn结构进行编码,编码结果表示为V。对于标题,同样利用双向rnn进行编码,输出结果表示为T。
图变换网络
图变换网络是transformer网络在图数据结构上的一种应用,计算方式与transformer网络相似,网络结构如图3所示。
通过计算节点与相邻节点的相似性,得到加权权重$ {\alpha_{ij}}^{n}\hat{v}{i}N{i}VL=[{v_{i}}{L}]$,其中包含所有实体节点、关系节点和全局节点的编码。
解码器
解码器通过对输入图特征和标题编码特征做预测,输出该时间步预测结果取自字典词语或是标题及图实体词语的概率p,以及它们各自预测结果的概率分布和。
先通过rnn网络输出时间步t时,图和标题的上下文向量和。
计算方式与编码器中attention计算方式相同,并同样使用了多头机制。其中为第j个图节点的编码结果,为rnn的t时刻隐状态。
同样,将图节点特征换为标题的词向量特征则得到。最终的上下文向量为
选择概率p为
输出结果的概率分布为
[外链图片转存失败(img-THd2jxXC-1563784251139)(http://weixin.fatherai.com/FmZ-DZ4npPkTiSnNrFg17B5k_61D)]
其中,为在字典尺度上做线性映射并softmax的结果。
实验结果
为说明图变换网络以及知识图在摘要生成中起到的作用。实验中将图变换网络替换为图注意力网络,将其模型表示为GAT;将不使用知识图信息而只使用图中实体的网络表示为EntityWriter。另外与baseline方法Rewriter做了比较。实验结果如下表所示。
由表1可见,利用了知识图信息的GraphWriter和GAT模型整体结果好于另外两个未考虑图信息的模型。另外GraphWriter模型结果好于GAT模型结果,说明图变换网络的效果要好于图注意力网络。
结论
作者提出了GraphWriter模型,用于从文献标题和对应的知识图中生成文献摘要文本。该模型提出了图变换网络,用于对知识图信息进行编码。并在实验部分证明了知识图对于生成文献摘要的重要作用,以及图变换网络对于提取图信息的优势。
扫码识别关注,获取更多新鲜论文解读