Question Answering by Reasoning Across Documents with Graph Convolutional Networks

Question Answering by Reasoning Across Documents with Graph Convolutional Networks


with Graph Convolutional Networks)

来源

2019 naacl
Nicola De Cao
University of Amsterdam
Wilker Aziz
University of Amsterdam
Ivan Titov
University of Edinburgh
University of Amsterdam

motivation

之前的问答相关研究主要是针对单文档或者单独一个段落的,然而在实际问题中,通常段落之间是存在关系的,一些问题需要综合多个文档或者多个段落回答,因此本文主要研究的跨文档问答。这里举一个例子
Question Answering by Reasoning Across Documents with Graph Convolutional Networks
本文将这个问题视为图上的推断问题,图的节点是实体,边代表entity mention的关系,利用图卷积神经网络可以进行多步推理。本文提出的entity-GCNs 模型在WIKIHOP数据集上取得了最佳的性能。

model

问题定义: 问题可以表示为(q,Sq,Cq,a)(q, S_{q}, C_{q}, a*), qq表示问题,SqS_{q}表示supporting document,CqC_{q}表示候选的entity 集合,aa*qq的答案。本文的目的是训练一个神经网络,给定一个查询qq,可以输出答案在CqC_{q}上的一个概率分布。通过最大似然估计模型的参数,输出概率最大的结果作为预测的问题答案,模型可以实现多步推理。
entity-graph
构建实体图可以作为离线任务来构建,将每个train instance在实体图上表示出来,在SqS_q中提取出出现在CqC_q中的entity mention, 为每个entity mention创建一个node, 边的构建方法:如果两个entity mention 出现在同一个文档中则将两个mention先连; 如果entity mention 参考同一个实体,则连接两个entity mention
#为什么这麽构建? 神码是entity mention 怎么提取
entity mention (节点viv_i)使用一个基于上下文的向量表示xiRDx_i\in R^{D}

entity-GCN: 
问题qqembedding 以及candidate mention embedding 都使用elmo 模型表示
updated signal 表示方式:表示为当前节点表示的转换函数和与它邻居的转换函数和(感觉相当于每个节点加一个指向自己的环)
Question Answering by Reasoning Across Documents with Graph Convolutional Networks
使用门控机制控制传递到下一步
Question Answering by Reasoning Across Documents with Graph Convolutional Networks
下一层节点表示:
Question Answering by Reasoning Across Documents with Graph Convolutional Networks
以上就是entity-GCN每一层的表示方式

多步推理:
通过实体卷积神经网络进行信息的传递实现多步推理,答案的选择方式:
Question Answering by Reasoning Across Documents with Graph Convolutional Networks
viv_i 是包含cc的entity mention fof_o是参数化的转化函数,可以通过一个softmax层获得答案的概率分布

experiment

Question Answering by Reasoning Across Documents with Graph Convolutional Networks

使用的wikihop数据集
Question Answering by Reasoning Across Documents with Graph Convolutional Networks

appendix

数据集:Johannes Welbl, Pontus Stenetorp, and Sebastian Riedel. 2017. Constructing datasets for multi-hop
reading comprehension across documents. arXiv preprint arXiv:1710.06481.