论文笔记&总结|JMEE事件抽取联合模型

JMEE论文笔记

《Jointly Multiple EE via Attention-based Graph Information Aggregation》

原文链接为:https://arxiv.org/abs/1809.09078

摘要

对于一个句子中存在多个事件是很常见的现象,提取同一个句子中的多个事件难度要大于单个事件。之前的方法是通过建立长距离依赖的顺序模型来获取事件之间的关系,这样的方法效率很低。本文提出了一种新的联合事件抽取框架JMEE,引入了语法弧和基于注意力机制的图卷积神经网络。

1、引言

给定一个文本,需要提取文本中的触发词及类型和事件元素及类型。如ACE2005数据集定义的那样,事件抽取任务可分为事件识别和参数提取两个子任务。

同时抽取一个句子中的多个事件是很有难度的任务。前人做了很多工作:利用各种特征、保留更多的上下文特征、引入关系弧、引入篇章级的特征等。但是在句子级别的抽取任务上,对长距离依赖信息的获取十分低效,甚至还需要补充人工特征,这大大影响了模型的性能。并且这些方法都没有考虑到事件之间的关系。

解决上述问题的直接方法是引入由语言资源表示的快捷弧,例如依赖树,可以用较少的转换来实现词语之间的信息流联系。与序列顺序相比,使用语法依赖弧可以减少同一语句中一个事件触发词到另一个事件触发词的跳数。例如下图:

论文笔记&总结|JMEE事件抽取联合模型

 

图中有两个事件,一个死亡事件含有四个事件元素(红色)、一个攻击事件含有三个事件元素(蓝色),从killed到barrage根据序列顺序需要六跳,根据dependency tree只需要三跳:​

​ ​ 论文笔记&总结|JMEE事件抽取联合模型

本文提出了一种新的联合多事件抽取的框架(JMEE)。通过引入语法弧来增强信息流,并通过图卷积神经网络来对图形信息进行建模。为了用快捷弧实现建模,我们采用图卷积神经网络通过图中相邻节点的代表向量学习每个节点的句法上下文表示。然后利用上下文语法表示通过自注意力机制联合提取触发词和事件元素,特别保留了多个事件之间的联系。

实验采用ACE2005数据集,论文贡献如下:

1.提出JMEE模型,基于语法结构增强了信息流并且实现了对同一个句子中多个事件的抽取。

2.提出了自注意力机制来聚集信息,保留了多个事件之间的联系。

3.所提出的模型在多个数据集上取得了目前最好的效果。

2、方法

论文笔记&总结|JMEE事件抽取联合模型​表示长度论文笔记&总结|JMEE事件抽取联合模型为​的句子,其中​论文笔记&总结|JMEE事件抽取联合模型表示第i个单词; 用​论文笔记&总结|JMEE事件抽取联合模型表示句子中的​k个实体,​k是实体的总个数; 利用BIO标注方式为每个​论文笔记&总结|JMEE事件抽取联合模型标注标签论文笔记&总结|JMEE事件抽取联合模型​,存在触发词由多个单词组成的情况。

如果我们可以获得触发词对应的类型,则需要判断每个实体论文笔记&总结|JMEE事件抽取联合模型​是否是该类型触发词所对应的事件元素,并判断其对应的元素角色。JMEE只要由四个模块组成,分别是单词表示模块、语法卷积模块、注意力机制模块、预测模块。

论文笔记&总结|JMEE事件抽取联合模型

 

2.1 单词表示

词向量由四部分组成:

1.glove编码

2.glove位置编码

3.窗口值为C的位置嵌入

4.实体类型编码

2.2语法图卷积神经网络

无向图​论文笔记&总结|JMEE事件抽取联合模型是句子W​的语法树,​论文笔记&总结|JMEE事件抽取联合模型和​论文笔记&总结|JMEE事件抽取联合模型是图对应的节点集和边集。在图中,每一个节点​论文笔记&总结|JMEE事件抽取联合模型代表句子W​中的单词论文笔记&总结|JMEE事件抽取联合模型​。每一条边论文笔记&总结|JMEE事件抽取联合模型​都代表从单词论文笔记&总结|JMEE事件抽取联合模型​到​论文笔记&总结|JMEE事件抽取联合模型的有向语法弧并且带有相应的标签论文笔记&总结|JMEE事件抽取联合模型​。为了获取反方向的信息,添加了论文笔记&总结|JMEE事件抽取联合模型​,所对应的label是论文笔记&总结|JMEE事件抽取联合模型​。对每一个节点还加入了自循环,论文笔记&总结|JMEE事件抽取联合模型​。

论文笔记&总结|JMEE事件抽取联合模型

 

上图中,对于只包含​和​这两个节点的子图来说,只有四条弧:

论文笔记&总结|JMEE事件抽取联合模型

在语法图卷积网络的第k​层,节点v​的图卷积向量可表示为:

论文笔记&总结|JMEE事件抽取联合模型

其中论文笔记&总结|JMEE事件抽取联合模型​表示边论文笔记&总结|JMEE事件抽取联合模型​的标签,W和b是对应的权重和偏差,N(v)是v对应的领域集且包括v,f为**函数。

由此,预定义的有向弧标签数量为N,则对于单层的GCN网络标签数量为(2N+1),因此将有(2N+1)组参数对。本文应用Stanford Parser来获得依赖树,并将其语法关系简化为三种:

论文笔记&总结|JMEE事件抽取联合模型

并且为不同的边赋予不同的权重来表示其重要性。节点的图卷积向量可表示为:

论文笔记&总结|JMEE事件抽取联合模型

因为GCN通过快捷弧来获取依赖关系但收到层数的限制,所以利用上下文信息在不增加GCN层数的前提下对信息进行扩展。因此在GCN网络之前加入了双向LSTM网络来获取上下文信息。

2.3基于自注意力机制的触发词分类

对于单词论文笔记&总结|JMEE事件抽取联合模型​的子注意力得分和上下文向量可表示为:

论文笔记&总结|JMEE事件抽取联合模型

其中,​norm表示归一化操作,然后将论文笔记&总结|JMEE事件抽取联合模型​输入到全连接网络中,并根据softmax函数得到其分类。

2.4事件元素分类

当提取出一个满足BIO标签的触发词时,根据上下文向量C​来对句子中的实体进行元素分类。将触发词向量​论文笔记&总结|JMEE事件抽取联合模型和实体向量论文笔记&总结|JMEE事件抽取联合模型​根据序列长度进行平均池化后连接,并输入到全连接网络中进行元素预测。

论文笔记&总结|JMEE事件抽取联合模型

其中​论文笔记&总结|JMEE事件抽取联合模型表示第j个实体在第i个触发词下表示的元素角色。

2.5损失函数

损失函数为联合负对数似然损失函数。为了解决数据的稀疏性,在损失函数中添加了一个偏移项。

3、实验

与其他方法对比得到的实验结果如下:

论文笔记&总结|JMEE事件抽取联合模型

 

对于多事件的抽取实验结果如下:

 

论文笔记&总结|JMEE事件抽取联合模型