【论文解读 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation

论文题目：Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

论文来源：EMNLP 2018

论文链接：https://arxiv.org/abs/1809.09078

代码链接：https://github.com/lx865712528/EMNLP2018-JMEE

关键词：多事件抽取，GCN，attention，句法依存结构

文章目录

1 摘要
2 引言
3 方法

3.1 一些定义
3.2 单词表示模块
3.3 句法图卷积模块
3.4 基于self-attention的触发词分类模块
3.5 参数分类模块
3.6 有偏的损失函数

4 实验
5 总结

1 摘要

本文提出JMEE模型（Jointly Multiple Events Extraction），面向的应用是从一个句子中抽取出多个事件触发器和参数（arguments）。

JMEE模型引入了syntactic shortcut arcs来增强信息流并且使用基于attention的GCN建模图数据。

实验结果表明本文的方法和statr-of-the-art方法相比，有着可比拟的效果。

2 引言

（1）明确任务

给定一个文档，事件抽取（EE）的目的是识别出事件触发器及其类别，还需要识别出它们对应的角色参数。

ACE 2005数据集将事件抽取任务分成了两个子任务：事件检测（ED，识别事件触发器并分类）和参数提取（argument extraction，识别出事件触发器的参数并标注它们的角色）。

在事件抽取中，经常会有一个句子中出现多个事件的情况。准确地从一个句子中抽取出来多个事件比一个句子只有一个事件的情况要难得多。因为这些不同类型的事件之间经常相互有关联。

（2）现有方法的缺点

现有的方法大致可分为两类：1）句子级别的序列模型；2）基于特征的模型。

但是，基于序列的模型不能捕获到单词间较长的依赖关系；基于特征的模型需要耗费人力进行特征工程，并且选择的特征会在很大程度上影响模型的效果。而且，这两类方法都不能充分建模事件之间的关联。

（3）作者提出

1）syntactic shortcut arcs的引入

直接能想到的改进方法是：引入语言学资源（例如句法依存树）表示的shortcut arcs，通过较少的转换将信息流从一个点转换到目标节点。和基于序列的模型相比，使用这些arcs建模可以减少在同一个句子中，从一个事件触发器跳到另一个的跳数。

以图1为例，有两个事件：killed是事件Die的触发器，4条红线表示它的4个参数；barrage是事件Attack的触发器，3条蓝线表示它的3个参数。如果按照句子本身的序列顺序的话，从killed跳到barrage需要6步。如果根据句法依存树的话，只需要3步就可以了（图中用绿色的圈标出了3步的路径）。这3个arcs就组成了一个shortcut path，使用较少的跳数，将句法依存的信息流从killed节点转移给了barrage节点。

本文提出的JMEE模型引入了syntactic shortcut arcs来增强信息流，还使用了基于attention的GCN对图数据建模。

2）GCN的引入

为了在建模时使用shortcut arcs，作者采用了GCN通过聚合节点一阶邻居的信息，为每个节点学习到其句法上下文的表示。

然后利用句法上下文的表示，通过self-attention机制进行信息聚合，尤其是维护多个事件间的关联信息，以抽取出触发器和参数。

（3）贡献

提出JMEE模型可以联合抽取出事件触发器和参数。JMEE模型基于句法结构，增强了信息流，并且提升了在一个句子中抽取出多个事件的效果。
使用self-attention机制聚合信息，尤其是维护了不同事件间的关联信息。实验证明了这一方法在EE任务上的有效性。
在数据集上进行实验，在EE任务上实现了state-of-the-art。

3 方法

EE可看成是多类别的分类问题。判断句子中的每个单词是否是候选事件触发词的组成部分，以及句子中的实体是否是事件触发词对应的参数（比如Attack事件的目标和攻击者等对应的实体）。

EE方法主要分为两类：（1）联合学习的方法，同时抽取事件触发器和参数，当做类别预测问题：（2）pipeline的方法，先进行触发器的预测，然后再识别出参数。本文使用的是联合学习的方法，以避免pipeline方法中可能出现的误差传播。

为什么在句子级别（sentence-level）进行事件抽取，而不是在文档级别（document-level）呢？主要有以下3个原因：

（1）ACE 2005数据集中文档级别的共现分布和句子级别的共现分布很相似。

例如图2所示，蓝色柱子和橙色柱子分别表示Attack事件出现时，句子和文档的在33种事件上的条件概率分布。和Attack事件有共现关系的top 3的事件类型是：Die, Transport, Injure。尽管不同的事件类型有不同的共现关系，但是句子级别和文档级别在同一事件类型下的条件概率分布很相似。

（2）有许多现成的句子级别的语言学资源，可以为shortcut paths结构提供信息，例如句法依存树、AMR分析图、语义角色标签结构。

（3）同一个句子中不同事件间的关系比文档中出现在不同句子中事件关系的更易捕获。

3.1 一些定义

$W=w_1, w_2,..., w_n$ 表示长为 $n$ 的句子
$E=e_1, e_2, ..., e_k$ 表示句子中的实体提及（entity mentions）
使用BIO对每个token $w_i$ 进行标注，为其分配一个触发标签 $t_i$ ，因为有的触发器是由多个单词组成的。
使用BIO标注的标签，对每个实体 $e_j$ 在该事件中扮演的角色进行预测。

JMEE模型由4个模块组成

单词表示模块：使用向量表示句子；
句法图卷积模块：根据句法结构引入shortcut arcs，进行卷积操作；
基于self-attention的触发词分类模块：捕获一个句子中多个事件间的关联；
参数分类模块：预测每个实体 $e_j$ 在对应类型的事件中扮演的角色。

JMEE模型整体架构如图3所示：

3.2 单词表示模块

句子中的每个token $w_i$ 通过在table里查找，转换成实值的向量 $x_i$ 。 $x_i$ 由以下几种向量级联得到：

$w_i$ 的词嵌入：Glove；
$w_i$ 的POS-tagging label嵌入：随机初始化embedding table；
$w_i$ 的位置嵌入：设 $w_c$ 为当前词，将 $w_i$ 和 $w_c$ 的相对距离 $i-c$ 通过在随机初始化的embedding table中查表，编码成实值向量。
$w_i$ 的实体类型标签嵌入：和POS-tagging label嵌入相似，使用BIO对句子中的实体进行标注，通过在embedding table中查表得到实体类型标签的实值向量表示。

经过上述操作，将输入的句子 $W$ 表示成了向量序列： $X=(x_1, x_2, ..., x_n)$ ，作为后一模块的输入。

3.3 句法图卷积模块

使用句法分析树，将句子 $W$ 表示成无向图 $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ 。句子中的单词表示为图中的节点 $v_i$ 。图中的边 $(v_i, v_j)$ 表示从token $w_i$ 到token $w_j$ 有一个有向的syntactic arc，并且边的类型标签为 $K(w_i, w_j)$ 。

为了使得信息可以沿着边逆向传播，引入了反向边 $(v_j, v_i)$ ，反向边的类型标签为 $K^{'}(w_i, w_j)$ 。另外，还在原始图中添加了自环（self-loops） $(v_i, v_i)$ ，标签为loop。

句法图卷积模块的第 $k$ 层，节点 $v$ 的图卷积向量 $h^{(k+1)}_v$ 计算如下：

其中， $K(u, v)$ 表示边 $(u, v)$ 的类型标签； $W^{(k)}_{K(u,v)}, b^{(k)}_{K(u, v)}$ 分别是针对类型标签 $K(u, v)$ 的权重矩阵和偏置； $\mathcal{N}(v)$ 是节点 $v$ 的邻居集合，包括 $v$ 自己（因为有自环）； $f$ 是**函数。

使用单词表示模块输出的 $x_i$ 初始化GCN的节点表示 $h^0_{v_i}$ 。

添加反向边和自环后可知，有 $2N+1$ 个权重矩阵和 $2N+1$ 个偏置参数。

使用Stanford Parser在句法分析树上生成shortcut arcs，大约有50种句法关系，这对于单层GCN的参数量来说太大了。为了减少参数量，只维护如下的3种类型标签：

上一篇博客GCN-ED也是采用了这种方法，只维护3种类型的标签。

由于生成的句法依存结构可能有噪声，因此在边上使用门机制，为有不同类型标签的边分配不同的权重。边 $(u, v)$ 的权重 $g^{(k)}_{u, v}$ 计算如下：

上一篇博客GCN-ED也是采用了这种方法，为不同类型的边分配不同的权重。

因此，最终的GCN计算写成了如下的形式：

堆叠 $k$ 层GCN可以建模k hops的邻居信息，有时两个触发器之间的距离小于 $k$ ，为了避免信息的over-propagating，作者提出highway units。highway层进行如下的非线性转换：

其中， $\sigma$ 是sigmoid函数； $\odot$ 是element-wise乘积； $g$ 是非线性**函数； $t$ 被称为transform gate， $(1-t)$ 被称为carry gate。第 $k$ 层GCN的输入由 $h^{(k)}$ 改为 $\bar{h}^{(k)}$ 。

和GCN-ED中的原因相同：GCN的层数限制了捕获图中局部信息的能力，因此使用BiLSTM编码单词表示，将前向和后向得到的表示级联，作为第一层GCN的输入：

和上一篇博客GCN-ED中使用BiLSTM的想法一致。

3.4 基于self-attention的触发词分类模块

当每个token做为当前词时，GCN都对所有的tokens进行计算得到表示 $D$ 。传统的EE方法通常使用max-pooling或者对max-pooling进行改进来将信息聚合到每个位置。

经过GCN都得到了token的表示，为什么还需要进行聚合呢？

因为预测一个token是否是和触发器相关，需要考虑到其他可能的触发器候选token。

但是在本文的模型中，使用GCN模块后进行max-pooling进行聚合往往会产生相似的结果。例如，GCN的输出为 ${\{H_j|j=1,..., n}\}$ ， $n$ 是句子长度，位置 $i$ 进行max-pooling后得到的向量为： $A_{g_i}=max\_pooling^n_{j=1}(H_j)$ 。这样的话，每个位置得到的 $A_{g_i}$ 都是相同的。

鉴于max-pooling方法的不足，为了捕获到一个句子中不同触发器之间的关联，作者设计了self-attention机制来进行信息聚合，尤其是维护了不同事件之间的关联。

给定当前的token $w_i$ ，self-attention向量和位置 $i$ 的上下文向量计算如下：

然后将上下文向量 $C_i$ 输入到一个全连接神经网络预测触发器的标签：

3.5 参数分类模块

上一步对触发词进行分类后，可以得到完整的事件触发词（即在I-Type或B-Type后出现了O标签，就可以分割出完整的触发词）。然后使用上下文向量 $\bar{C}$ 对句子中的entity list进行参数分类。

对于每个entity-trigger对，由于entity和trigger候选都可能是tokens的子序列，我们使用average pooling在序列长度这一维度上，对上下文向量进行聚合，得到trigger candidate向量 $T_i$ 和entity向量 $E_j$ 。然后将两者级联，输入到全连接的神经网络中预测参数的角色（argument role）：

最终的输出 $y_{a_{ij}}$ 表示：第 $j$ 个实体在由第 $i$ 个候选触发器对应的事件中扮演的角色。

在训练过程中，如果候选触发器不是正确的触发器，则将与其相关的参数标签置为OTHER。

3.6 有偏的损失函数

目标函数为最小化联合的负对数似然函数。由于ACE 2005数据集中数据的稀疏性，作者添加了一个偏置项：

其中， $N$ 是训练集中的句子数； $n_p, t_p, e_p$ 分别是tokens数，抽取出的候选触发器数以及第 $p$ 个句子中的实体数； $I(y_{y_i})$ 是指示函数，若 $y_{t_i}$ 不是O，则输出一个大于1的常数值 $\alpha$ ，否则输出1； $\beta$ 和 $\alpha$ 一样，都是超参数。

4 实验

（1）数据集：ACE 2005

（2）对比方法

Cross-Event：使用文档级别的信息增强EE的性能
JointBeam：通过人为设计的特征进行结构预测，进而进行EE
DMCNN：使用dynamic multi-pooling维护多个事件的信息
PSL：使用隐层和全局的信息对事件间的关联进行编码
JRNN：使用双向RNN和人为设计的特征抽取出事件触发器和参数
dbRNN：在Bi-LSTM上添加dependency bridges，用于EE

（3）实验结果

和其他方法进行整体性能的对比结果：

在和其他方法在单事件抽取和多事件抽取两个任务上的对比结果：

self-attention机制的可视化结果：

5 总结

本文提出了JMEE模型用于事件抽取任务（EE），可以实现在一个句子中有多个事件的情况下，抽取出多个事件。不仅能抽取出事件触发器（trigger），还能抽取出该事件对应的参数（argument，即事件的关键要素，例如Attack事件的攻击者等）。

JMEE模型引入了syntactic shortcut arcs来增强信息流，也就是说将句子从序列的模式转换成了句法依存图的模式，减小了关键词之间信息流动需要的步数。在句法依存图上使用GCN进行信息聚合。还使用了self-attention机制聚合事件间的关联。

模型由4个模块组成：单词表示模块、句法图卷积模块、基于self-attention的触发器分类模块、参数分类模块。

未来工作：利用一个参数（argument）在不同事件中的不同角色信息，来更好地进行EE任务。

和GCN-ED对比：

其中句法图卷积模块和GCN-ED这篇文章中的思想基本一致，不同之处在于JMEE在信息聚合时使用了highway units，类似一个门机制，花式聚合（详见文章）。
和GCN-ED相比，JMEE没有使用pooling操作，而是使用self-attention机制将不同事件间的关联纳入考量。GCN-ED则是使用了entity mention-based pooling，考虑到了实体类型的影响。
GCN-ED只是针对事件检测任务，对事件触发器进行定位并分类，是事件抽取的一个子任务。JMEE解决了事件抽取的两个子任务，联合抽取出触发器和参数，并且可以抽取出一个句子中的多个事件。
JMEE和GCN-ED的不足之处一样，鉴于参数量的考虑，没有考虑到句法关系标签的信息。

【论文解读 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation