【论文解读 EMNLP 2019 | MOGANED】ED with Multi-Order Graph Convolution and Aggregated Attention

论文题目：Event Detection with Multi-Order Graph Convolution and Aggregated Attention

论文来源：EMNLP 2019

论文链接：https://www.aclweb.org/anthology/D19-1582/

代码链接（非官方）：https://github.com/wzq016/MOGANED-Implementation

关键词：事件检测，GCN，GAT，attention，句法依存结构，多阶句法关系

文章目录

1 摘要
2 引言
3 模型

3.2 多阶图注意力网络
3.3 注意力聚合模块
3.4 有偏的损失函数

4 实验
5 总结

1 摘要

对于事件检测（ED）任务，在句法依存树上进行句法关系表示的学习可以更好地捕获候选触发词间和实体间的关联。但是现有的方法仅仅使用了依存树中一阶的句法关系（例如 the arcs）来进行触发词的识别。

本文提出用于ED任务的新方法，MOGANED（Multi-Order Graph Attention Network based method for Event Detection）模型：基于句法依存树使用GCN方法对其建模，并使用attention机制聚合句中多阶的句法信息。

实验证明了本文方法和state-of-the-art相比的优越性。

2 引言

ED任务的目的是识别出句子中的事件触发词并对其分类。如图1所示，ED需要识别出"fired"是"Attack"类型事件的触发词。

基于句法依存树的方法，可以利用句子对应的句法依存树中的句法关联，捕获到不同候选触发词间的关联以及和其相关的实体信息。

触发词和相关实体间的句法关系可以是一阶的，表现为依存树中的直接弧（direct arcs）。它们之间的关系也可以是高阶的（在依存树上的路径大于1跳）。

在ACE 2005数据集上统计得知，51%的和事件相关的实体到其对应的触发词和相关实体的最短距离大于1。如图1所示，“fired”-“evidence”-“became”-“blood”-“soldiers”，需要4跳。

然而，现有的基于依存树的方法只使用了一阶的句法关系。虽然，它们采用堆叠多层GCN的方式来捕获高阶的句法关系，但是，由于GCN的过平滑问题，随着层数的增加，相邻节点的表示会趋于一致。

为了避免这一问题，本文提出MOGANED（Multi-Order Graph Attention Network based method for Event Detection）模型。MOGANED模型使用了一阶句法图和高阶句法图，利用了候选触发词的多阶表示。为了计算每个词的多阶表示，作者使用了GAT来衡量该词不同阶邻居的重要性，并分配不同的权重。然后使用注意力机制对多阶的表示进行加权求和。

实验和state-of-the-art方法对比，证明了本文方法在准确率和F1两个度量上的优越性。本文还是第一个将GAT用于ED的工作。

3 模型

将ED视为多类别分类问题。令 $W=w_1, w_2, ..., w_n$ 表示长为 $n$ 的句子。由于事件触发器可能包含多个单词，因此使用BIO模式对句子做标注。标签数为 $2L+1$ ， $L$ 是事件类型数。

模型由3个模块组成：

（1）词编码模块：将输入的句子编码成向量序列；

（2）多阶图注意力网络（multi-order GAT）：在多阶的句法图上应用GAT；

（3）注意力聚合模块：为多阶的表示分配不同的注意力权重，将其聚合，得到单词的表示，用于标签的预测。

模型的整体结构如下图所示（最高阶为3）：

## 3.1 词编码模块

和现有的方法操作基本相同，将词嵌入 $word_i$ 、实体类型嵌入 $et_i$ 、POS-tagging嵌入 $pos_i$ 、位置嵌入 $ps_i$ 级联，得到token $w_i$ 的嵌入向量 $x_i$ 。将输入的句子 $W$ 转换为向量序列 $X=x_1, x_2, ..., x_n$ 。

由于每个单词仅仅利用它在依存图上的邻居进行更新，和先前的方法一样，作者使用了BiLSTM将 $X$ 与其上下文编码成 $P=p_1, p_2, ..., p_n$ ，作为多阶GAT模块的输入：

3.2 多阶图注意力网络

每个句法依存树都可以用邻接矩阵 $A$ 表示为一阶句法图。

一阶句法图的邻接矩阵 $A$ 包括3个维度均为 $n\times n$ 的子矩阵： $A_{along}, A_{rev}, A_{loop}$ 。其中，若 $w_i$ 和 $w_j$ 在句法树上有连边，则 $A_{along}(i, j)=1$ ，否则为0； $A_{rev}=A^T_{along}$ ； $A_{loop}$ 是单位矩阵。

$k$ 阶句法图的邻接矩阵为 $A^k_{subg}=(A_{subg})^k$ ，其中 $subg\in {\{along, rev, loop}\}$ 。 $A^k_{subg}$ 记录了 $A_{subg}$ 中所有的 $k$ 跳路径。 $A^k_{loop}=A_{loop}$ 。分别用 $a^k, b^k, c^k$ 表示 $A^k_{along}, A^k_{rev}, A^k_{loop}$ 。

多阶GAT模块使用多个并行的GAT层，得到多阶句法图的表示，并且在每个句法图进行卷积的过程中，权衡了每个词不同邻居的重要性并分配权重。

第 $k$ 阶句法图 $A^k$ 的表示 $h^k_i$ 是通过 $A^k$ 子图的表示计算得到的：

其中， $f(\cdot)$ 是图注意力卷积函数， $\oplus$ 是元素级别的相加操作。

$\sigma$ 是指数线性单元（ELU）； $W_{a, k},\epsilon_{a, k}$ 分别是对于 $a^k$ 的权重矩阵和偏置项； $u_{ij}$ 是更新 $w_i$ 时邻居 $w_j$ 的归一化后的权重。 $u_{ij}$ 计算如下：

其中， $e_{ij}=\gamma(W_{comb}[W_{att}p_i || W_{att}p_j])$ ； $\mathcal{N}_i$ 是 $w_i$ 在子图上的邻居集合； $\gamma$ 是LeakyReLu函数； $W_{comb}, W_{att}$ 是权重矩阵。

在经过图注意力卷积之后，每个候选触发词 $w_i$ 都得到了一组多阶的表示 $h^k_i, k\in [1, K]$ ， $K$ 是模块中使用到的最高的阶数。

3.3 注意力聚合模块

使用注意力机制对上一步得到的每个词的多阶表示 $h^k_i$ 进行聚合：

其中， $v^k_i$ 是归一化后的单词 $w_i$ 的 $k$ 阶图表示，计算如下：

其中， $s^j_i=tanh(W_{awa}h^j_i+\epsilon_{awa})$ ， $W_{awa}, \epsilon_{awa}$ 分别为权重矩阵和偏置项； $ctx$ 是随机初始化的上下文向量，捕获了每一阶图表示的重要性信息。

最后，使用聚合后的表示 $h_i$ 来预测单词 $w_i$ 的触发词标签：

其中 $y^q_i$ 定义了单词 $w_i$ 标签为 $q$ 的概率； $O_i=w_oh_i+\epsilon_o$ ， $w_o, \epsilon_o$ 分别是权重矩阵和偏置项。

3.4 有偏的损失函数

由于标签为 $O$ 的单词数和有事件标签的单词数相比太多了，所以使用有偏的损失函数来增强事件标签在训练时的影响：

其中， $N_s$ 是句子数； $N_{i, w}$ 是 $s_i$ 中的单词数；如果单词标签为 $O$ ，则 $I(O)$ 为1，否则为0； $\lambda$ 是大于1的参数。

4 实验

数据集：ACE 2005

对比方法：

CrossEvent：使用文档级别的信息
DMCNN：建立了dynamic multi-pooling的CNN模型
JRNN：使用双向RNN和人为设计的特征
DEEB-RNN：使用有监督的层级注意力以及文档级别的信息
dbRNN：在BiLSTM网络中添加句法边以增强模型
GCN-ED：基于GCN使用argument pooling机制用于ED
JMEE：使用GCN，highway网络和self-attention

实验结果

和state-of-the-art的方法相比，在准确率和F1值两个度量中取得了最优。

对MOGANED模型进行消融实验：

MOGANED-First：只使用一阶句法图（ $K=1$ ）；
MOGANED-GCN：使用传统的GCN而不使用GAT；
MOGANED-Mean：使用mean pooling作为对单词多阶表示的注意力聚合。

5 总结

本文提出MOGANED模型用于事件检测（ED）任务，模型使用GAT对多阶的表示进行了建模，并应用注意力机制聚合多阶表示以更好地捕获依存树中的上下文信息。实验结果显示其在准确率和F1值两个度量上实现了最优。

2020有学者提出新的模型RA-GCN，在F1值上超越了MOGANED，但没有在准确率上超越超越MOGANED。

模型针对现有的基于GCN的ED方法的同一缺点：只能直接利用一阶的句法关系，虽然堆叠多层GCN可以捕获多阶的句法关系，但是GCN有过平滑的问题，层数太多的话相邻节点的表示会趋于一致。

MOGANED模型的思想很直接，将邻接矩阵根据原始边、反向边、自环分为3个子矩阵，对这些矩阵求 $k$ 次幂就得到了有 $k-hop$ 路径的邻接矩阵。在 $1$ ~ $K$ 阶的句法图上使用GAT，就得到了多阶句法图的表示。然后再使用注意力机制对单词在多阶句法图上的表示进行聚合，得到单词最终的表示，就可以用于分类预测了。

和以往的基于GCN的方法一样，MOGANED模型只将邻接矩阵根据原始边、反向边、自环分为了3个子矩阵，因此在建模时没有考虑到句法关系标签的多样性，只利用了句法结构的信息。（RA-GCN模型两个信息都使用到了）

【论文解读 EMNLP 2019 | MOGANED】ED with Multi-Order Graph Convolution and Aggregated Attention