【论文解读 arXiv 2020 | RA-GCN】Event Detection with Relation-Aware Graph Convolutional Networks

论文题目：Event Detection with Relation-Aware Graph Convolutional Networks

论文来源：arXiv 2020.02.25

论文链接：https://arxiv.org/abs/2002.10757

关键词：事件检测（ED），图卷积神经网络（GCN），句法关系标签

文章目录

1 摘要
2 引言
3 相关工作
4 方法

4.1 Preliminary
4.2 Embedding Layer
4.3 BiLSTM Layer
4.4 Relation-Aware GCN

4.4.1 关系感知的聚合模块
4.4.2 上下文感知的关系更新模块
4.4.3 分类层

4.6 Bias Loss Function

5 实验
7 总结

1 摘要

事件检测（ED）是信息抽取的一个重要子任务，目的是识别出文本中特定类型的事件实例。近期，在依存树上的图卷积神经网络（GCNs）被广泛应用于捕获语义结构的信息，并在事件检测任务中得到了可观的效果。

然而，这些方法忽视了树中的语义相关的标签，这些标签中蕴含着丰富的语言学知识，对事件检测任务很有帮助。

本文提出一个新的框架——关系感知的GCN（Relation-Aware GCN, RA-GCN），该模型高效利用了句法关系的标签并且对单词间的关系进行了建模。

本文首先提出关系感知的聚合模型，通过特定的关系聚合具有语法关联的词，来生成表示能力强的词表示。然后设计了内容感知的关系更新模型（context-aware relation update module），对节点间关系的表示进行更新。并且这两个模块是相互促进的。

在ACE2005数据集上进行了实验，结果表明本文的模型在事件检测任务上取得了state-of-the-art的效果（F1值）。

2 引言

（1）事件检测（Event Detection）

ED是信息检索的一个重要的子任务，旨在从给定的文本中检测出来特定类型的事件。

句子中的每个事件都由一个叫做“事件触发器（event trigger）”的单词或短语标记，事件触发器表示了一个事件的出现。ED的目的就是检测出句子中的事件触发器，并将它们分到相应的事件类别。

以图1为例，ED就是为了识别出事件触发器“visted”并且将其分类成类型为“Meet”的事件。

（2）句法依存（Syntactic dependency）

句法依存表达了一个句子中单词之间的互相依赖关系，可以为ED提供关键的信息。

句法依存包括句法结构信息和句法依存关系。其中，句法结构信息表示了两个单词之间的句法联系；句法依存关系描述了两个单词之间特定类型的句法关联。

例如，图1就是一个句法依存解析的例子，句法依存结构通常表示成树的结构。图1中的单词 “Putin”, “visited”, “Bush” 通过句法结构相关联，组成了一个事件。这也就表明了句法结构有助于为ED提供关键的信息。

此外，我们认为一个词的句法依存关系是决定该词是否为触发词的重要指标。例如，图1中的 “nsubj”, “dobj”, “nmod” 都是和触发器相关的句法关系。“nsubj” 和 “dobj” 表示 “Pustin” 和 “Bush” 分别是 “visted” 的主语和宾语，“nmod” 接的单词表示事件发生的时间和地点。这表明单词 “visted” 更有可能是一个事件的触发词。

根据我们在ACE2005数据集上的统计结果，“nsubj”, “dobj” 和 “nomd” 占和触发词相关的句法关系的25%。因此，同时考虑句法依存结构和关系标签对ED非常重要。

（3）GCN

近期，有许多使用GCN处理句法依存结构的方法，提升了ED的性能。这些方法比不使用句法结构信息的，基于序列的模型表现更好。

然而，这些基于GCN的模型忽视了特定的句法依存关系标签。为了将关系标签引入到GCN中，能想到的最直接的方法就是使用不同的针对特定关系（relation-specific）的卷积核，编码不同类型的句法关系。但是这一方法面临两个挑战：

参数爆炸：参数的数量随着关系类型的数量快速增长。如果模型的参数量很大，则容易过拟合。这也就是现有的用于ED的基于GCN的方法忽略了特定的句法关系标签的原因。
关系的上下文无关的表示：由于句法关系标签编码到了针对特定关系的卷积核参数中，每个关系标签在整张图中都有相同的表示。但实际上，相同的关系在不同的上下文的情况下有着不同的语义信息。因此，有着不同单词对的关系应该有不同的上下文感知的表示（context-aware representation），这样可以为ED表达出不同的线索。

（4）作者提出

本文作者提出RA-GCN模型，同时解决了以上的所有挑战。

为了建模单词间的关系并且避免参数爆炸，作者将传统的邻接矩阵的元素扩展成一个向量，构成了关系感知（relation-aware）的邻接张量，作为对应关系的表示。张量中的元素初始化成句法关系标签的嵌入表示。

由于每种类型的句法关系是通过标签嵌入而不是GCN卷积核来区分的，所以可以减少参数量。

作者设计了一个关系感知（relation-aware）的聚合模型，通过特定的关系标签将句法关联的单词聚合。

然后还设计了一个上下文感知（context-aware）的关系更新模型，更新有上下文语义信息的关系表示，使得每个单词对间的关系都有自己的上下文感知的表示。

这两个模型分别更新了单词和关系的表示，并且它们相互促进。

（5）贡献

本文贡献总结如下

为ED提出RA-GCN模型，将特定的句法关系引入到GCN，是第一个在GCN中同时使用句法依存结构和关系标签的方法。
设计了关系感知的聚合模型，聚合特定关系标签连接的单词的句法信息。设计了上下文感知的关系更新模型，对关系表示进行更新。
在ACE2005数据集上进行了实验，结果表明RA-GCN实现了新的state-of-the-art。

3 相关工作

（1）早期的模型使用精心设计的词汇和句法特征，将ED视为分类问题，这些方法被称为基于特征的模型。这些方法依赖于有区别能力的特征，不同的特征设计策略会对模型的性能产生影响。

（2）近期的研究表明基于神经网络的ED模型效果优于基特征的模型。有学者引入CNN，不使用设计的特征捕获句子中的线索。还有学者引入RNN捕获每个单词的序列化的上下文信息。有学者通过有监督的attention，充分利用了事件参数信息，提升了对触发器的检测效果。有学者提出了gated multi-level attention和hierarchical tagging来同时检测一个句子中的多个事件。

（3）基于序列的神经网络模型没有考虑到句法依存信息。Sha等人在BiLSTM中家兔依存桥，有助于同时利用句法树结构和序列结构。

GCN的兴起使得句子的句法结构信息可以根据单词间的句法关联，构建成图的形式。然而由于参数的限制，这些基于GCN的模型都忽视了特定的句法关系标签。

本文提出的模型可以有效地利用句法关系标签，并且提升ED的效果。

4 方法

模型的整体架构如图2所示：

4.1 Preliminary

（1）GCN

GCN是CNN向编码图结构的扩展。有 $n$ 个节点的图被表示成邻接矩阵 $\mathbf{A}\in \mathbb{R}^{n\times n}$ 。图卷积的目的是从图上的邻居节点聚合信息，第 $l$ 层GCN可表示成如下的形式：

其中 $\mathbf{H}^{(l-1)}\in \mathbb{R}^{n\times d}$ 是节点表示（输入）， $n$ 表示节点数量， $d$ 表示维度。 $\mathbf{W}\in \mathbb{R}^{d\times h}$ 是可学习的卷积核， $h$ 表示隐层的GCN节点表示的维度， $\sigma$ 是**韩式ReLU。

（2）任务描述

ED的目的是对单词/短语（事件触发器）进行定位并分类，该单词/短语表示了一个事件的发生，分类对应的类别为事件的类型。

我们将ED视为一个序列标注任务，句中的每个单词都遵循 “BIO” 的标注模型：“O”, “B-EventType”, “I-EventType”。

“O” 表示对应的单词没有触发任何时间
“EventType” 表示特定类型的事件，“B-EventType” 表示单词是一个事件触发器的起始，“I-EventType” 表示单词是事件触发器内的单词。

4.2 Embedding Layer

嵌入层的目的是将每个单词转换成实值的嵌入向量，向量中包含了语义信息和单词的实体类型信息。

词嵌入（word embedding）是为了捕获到有意义的语义信息。作者使用的是在 NYT 语料库上使用 Skip-gram 模型得到的预训练的词嵌入。

句子中的实体使用 BIO 进行标注，作者使用实体类型的 lookup table，将每个实体类型标签转换成了实值嵌入。

每个单词 $w_i$ 都表示成了其单词嵌入 $\mathbb{w}_i$ 和实体类型嵌入 $\mathbb{e}_i$ 的拼接，即 $w_i$ 的嵌入 $\mathbb{x}_i = [\mathbb{w}_i; \mathbb{e}_i]\in \mathbf{R}^{d_w+d_e}$ ，其中 $d_w, d_e$ 分别表示单词嵌入和实体类型嵌入的维度。

4.3 BiLSTM Layer

使用BiLSTM Layer捕获每个单词的上下文信息，一个LSTM单元可以表示成如下的形式：

其中， $\mathbf{h}_i\in \mathbb{R}^{2\times d_h}$ ， $d_h$ 小时LSTM单元的隐层维度。BiLSTM从前和后两个方向进行了LSTM，可以捕获到单词在每个时间点的过去和未来的上下文信息。

BiLSTM层的输出是将双向的表示拼接起来，用于初始化RA-GCN层输入的单词表示。

4.4 Relation-Aware GCN

为了引入句法结构信息，使用基于GCN的ED方法根据每个句子的句法依存解析，将其转化为一张图。句中的每个单词被视为图上的一个节点，并且为句子使用boolean类型的邻接矩阵 $\mathbf{A}$ 表示句中节点之间的句法关联。句法关联在邻接矩阵 $\mathbf{A}$ 中并不互相区分。

为了建模节点间的关系，作者将邻接矩阵中的元素扩展成多维度的向量。构建了一个关系感知的邻接张量 $\mathbf{E}\in \mathbf{R}^{n\times n\times p}$ ，张量中的元素是 $p$ 维的关系表示向量， $p$ 也可以理解成是 $\mathbf{E}$ 的通道数。

关系感知的邻接张量是根据单词间的句法关系进行初始化的，引入了一个lookup table将每种类型的句法关系标签转换成一个实值嵌入。

若单词 $i, j$ 间存在一种句法关联，则 $\mathbf{E}_{ij*}$ 就初始化为从lookup table中获得的相应的 $p$ 维嵌入；否则的话就是 $p$ 维的零向量。

我们从句子中构造的图是无向图，也就是 $\mathbf{E}_{ij*}$ 和 $\mathbf{E}_{ji*}$ 初始化成相同的值。对于依存树中根节点（ROOT）的单词，给它自己添加一个有着ROOT关系的自环（self loop）。

RA-GCN的目的是为每个单词生成有表示能力的节点表示。RA-GCN的每一层都由两部分组成：（1）关系感知的聚合模块；（2）上下文感知的关系更新模块。并且这两个模块相互促进。两个模块描述如下：

4.4.1 关系感知的聚合模块

关系感知的聚合模块（Relation-Aware Aggregation Module）目的是：通过关系感知的邻接张量 $\mathbf{E}$ 聚合有句法关联的单词，为每个节点生成表示。

$\mathbf{E}$ 中的元素是单词间的关系表示，因此在聚合时可以嵌入关系信息。

关系表示的每一维可看成张量 $\mathbf{E}$ 的一个通道，并且RA-GCN分别从不同的通道聚合单词信息。关系感知的聚合操作定义如下：

其中， $\mathbf{E}^{(l-1)}\in \mathbb{R}^{n\times n\times p}$ 是初始化/上一层 RA-GCN 得到的关系感知的邻接张量； $\mathbf{E}^{(l-1)}_{**i}\in \mathbb{R}^{n\times n}$ 是 $\mathbf{E}^{(l-1)}$ 的第 $i$ 个通道片， $n$ 是句子中的单词数量； $\mathbf{H}^{(l-1)}\in \mathbb{R}^{n\times d}$ 是输入的单词表示， $d$ 表示单词的输入维度； $\mathbf{W}\in \mathbb{R}^{d\times h}$ 是可学习的过滤器， $h$ 是RA-GCN的隐层维度。采用了 Average Pooling，因为它可以处理到来自所有通道的信息。

4.4.2 上下文感知的关系更新模块

我们使用邻接单词表示来更新邻接张量中的关系表示，以得到上下文感知的关系表示。具体操作定义如下：

其中 $\oplus$ 表示位拼接操作； $\mathbf{h}^l_i, \mathbf{h}^l_j$ 表示单词 $i, j$ 在当前的RA-GCN层聚合后的表示； $\mathbf{E}^{(l-1)}_{ij*}\in \mathbb{R}^p$ 是单词 $i$ 和 $j$ 间的关系表示； $\mathbf{W}_u\in \mathbf{R}^{(2\times h+p)\times p}$ 是可学习的转换矩阵， $h$ 是RA-GCN的隐层维度。

该操作将上下文的语义信息和句法关系嵌入相结合，从而表达了关系背后的不同信息。

更新后的关系感知的邻接张量作为下一层RA-GCN的输入，以进行关系感知的聚合。

4.4.3 分类层

最终，将每个节点的表示输入到一个全连接网络中，使用softmax计算标签的分布 $p(t|\mathbf{h})$ ：

其中， $\mathbf{W}_t$ 将单词表示 $\mathbf{h}$ 转换成了针对每个事件标签的分值， $\mathbf{b}_t$ 是偏置项。softmax之后，概率最大的标签作为分类结果。

4.6 Bias Loss Function

因为 “O” 标签的数量远大于 EventType标签的数量，所以使用有偏的损失函数来加强EventType标签在训练过程中的影响。有偏的损失函数如下所示：

其中 $N_s$ 表示句子数， $n_i$ 是第 $i$ 个句子的单词数； $I(O)$ 是一个转换函数，若单词的标签是 EventType 标签中的一个，则该值为0，否则为1； $\alpha$ 是有偏的权重，有助于增强 EventType 标签的影响。

5 实验

数据集：ACE2005

对比方法：

（1）基于特征的方法：MaxEnt，CrossEntity

（2）基于序列的神经网络模型：

DMCNN：使用动态的 multi-pooling 卷积网；
JRNN：使用双向的RNN；
ANN-AugAtt：描述事件的时间、地点、人物的单词注意力分值更高；
dbRNN：对BiLSTM添加带权重的依赖弧，以同时使用树结构和序列结构；
HBTNGMA：使用 hierarchical 和 bias tagging 网络检测一个句子中的多个事件。

（3）基于GCN的模型

GCN-ED：在句法依存树结构上使用GCN以提升效果；
JMEE：使用带有self-attention的GCN和 highway network ；
MOGANED：使用带有 aggregated attention的GCN来结合来源于不同GCN层的multi-order单词表示；
RGCN：使用特定关系的邻接矩阵和卷积核建模关系数据，用于知识补全。

实验结果：

（1）表1展示了各个方法在事件检测任务下的实验结果。

（2）表2展示了消融实验的结果。

1）-RAAM：研究句法标签是否有助于RA-GCN效果的提升

作者将关系感知的邻接张量中的每个元素初始化为同一表示，意味着只使用句法依存结构

2）-MdR：研究多维度的关系表示是否有助于增强模型捕获信息的能力

作者将关系表示的维度设为1，意味着关系感知的邻接张量 $\mathbf{E}\in \mathbb{R}^{n\times n\times p}$ 压缩成了 $\mathbf{E}\in \mathbb{R}^{n\times n\times 1}$ 。

3）-CARUM：研究上下文感知的关系表示是否有助于效果的提升

作者去掉了RA-GCN中的上下文感知的关系更新模块。

4）-RAAM & CARUM：研究 “relation” 是否有助于GCN更好地工作

作者同时去掉了关系感知的聚合模块和上下文感知的关系更新模块，仅仅使用普通的GCN。

5）-BiLSTM：去掉了RA-GCN之前的BiLSTM

（3）图3表示了F1值随关系表示的维度的变化

（4）示例学习的可视化结果

以句子 “Putin last visited Bush at his Texas ranch in November 2001” 为例。

7 总结

本文提出了用于事件检测（ED）的关系感知的图卷积网络（RA-GCN），模型利用了句法依存关系标签并建模了单词间的关系。

在ED的标准数据集ACE2005上进行了实验，本文的方法在F1值上超越了所有baseline模型。

未来的工作：考虑RA-GCN中有向的句法依赖；将RA-GCN模型用于关系抽取和其他信息抽取的子任务。

现有的基于GCN的ED方法都只使用了句法依存结构，而忽略了句法关系标签。

但是句法关系标签的信息对触发词的发现有着重要的作用，因为和触发词相关的句法关系标签的分布是不均匀的。例如，在ACE2005数据集中，“nsubj”, “dobj” 和 “nomd” 占和触发词相关的句法关系的25%。

将关系纳入GCN考虑的直接想法是为每种关系使用不同的卷积核，但这会带来参数爆炸的问题，并且学习到的关系表示是唯一的，是上下文无关的。

为了建模节点间的关系，作者将邻接矩阵扩展成关系感知的邻接张量，并根据单词之间的句法关系对其进行初始化。

提出RA-GCN，由关系感知的聚合模块和上下文感知的关系更新模块组成。前者是从张量的不同通道聚合单词信息，用于更新节点的表示；后者是将上下文的语义信息和句法关系嵌入相结合，用于更新关系的表示。

因此实现了对句法关系标签的应用，提升了ED的性能。

【论文解读 arXiv 2020 | RA-GCN】Event Detection with Relation-Aware Graph Convolutional Networks