Event Detection and Domain Adaptation with Convolutional Neural Networks

【文章来源】

TH Nguyen, R Grishman,et al. Event Detection and Domain Adaptation with Convolutional Neural Networks[C].

【原文链接】

基于卷积神经网络的事件检测和域自适应:http://www.anthology.aclweb.org/P/P15/P15-2060.pdf

摘要

我们使用卷积神经网络(CNNs)研究事件检测问题,它克服了传统的基于特征的方法完成此任务的两个基本限制:丰富特征集的复杂特征工程和生成这些特征的前一阶段的错误传播。 实验结果表明,在不依赖大量外部资源的情况下,CNNs在总体设置和领域适应设置方面均优于已经报道的最佳的基于特征的系统。

1 介绍

我们解决了事件检测(ED)的问题:识别文本中指定类型事件的实例。与每个事件提及相关联的是一个短语,即事件触发器(通常是单个动词或名词化),它会唤起该事件。更确切地说,我们的任务涉及识别事件触发器并将它们分类为特定类型。例如,根据ACE 2005准则,在“一名警官今天在新泽西被杀”这句话中,事件检测系统应该能够识别“被杀”这个词作为事件“死亡”的触发器。此任务非常具有挑战性,因为同一事件可能以各种触发器表达式的形式出现,而表达式可能表示不同上下文中的不同事件。 ED是事件提取的总体任务中的关键组件,其还涉及事件参数发现。

最近的事件提取系统采用了一种管道体系结构,其中有单独的分类器用于触发和参数标记(Ji和Grishman,2008; Gupta和Ji,2009; Patwardhan english-events-guidelines-v5.4.3.pdf和Rilof,2009; Liao和Grishman,2011; McClosky等,2011; Huang和Riloff,2012; Li等,2013a)或联合推理架构,同时执行两个子任务以从它们的相互依赖中受益(Riedel和McCallum,2011a; Riedel和McCallum,2011b; Li等,2013b; Venugopal等,2014)。这两种方法都通过精心设计大量特征(特征工程)并利用现有的监督自然语言处理(NLP)工具包和资源(即名称标记器,解析器,地名词典等)来提取这些功能,从而应对ED任务。被纳入统计分类器。虽然这种方法已经取得了最佳表现(Hong等,2011; Li等,2013b),但至少有两个问题:

(i)特征的选择是一个手动过程,需要语言直觉和领域专业知识,这意味着需要对新的应用领域进行额外研究,限制了快速适应这些新领域的能力;

(ii)受监督的NLP工具包和用于特征提取的资源可能涉及错误(由于不完美的性质或新工具包上的工具包的性能损失(Blitzer等,2006; Daume III,2007; McClosky等,2010)),这些错误可能传播到最终事件检测器。

本文提出了一种卷积神经网络(LeCun等,1988; Kalchbrenner等,2014),针对ED任务自动学习句子中的特征,并使得对监督工具包和特征资源的依赖最小化,从而减轻错误传播并改善了此任务的性能。由于近年来NLP社区对深度学习的兴趣日益浓厚,CNNs已被广泛研究并有效地应用于各种任务:语义分析(Yih等,2014),搜索查询检索(Shen等,2014),语义匹配(Hu等,2014),句子建模于分类(Kalchbrenner等,2014; Kim,2014),名称标记于语义角色标记(Collobert等,2011),关系分类与提取(Zeng等,2014; Nguyen和Grishman,2015)。然而,据我们所知,这是迄今为止通过CNNs进行事件检测的第一项工作。

首先,我们在一般设置中评估ED的CNNs,并表明CNNs虽然不需要复杂的特征工程,但仍然能够依靠其他监督模块和人工资源广泛地超越目前最先进的基于功能的方法。 其次,我们在ED的域适应(DA)设置中研究CNN。 我们证明CNN在跨域的泛化性能方面明显优于传统的基于特征的方法,原因在于:(i)它们能够减轻预处理模块中特征的错误传播;(ii)使用字嵌入来诱导更多 触发候选人的一般表示。 我们认为,这也是首次利用CNNs进行领域适应性研究。

2 模型

我们将事件检测问题规范化为多类分类问题。给定一个句子,对于该句子中的每个标记,我们想要预测当前标记是否是事件触发器:即,它是否表示预定义事件集中的某些事件(Li 等,2013b)?当前标记及其句子中的上下文构成多类分类术语中的事件触发器候选项或示例。为了准备CNNs,我们将上下文限制在一个固定的窗口大小,在必要时使用特殊标记来修饰较长的句子和填充较短的句子。设2w + 1为固定窗口大小,Event Detection and Domain Adaptation with Convolutional Neural Networks是一些触发候选者,其中当前令牌位于窗口的中间(标记x0)。在进入CNNs之前,通过查找以下嵌入表来捕获标记的不同特征,将每个令牌xi转换为实值向量:

- 单词嵌入表(由一些预训练的单词嵌入初始化):捕获标记的隐藏语义和句法属性(Collobert和Weston,2008; Turian等,2010);

- 位置嵌入表:将令牌xi的相对距离i嵌入当前令牌x0。在实践中,我们随机初始化该表;

- 实体类型嵌入表:如果我们在句子中进一步知道实体提及及其实体类型,我们还可以通过使用与每个标记关联的实体类型查找实体类型嵌入表(随机初始化)来捕获每个标记的此信息。我们使用BIO注释方案,使用实体提及的头部将实体类型标签分配给触发候选中的每个标记。

对于每个标记xi,从上面的三个查找获得的向量被连接成单个向量xi以表示标记。结果,原始事件触发器x被转换为矩阵,大小为,(是标记的级联向量的维数)。

Event Detection and Domain Adaptation with Convolutional Neural Networks

图1 用于事件检测的卷积神经网络

然后矩阵表示x在末尾通过卷积层,最大汇集层和softmax在最后进行分类(如(Kim,2014; Kalchbrenner等,2014))。在卷积层中,我们有一组特征映射(滤波器)Event Detection and Domain Adaptation with Convolutional Neural Networks用于卷积运算。每个特征映射Event Detection and Domain Adaptation with Convolutional Neural Networks对应于某个窗口大小k,并且基本上可以看作大小为Event Detection and Domain Adaptation with Convolutional Neural Networks的权重矩阵。图1说明了所提出的CNNs模型。

使用反向传播计算梯度;正则化是通过退化来实现的(Kim,2014; Hinton等,2012),并且通过随机梯度下降和改组的小批量和AdaDelta更新规则(Zeiler,2012; Kim,2014)进行训练。在训练期间,我们还同时优化三个嵌入表的权重以达到有效状态(Kim,2014)。

3 实验

3.1 数据集,超参数和资源

由于卷积层中多个窗口大小的好处已在先前的句子建模工作中得到证明(Kalchbrenner等,2014; Kim,2014),在下面的实验中,我们使用集合中的窗口大小{2,3,4,5}生成特征映射(要素图)。我们在此集合中为每个窗口大小使用150个特征映射。触发器的窗口大小设置为31,而位置嵌入和实体类型嵌入的维度为Event Detection and Domain Adaptation with Convolutional Neural Networks。我们继承Kim(2014)中其他参数的值,即退化率ρ = 0.5,小批量size = 50,Event Detection and Domain Adaptation with Convolutional Neural Networks范数的超参数= 3。最后,我们采用了Mikolov等人(2013)的300维度的预训练词嵌入word2vec初始化。

我们通过ACE 2005语料库评估所呈现的CNN。为便于比较,我们使用了与之前对该数据集的研究相同的测试集:40篇新闻专线文章(672句)、与其他30篇文档(836句)、与剩余529篇文档(14,849句)相同的训练集(Ji和Grishman, 2008;Liao、Grishman,2010;Li等,2013 b)。ACE 2005语料库有33个事件子类型,以及非触发令牌的一个类“None”,构成了34级分类问题。

为了评估位置嵌入和实体类型嵌入的有效性,表1报告了当这些嵌入包含在系统中或从系统中排除时,所提出的CNN在开发集上的性能。从表中可以明显看出,位置嵌入是非常重要的,而且实体嵌入对于ED上的CNNs也是非常有用的。

表1 开发集的性能

 

Event Detection and Domain Adaptation with Convolutional Neural Networks

对于下面的实验,我们在两种情况下检查CNNs:排除实体类型嵌入(CNN1)并包括实体类型嵌入(CNN2)。我们总是在这两种情况下使用位置嵌入。

3.2 性能比较

ACE 2005数据集上用于事件检测的最先进系统遵循传统的基于特征的方法,具有丰富的手工设计特征集,以及统计分类器,如MaxEnt和perceptron(Hong et al。,2011; Li et al。,2013b)用于联合体系结构中的结构化预测。在本节中,我们将所提出的CNNs与盲测试集上的这些最先进系统进行比较。表2显示了具有黄金标准实体提及和类型信息的系统的整体性能。

表2 黄金标准实体提及和类型的表现。†超出句子水平。

Event Detection and Domain Adaptation with Convolutional Neural Networks

从表中可以看出,考虑到仅使用句子级别信息的系统,CNN1明显优于MaxEnt分类器以及具有Li(2013b)等人的局部特征的联合波束搜索(F1得分提高1.6%),与使用局部和全局特征的联合波束搜索方法相比具有可比性(Li 等,2013b)。这是值得注意的,因为CNN1不需要任何外部特征,而其他基于特征的系统广泛依赖这些外部特征来做到表现良好。更有趣的是,当实体类型信息被纳入CNN1时,我们得到的CNN2仍然只需要句子级别信息,但在这项任务中达到了最前沿的表现(比只有句子级别信息的最佳系统改进了1.5%)。

表3 预测实体提及和类型的性能

Event Detection and Domain Adaptation with Convolutional Neural Networks

除了CNN1,表2中报告的所有系统都使用了手工注释中可能无法使用的黄金标准(完美)实体提及和类型。表3比较了CNN1和基于特征的系统在更现实的环境中的性能,其中实体提及和类型是从自动高性能名称标记器和信息提取系统中获取的(Li等,2013b)。注意,CNN1适合进行这种比较,因为它不使用任何外部特性,因此可以避免使用名称标记器和信息提取系统来识别实体提及和类型。

3.3域适应实验

在本节中,我们的目标是进一步将提议的CNNs与用于事件检测的域自适应设置下的基于特征的系统进行比较。

领域适应性研究的最终目标是开发在某些源域中获取训练数据的技术以及可在目标域上良好运行的学习模型。目标域应该与源域非常不同,以致学习技术在源域上训练并应用于目标域时会遭受显著的性能损失。为清楚起见,我们在本节中解决了无监督的DA问题,即目标域中没有训练数据(Blitzer等,2006; Plank和Moschitti,2013)。基于特征的系统在目标域上性能损失的根本原因主要有两个:

(i)不同领域特征的行为变化:由于领域不同,一些特征在源领域可能提供信息,但在目标领域变得不那么相关,反之亦然。

(ii)用于提取特征的低级任务(POS标记,名称标记,解析等)的预处理工具包的传播错误:已知这些预处理工具包在转移到目标域时会退化(Blitzer等人。,2006; Daume III,2007; McClosky等,2010),在系统中引入噪声特征,用于目标域中的更高级别任务,并且最终削弱了目标域中这些更高级别系统的性能。

对于ED,我们假设CNNs比基于特征的DA方法更有用,原因有两个:首先,CNNs不是依靠符号和具体形式(即单词,类型等)构建特征,而是作为传统的基于特征的系统(CN和Grishman,2008; Li等,2013b),CNNs会自动从单词嵌入,跨域共享的单词的一般分布式表示。这有助于CNNs减轻词汇稀疏性,为触发候选者学习更多通用和有效的特征表示,从而弥合域之间的差距。其次,由于CNN最大限度地减少了对受监督的预处理工具包的依赖,因此它们可以减轻错误传播,并且对域转移更加鲁棒。

3.3.1数据集

我们也在这部分中通过ACE 2005数据集进行实验,但更多地关注域之间的差异。 ACE 2005语料库有6个不同的领域:广播会话(bc)、广播新闻(bn)、电话会话(cts)、新闻专线(nw)、usenet (un)和网络博客(wl)。根据该数据集领域适应性研究的普遍实践(Plank和Moschitti,2013; Nguyen和Grishman,2014),我们使用新闻(bn和nw的联合)作为源域,bc,cts,wl作为三个不同的目标域。 我们将bc的一半作为开发集,并且使用剩余的数据进行测试。我们注意到,事件子类型的分布以及源域和目标域的词汇表有很大的不同(Plank和Moschitti, 2013)。

3.3.2域适应结果

表4显示了五个系统的性能:具有Li等人的局部特征的MaxEnt分类器。 (2013b)(称为MaxEnt);最先进的联合波束搜索系统具有:(i)仅局部特征(称为联合+局部); (ii)Li等人的本地和全球特征(称为Joint + Local + Global)。 (2013b)(基线系统); CNN1和CNN2通过5倍交叉验证。对于每个系统,我们在源域的训练集上训练模型,并在源域的测试集(范围之外的性能)上报告该模型的性能以及模型在三个目标域bc上的性能, cts和wl(域外性能)。

表4 域内(第一列)和域外性能(第二列到第四列)。标记为†指定CNN模型的细胞显著优于(p < 0.05)所有报道的基于特征的方法在指定的领域。

Event Detection and Domain Adaptation with Convolutional Neural Networks

该表的主要结论包括:(i)基线系统MaxEnt,Joint + Local,Joint + Local + Global在源域上实现了高性能,但由于域移位而在目标域上显着降低。 (ii)比较CNN1和基线系统,我们发现CNN1与源域上的基线系统(域内性能)(如预期的)相当,在三个目标域中的两个上基本上优于基线系统(e, bc和cts),并且仅比wl域上的联合波束搜索方法有效; (iii)最后也是最重要的是,我们通过仅将实体类型信息引入CNN1,始终在CNN2的所有目标域中实现最佳的适应性能。事实上,CNN2显着优于基于特征的系统,p <0.05,并且在bc和cts域上的大边缘约为5.0%,这清楚地证实了我们在3.3节中的论点,并证明了CNN对ED的DA的益处。

4 结论

我们提供了一个用于事件检测的CNN,它可以自动学习预训练的字嵌入,位置嵌入以及实体类型嵌入的有效特征表示,并减少错误传播。我们进行了实验,以在一般设置和域适应设置中比较所提出的CNN与最先进的基于特征的系统。实验结果证明了CNN的跨域的有效性和稳健性。将来,我们的计划包括:(i)探索CNNs事件提取的联合方法;(ii)研究用于信息提取的其他神经网络架构。