【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network

       本文发表在Proceedings of COLING 2014,这篇文章发表较早,值得借鉴的是局部特征和全局特征拼接进行分类处理的思路,其实在后续几NLP、CV领域的很多论文都有这种思路的体现,但是是否有比简单拼接局部和全局特征更好的特征融合方式值得探索。

      本文主要内容如下:

       用于关系分类的最先进的方法主要基于统计机器学习,并且它们的性能很大程度上取决于提取的特征的质量。提取的特征通常源自预先存在的自然语言处理(NLP)系统的输出,这导致错误在现有工具中传播并且阻碍这些系统的性能。在本文中,利用卷积深度神经网络(DNN)来提取词汇和句子级别的特征。将所有单词标记作为输入而无需复杂的预处理。首先,通过查找word embedding将单词标记转换为向量。然后,根据给定的名词提取词汇级别的特征。同时,使用卷积方法学习句子级特征。连接这两个级别的特征以形成最终提取的特征向量。最后,将这些特征输入softmax分类器以预测两个标记名词之间的关系。实验结果表明,方法显着优于最先进的方法。

论文方法如下:

【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network

1.Word Representation

使用现成训练好的word embedding作为Word Representation。

2.Lexical Level Features

本文使用通用词嵌入作为基本特征的来源。选择标记名词的嵌入和上下文标记。所有这些功能都连接到词汇级别特征向量。从五个词法层面对句子进行特征提取,来使得我们的模型更加的有偏重性。

【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network

3.Sentence Level Features

词嵌入技术已经能很好的表达词语之间的相关性。但是不能很好的捕捉远距离的词汇之间的关系,不能让计算机对于一个很长的句子表达有正确的理解。因此我们在句子级别的特征提取中使用卷积神经网络,希望能够结合所有的局部特征、提取句子中远距离的语法信息,最后生成我们的句子级别的特征向量。

本文将输入CNN的token进一步细分为Word Features (WF)和 Position Features (PF),其中WF通过设置窗口来在原始单词组成的捕捉句子中某一词语局部的上下文信息,实验决定3是最优窗口大小。

【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network

本文还引入了PF,这个是句子中的词语和目标词之间的左右相对距离:

【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network

最终的词语表示为:

【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network

4.CNN

前面提取到的都是局部特征,通过CNN提取更加长更加全面的特征。这里的CNN只是简单的两个隐层的CNN,使用tanh作为非线性变换函数。

5.softmax分类

将CNN输出的全局特征与sentence级别的局部词语表示结合作为输入:f=[l,g],输出的是一个向量,指明每个分类的概率大小。

文章中经过试验最优的超参数为,文章中提到加入位置向量效果提升明显。

【论文阅读笔记】Relation Classification via Convolutional Deep Neural Network