Neural Relation Extraction with Selective Attention over Instances阅读笔记
1. 概述
关系提取(RE):是从纯文本生成关系数据的过程,是NLP中的一项重要任务。
远程监督方法的句子中人物关系数据存在很多噪声(错误标记),因此,本文提出基于句子的注意力CNN模型,在多个实例上构建句子级别的注意,力这有望在动态地减少那些噪声实例的权重。
Knowledge base(简称kb):数据库。如freebase、DBpedia、YAGO
2. 相关研究
(Zeng et al。,2015)将多实例学习与神经网络模型结合起来,可以建立基于远程监督数据的关系提取器。 尽管该方法在相关提取方面取得了显着的改进,但仍然远远不能令人满意。 该方法假设至少一个提到这两个实体的句子将表达它们的关系,并且仅在训练和预测中为每个实体对选择最可能的句子。 很明显,该方法会丢失大量含有被忽视的信息的丰富信息。
本文提出了一种基于句子级注意力的卷积神经网络(CNN)用于远程监督关系提取。
开始,关系提取是基于一个句子的,但是用远程监督的方法,句子的标签有很多错误,造成大量干扰数据。随后,虽然有基于多个句子的,但只选择其中一个主要的句子进行建模,因此丢失大量信息。本文基于多个句子,并用attention机制,赋予不同的权重,充分利用一组实体对多个句子信息。
3.input
CNN的输入是句子x中未经处理的一些词,本文首先将这些词转换成低维度的向量。本文中,每一个输入的词都会通过词嵌入矩阵(Word Embedding Matrix)来转换成一个向量。此外,本文对句子中所有的词使用位置嵌入(Position Embedding)来具体指出每一个实体的位置。下图为词嵌入结构图:
4. cnn
cnn包括Convolution, Max-pooling and Non-linear Layers。
本文中,卷积被定义为一个向量序列w和卷积矩阵W之间的操作。向量序列w是有m个(句子中词的个数)向量的序列,其中每个向量的维度为d。 词嵌入矩阵W的维度为,其中是句子嵌入的大小。定义向量为在第i个窗口里的连续的多个词的词嵌入(w)的级联(一系列互相关联的事物)。
由于窗口在边界滑动时可能会超出句子的边界,我们为每个句子设置了特殊的填充。即将所有超出边界的输入向量当做0向量。因此,卷积层的第i个卷积核(Filter, namely kernal),可按如下方式计算:
5. attention
将数据经过cnn处理后,使用attention对新的句子进行加权处理(attentiono),力图降低噪声数据的权重。
6.optimization
交叉熵作为优化目标函数,使其最小,使用SGD随机梯度下降算法,并用Dropout策略避免过拟合