Neural Relation Extraction with Selective Attention over Instances阅读笔记

1. 概述

关系提取(RE):是从纯文本生成关系数据的过程,是NLP中的一项重要任务。
远程监督方法的句子中人物关系数据存在很多噪声(错误标记),因此,本文提出基于句子的注意力CNN模型,在多个实例上构建句子级别的注意,力这有望在动态地减少那些噪声实例的权重。
Knowledge base(简称kb):数据库。如freebase、DBpedia、YAGO

2. 相关研究

(Zeng et al。,2015)将多实例学习与神经网络模型结合起来,可以建立基于远程监督数据的关系提取器。 尽管该方法在相关提取方面取得了显着的改进,但仍然远远不能令人满意。 该方法假设至少一个提到这两个实体的句子将表达它们的关系,并且仅在训练和预测中为每个实体对选择最可能的句子。 很明显,该方法会丢失大量含有被忽视的信息的丰富信息。
本文提出了一种基于句子级注意力的卷积神经网络(CNN)用于远程监督关系提取。
开始,关系提取是基于一个句子的,但是用远程监督的方法,句子的标签有很多错误,造成大量干扰数据。随后,虽然有基于多个句子的,但只选择其中一个主要的句子进行建模,因此丢失大量信息。本文基于多个句子,并用attention机制,赋予不同的权重,充分利用一组实体对多个句子信息。

3.input

CNN的输入是句子x中未经处理的一些词,本文首先将这些词转换成低维度的向量。本文中,每一个输入的词都会通过词嵌入矩阵(Word Embedding Matrix)来转换成一个向量。此外,本文对句子中所有的词使用位置嵌入(Position Embedding)来具体指出每一个实体的位置。下图为词嵌入结构图:
Neural Relation Extraction with Selective Attention over Instances阅读笔记

4. cnn

cnn包括Convolution, Max-pooling and Non-linear Layers。
本文中,卷积被定义为一个向量序列w和卷积矩阵W之间的操作。向量序列w是有m个(句子中词的个数)向量的序列,其中每个向量的维度为d。 词嵌入矩阵W的维度为WRdc×L×dW \in R^{d^c \times L \times d},其中dcd^c是句子嵌入的大小。定义向量qiRl×dq_i \in R^{l \times d}为在第i个窗口里的连续的多个词ω\omega的词嵌入(w)的级联(一系列互相关联的事物)。
由于窗口在边界滑动时可能会超出句子的边界,我们为每个句子设置了特殊的填充。即将所有超出边界的输入向量ωi(i<1ori>m)\omega_i(i \lt 1 or i \gt m)当做0向量。因此,卷积层的第i个卷积核(Filter, namely kernal),可按如下方式计算:[pi=wq+b]i[p_i=w_q+b]_i

5. attention

将数据经过cnn处理后,使用attention对新的句子进行加权处理(attentiono),力图降低噪声数据的权重。

6.optimization

交叉熵作为优化目标函数,使其最小,使用SGD随机梯度下降算法,并用Dropout策略避免过拟合