1. 概述

关系提取（RE）：是从纯文本生成关系数据的过程，是NLP中的一项重要任务。
远程监督方法的句子中人物关系数据存在很多噪声（错误标记），因此，本文提出基于句子的注意力CNN模型，在多个实例上构建句子级别的注意，力这有望在动态地减少那些噪声实例的权重。
Knowledge base（简称kb）：数据库。如freebase、DBpedia、YAGO

2. 相关研究

（Zeng et al。，2015）将多实例学习与神经网络模型结合起来，可以建立基于远程监督数据的关系提取器。尽管该方法在相关提取方面取得了显着的改进，但仍然远远不能令人满意。该方法假设至少一个提到这两个实体的句子将表达它们的关系，并且仅在训练和预测中为每个实体对选择最可能的句子。很明显，该方法会丢失大量含有被忽视的信息的丰富信息。
本文提出了一种基于句子级注意力的卷积神经网络（CNN）用于远程监督关系提取。
开始，关系提取是基于一个句子的，但是用远程监督的方法，句子的标签有很多错误，造成大量干扰数据。随后，虽然有基于多个句子的，但只选择其中一个主要的句子进行建模，因此丢失大量信息。本文基于多个句子，并用attention机制，赋予不同的权重，充分利用一组实体对多个句子信息。

3.input

CNN的输入是句子x中未经处理的一些词，本文首先将这些词转换成低维度的向量。本文中，每一个输入的词都会通过词嵌入矩阵(Word Embedding Matrix)来转换成一个向量。此外，本文对句子中所有的词使用位置嵌入(Position Embedding)来具体指出每一个实体的位置。下图为词嵌入结构图:
Neural Relation Extraction with Selective Attention over Instances阅读笔记

4. cnn

cnn包括Convolution, Max-pooling and Non-linear Layers。
本文中，卷积被定义为一个向量序列w和卷积矩阵W之间的操作。向量序列w是有m个(句子中词的个数)向量的序列，其中每个向量的维度为d。词嵌入矩阵W的维度为 $W \in R^{d^c \times L \times d}$ ，其中 $d^c$ 是句子嵌入的大小。定义向量 $q_i \in R^{l \times d}$ 为在第i个窗口里的连续的多个词 $\omega$ 的词嵌入(w)的级联(一系列互相关联的事物)。
由于窗口在边界滑动时可能会超出句子的边界，我们为每个句子设置了特殊的填充。即将所有超出边界的输入向量 $\omega_i(i \lt 1 or i \gt m)$ 当做0向量。因此，卷积层的第i个卷积核(Filter, namely kernal)，可按如下方式计算： $[p_i=w_q+b]_i$

5. attention

将数据经过cnn处理后，使用attention对新的句子进行加权处理（attentiono），力图降低噪声数据的权重。

6.optimization

交叉熵作为优化目标函数，使其最小，使用SGD随机梯度下降算法，并用Dropout策略避免过拟合

Neural Relation Extraction with Selective Attention over Instances阅读笔记