Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

主要贡献

提出使用PCNN来自动提取特征。
往PCNN中加入multi-instance learning，用来解决远程监督引发的错误标签问题。
提出分段进行max pooling，从而考虑两个Entity之间的结构特征。

作者提出，之前关于关系分类的方法主要分为2种：
1. 基于特征的方法，这种方式对人工特征向量的要求较高，需要为数据集找出一种合适的特征表示。
2. 基于kernel的方法，这种方式可以对输入进行丰富的表示，例如句法树。它能够通过核函数来提特征，当然也有很多核函数被提出，例如：convolution tree kernel，subsequence kernel，dependency tree kernel

网络架构

以上是PCNN的网络架构，主要分为四部分组成：Vector representation、Convolution、Piecewise max pooling、Softmax classifier.

Vector representation

Word Embeddings:采用Wrod2Vec。
Position Embeddings:采用当前词到两个目标词的距离，2维。
上图中展示的Vector representation中，Word Embedding维度为4，Position Embeddings维度为2。向量总维度为 $d$ = 6。

Convolution

作者给出如下定义：
1. 一个feature map的参数为 $w \in R^{w * d}$ 。
2. 一句话中单词的数量为 $s$ ，一个feature map卷积完得到结果 $c \in R^{s - w + 1}$
3. 定义了n个feature map $W = {w_{1}, w_{2}, \dots, w_{n}}$ ,figure3中展示了n=3的情况，因此生成了绿、蓝、橙三个 $s$ 。

Piecewise Max Pooling（分段max pooling）

如Figure3所示，Convolution的输出为 $C \in R^{n * (s + w - 1)}$ ，作者将每一行卷积结果分成3段 ${c_{i 1}, c_{i 2}, c_{i 3}}$ ，以两个Entity作为划分点，如图中灰色格子。然后对 ${c_{i 1}, c_{i 2}, c_{i 3}}$ 分别进行max pooling:

p_{i j} = m a x (c_{i j}) 1 \leq i \leq n, 1 \leq j \leq 3

这样

C

的每行会变成长度为3的向量

p_{i} = {p_{i 1}, p_{i 2}, p_{i 3}}

，最终将它们拼成一个长度为3n的向量

q

,然后使用tanh进行非线性变化得到

g = t a n h (q)

。

Softmax Output

将 $g$ 喂入soft max 分类器：

o = W_{1} g + b

其中

W_{1} \in R^{n_{1} * 3 n}

是一个权重矩阵，

o

是最终输出，作者也在这一层加了dropout

Multi-instance Learning

作者将所有的句子分成T个bag ${M_{1}, M_{2}, \dots, M_{T}}$ ，每个bag中包含 $q_{i}$ 句句子 $M_{i} = {m_{i}^{1}, m_{i}^{2} ， c d o t s, m_{i}^{q_{i}}}$
算法如下：
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

损失函数使用交叉熵

实验结果

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

主要贡献

网络架构

Vector representation

Convolution

Piecewise Max Pooling（分段max pooling）

Softmax Output

Multi-instance Learning

实验结果

相关推荐