Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读

1. 概述

本篇论文模型框架共有五部分:
第一:输入层,输入的为每个句子
第二:嵌入层,将句子中的字转换为向量
第三:lstm层
第四:attention层,通过乘以权重向量,产生新的权重向量,并将每个时间步长的词级特征合并为句子级特征向量;
第五:输出层
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读

2. 词嵌入

词嵌入的基本原理为
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读
其中eie_i即词的向量,他是通过一个矩阵W与一个单位矩阵相乘得到。

bi-lstm

本文使用双向的lstm模型,在lstm框架中,每一层的公式如下:
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读
lstm结果是前向网络和反向网络的输出相加,并加得到的最终结果传入attention当中

3. attention

attenttion机制简单来说就是赋予权重,在本文中,attention公式如下:
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读
其中H就是LSTM层产生向量[h1,h2,…。。 ,hT]构成的矩阵。
ω\omega为参数矩阵。

4. 输出

本文在最终输出时,使用了softmax**函数得到最终每个类别的概率。