Reasoning with Sarcasm by Reading In-between
click here:文章下载
方法综述:
本文提出了新的模型SIARN(Singal-dimensional Intra-
Attention Recurrent Networks)和MIARN(Multi-dimensional Intra-
Attention Recurrent Networks)。
先给出一个定义,关系得分si,j表示单词wi、wj间的信息关联程度。二者的区别仅在于,SIARN中只考虑单词对间的一种内在关系,si,j是个标量;而MIARN考虑单词对间的多种(k种)内在关系,si,j是个k维向量,再将其融合为一个标量。
模型中包含三个子模型:Singal/Multi-dimensional Intra-Attention、LSTM、Prediction Layer:
Singal/Multi-dimensional Intra-Attention:通过单词对间的信息,得到句子的Intra-Attentive Representation
LSTM:通过句子的序列信息,得到句子的Compositional Representation
Prediction Layer: 融合两种信息表示,进行二分类预测

各模型算法:
Singal/Multi-dimensional Intra-Attention
Sigal-dimensional:
si,j=Wa([wi;wj])+ba⟹si,j∈R 标量
Wa∈R2n×1,ba∈R;
Multi-dimensional:
si,j^=Wq([wi;wj])+bq⟹si,j^∈Rk k维向量
Wq∈R2n×k,bq∈Rk;
si,j=Wp(ReLU(si,j^))+bp
Wp∈Rk×1,bp∈R;
⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓
si,j=Wp(ReLU(Wq([wi;wj])))+bp
Wq∈R2n×k,bq∈Rk,Wp∈Rk×1,bp∈R;
从而,对于长度为l的句子,可以得到对称矩阵s∈Rl×l。
对矩阵s进行row-wise max-pooling,即按行取最大值,得到attention vector:a∈Rl

有了权重向量a,便可以对句子单词进行加权求和,得到Intra-Attentive Representation:va∈Rn:

LSTM
LSTM的每个时间步输出hi∈Rd,可以表示为:
hi=LSTM(w,i),∀i∈[1,...,l]
本文使用LSTM的最后时间步输出,作为Compositional Representation:vc∈Rd
vc=hl
d是LSTM隐藏层单元数,l是句子的最大长度。
Prediction Layer
融合上述得到的Intra-Attentive Representation va∈Rn、Compositional Representation vc∈Rd,得到融合表示向量 v∈Rd,再进行二分类输出y^∈R2:
v=ReLU(Wz([va;vc])+bz)
y^=Softmax(Wfv+bf)
其中,Wz∈R(d+n)×d,bz∈Rd,Wf∈Rd×2,Wf∈Rd×2,bf∈R2
训练目标:


待学习参数:θ={Wp,bp,Wq,bq,Wz,bz,Wf,bf}
超参数:k,n,d,λ