Reasoning with Sarcasm by Reading In-between

方法综述：

本文提出了新的模型SIARN(Singal-dimensional Intra-
Attention Recurrent Networks)和MIARN(Multi-dimensional Intra-
Attention Recurrent Networks)。

先给出一个定义，关系得分 $s_{i,j}$ 表示单词 $w_i$ 、 $w_j$ 间的信息关联程度。二者的区别仅在于，SIARN中只考虑单词对间的一种内在关系， $s_{i,j}$ 是个标量；而MIARN考虑单词对间的多种(k种)内在关系， $s_{i,j}$ 是个k维向量，再将其融合为一个标量。

模型中包含三个子模型：Singal/Multi-dimensional Intra-Attention、LSTM、Prediction Layer：
Singal/Multi-dimensional Intra-Attention：通过单词对间的信息，得到句子的Intra-Attentive Representation
LSTM：通过句子的序列信息，得到句子的Compositional Representation
Prediction Layer： 融合两种信息表示，进行二分类预测
Reasoning with Sarcasm by Reading In-between

各模型算法：

Singal/Multi-dimensional Intra-Attention

Sigal-dimensional：

$s_{i,j}=W_a([w_i;w_j])+b_a \implies s_{i,j} \in R$ 标量

$W_a \in R^{2n \times 1},b_a \in R;$

Multi-dimensional：

$\hat{s_{i,j}}=W_q([w_i;w_j])+b_q \implies \hat{s_{i,j}} \in R^k$ k维向量
$W_q \in R^{2n \times k},b_q \in R^k;$

$s_{i,j}=W_p(ReLU(\hat{s_{i,j}}))+b_p$
$W_p \in R^{k \times 1},b_p \in R;$

$\Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow$

$s_{i,j}=W_p(ReLU(W_q([w_i;w_j])))+b_p$
$W_q \in R^{2n \times k},b_q \in R^k,W_p \in R^{k \times 1},b_p \in R;$

从而，对于长度为 $l$ 的句子，可以得到对称矩阵 $s \in R^{l \times l}$ 。
对矩阵s进行row-wise max-pooling，即按行取最大值，得到attention vector： $a \in R^l$
Reasoning with Sarcasm by Reading In-between
有了权重向量a，便可以对句子单词进行加权求和，得到Intra-Attentive Representation： $v_a \in R^n$ :

LSTM

LSTM的每个时间步输出 $h_i \in R^d$ ，可以表示为:

$h_i=LSTM(w,i),\forall i \in [1,...,l]$

本文使用LSTM的最后时间步输出，作为Compositional Representation： $v_c \in R^d$

$v_c=h_l$

$d$ 是LSTM隐藏层单元数， $l$ 是句子的最大长度。

Prediction Layer

融合上述得到的Intra-Attentive Representation $v_a \in R^n$ 、Compositional Representation $v_c \in R^d$ ，得到融合表示向量 $v \in R^d$ ，再进行二分类输出 $\hat{y} \in R^2$ :

$v=ReLU(W_z([v_a;v_c]) + b_z)$
$\hat{y}=Softmax(W_fv+b_f)$

其中， $W_z \in R^{(d+n) \times d},b_z \in R^d,W_f \in R^{d \times 2},W_f \in R^{d \times 2}, b_f \in R^2$

训练目标：

Reasoning with Sarcasm by Reading In-between

待学习参数： $\theta = \{W_p,b_p,W_q,b_q,W_z,b_z,W_f,b_f\}$
超参数： $k, n, d, \lambda$

Reasoning with Sarcasm by Reading In-between

Reasoning with Sarcasm by Reading In-between

方法综述：

各模型算法：

Singal/Multi-dimensional Intra-Attention

Sigal-dimensional：

Multi-dimensional：

LSTM

Prediction Layer

训练目标：

相关推荐