【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别
Multi-Modal Sarcasm Detection 图文反讽识别
题目:Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion
发表会议/期刊: ACL2019
主要相关: 方面级情感分析+图文
反讽识别任务的目的是判断一段文档是否含有反讽表达
Conttrbutions:
将文本特征,图像特征,图像属性作为三种模态
提出一种多模态层次融合模型
① 首先提取图像特征和图像属性特征
② 再利用属性特征和双向LSTM网络来提取文本特征
③ 三种模态特征进行重构融合成一个特征向量来预测
验证了为了充分发挥图像的潜力,需要考虑图像属性——一种连接文本和图像之间的高层次抽象信息。
图像属性:由描述图像组成成分的若干词组成。
Approach:
(1)初步表示
① For 图片模态:
对于raw vector:使用一个预训练和微调的ResNet模型来获得图片的14*14区域向量Ii\
图片guidance vector:将原始向量平均
② For 图片属性模态
对于raw vector:使用另一个预训练和微调的ResNet-101模型来预测每个图片的5个属性,其GloVe embeddings被视为原始属性向量
图片guidance vector:将原始向量加权平均
原始属性向量 e(ai) 通过两层卷积网络得到注意力权重,用来重构得到guidance vector :Vattr
③ For 文本模态
使用双向LSTM来获得推特文本表示,得到的最终隐藏状态进行平均得到guidance vector:
(2)融合
① 早期融合:
在文本分类任务中,Bi-LSTM的初始状态通常设置为零,但可以注入多模态信息来促进对文本模态的理解。
将非线性变换后的属性引导向量作为Bi-LSTM的初始状态。
曾尝试使用图片引导向量进行融合,但表现不好
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYNDRip0-1586179918711)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\1586141236228.png)]
② 表示融合
在低层次原始向量和高层次引导向量的帮助下重构特征向量
低层次原始向量:文本->最终时刻的隐藏状态ht
图像->14*14的区域向量
图像属性->5个属性的嵌入表示
将原始向量和引导向量通过一层卷积+非线性变化+卷积,在标准化后平均得到每个原始向量的权重,进而得到该模态下的特征表示
③ 模态融合
特征向量转换成定长的表示,采用两层前馈神经网络,计算各模态的注意力权值,将其作为定长特征向量的权重得到该模态下的最终单一向量
(3)分类
使用两层全连通神经网络作为分类层,隐含层的**函数和输出层的**函数分别是ReLu函数和sigmoid函数。损失函数是交叉熵