《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
来源:CVPR 2018
参考****博客:
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answeringblog.****.net
一、Introduction
本文提出了联合bottom-up 和top down的注意力机制,对目标物体和图像其它显著区域施加注意力权重。论文解决了image caption以及VQA两个任务。
1.the bottom-up mechanism(Faster R-CNN):提取图像区域,每个图像区域由池化的卷积特征向量表示
2.the top-down mechanism:决定图像上特征向量的注意力权值
用Faster R-CNN方法进行目标检测
提取出的目标区域的mean-pooled convolutional feature定义为 \nu_{i}
为了帮助学习更好的特征,添加了一个额外的训练输出来预测属性类(比如物体的颜色、材质等)
如上图中的“black”、“white”属性
通过把 \nu_{i} 和一个可训练的ground-truth object class的embedding特征这进行concatenate,并把它送达到一个额外的输出层,输出层是每个属性类别的softmax分布
二、Captioning Model
两个LSTM模块:Language LSTM和Top-Down Attention LSTM
标准LSTM公式:
1.Top-Down Attention LSTM
top-down attention使用LSTM来确定image feature \nu_{i} 的权重, 是soft attention机制。
top-down attention LSTM的输入为:
三个向量拼接
\alpha_{i,t} 为image feature
\nu_{i} 的权重,
h_{t}^{1} 为query,key为
应用注意力机制。
将
作为Language LSTM的输入
2.Language LSTM
3.Loss Function
cross entropy loss function
还用到了SCST中的强化学习方法来对CIDEr分数进行优化:
梯度可以被近似为:
三、VQA Model
VQA模型也同样使用的是 soft top-down attention机制,结构如图所示:
加权重后的图片特征与文本特征用gated hyperbolic tangent activation融合