您的位置: 首页 > 文章 > 《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

分类: 文章 • 2024-12-04 17:11:34

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

来源：CVPR 2018

参考****博客：

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answeringblog.****.net 《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

一、Introduction

本文提出了联合bottom-up 和top down的注意力机制，对目标物体和图像其它显著区域施加注意力权重。论文解决了image caption以及VQA两个任务。

1.the bottom-up mechanism（Faster R-CNN）：提取图像区域，每个图像区域由池化的卷积特征向量表示

2.the top-down mechanism：决定图像上特征向量的注意力权值

用Faster R-CNN方法进行目标检测

提取出的目标区域的mean-pooled convolutional feature定义为《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》 \nu_{i}

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

为了帮助学习更好的特征，添加了一个额外的训练输出来预测属性类（比如物体的颜色、材质等)

如上图中的“black”、“white”属性

通过把《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》 \nu_{i} 和一个可训练的ground-truth object class的embedding特征这进行concatenate，并把它送达到一个额外的输出层，输出层是每个属性类别的softmax分布

二、Captioning Model

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

两个LSTM模块：Language LSTM和Top-Down Attention LSTM

标准LSTM公式：

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

1.Top-Down Attention LSTM

top-down attention使用LSTM来确定image feature 《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》 \nu_{i} 的权重, 是soft attention机制。

top-down attention LSTM的输入为：

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

三个向量拼接

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》 \alpha_{i,t} 为image feature \nu_{i} 的权重， h_{t}^{1} 为query，key为

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

应用注意力机制。

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

将

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

作为Language LSTM的输入

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

2.Language LSTM

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

3.Loss Function

cross entropy loss function

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

还用到了SCST中的强化学习方法来对CIDEr分数进行优化：

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

梯度可以被近似为：

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

三、VQA Model

VQA模型也同样使用的是 soft top-down attention机制，结构如图所示：

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

加权重后的图片特征与文本特征用gated hyperbolic tangent activation融合

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》