《Context and Attribute Grounded Dense Captioning》笔记

CVPR 2019

《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构，由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成，同时还结合了来自分层语言的辅助监督，以增强学习的描述的独特性。具体架构如下图所示：

第一部分，上下文特征提取器（CFE）。先用Faster RCNN学习输入图像的视觉特征，获得图像的语义特征。这些语义特征通过RPN生成一系列候选区域（ROIs）。基于这些ROI特征，引入CFE生成全局、局部以及相邻三个方面的特征线索构成多尺度上下文线索。全局特征《Context and Attribute Grounded Dense Captioning》笔记就是整个图像的特征，局部特征就是图像中目标区域的特征。剩下主要计算相邻区域的特征。根据图像去噪中非局部均值的方法，计算相邻特征公式为：

《Context and Attribute Grounded Dense Captioning》笔记

其中，《Context and Attribute Grounded Dense Captioning》笔记是区域与的外观相似度，是区域的定长局部特征。相似度g是基于高斯函数的互相关，是互相关的点积相似性。这样就可以获得图像中每个目标ROI和它的邻近ROI的相似度图。一般的目标检测算法会生成冗余的ROI，这会影响邻近特征《Context and Attribute Grounded Dense Captioning》笔记。基于与目标区域的IoU排序邻近区域的ROI，采样前k个候选作为邻近区域。

第二部分，基于属性的描述生成器（AGCG）。这个描述生成器包含两个部分：

1、上下文线索聚合器。采用多个LSTM单元，分层聚合多尺度上下文特征进局部特征。局部分支视为目标的主干，全局和邻近分支作为补充信息。首先自适应的组合全局及邻近线索，再将该结果自适应的融合进局部线索。不同层次的特征通过自适应权重调节，这些权重在训练期间优化。

2、基于属性的由粗级到细级生成器。除了基本的描述语句的损失外，该模型还添加了语言属性损失作为辅助监督。语言属性损失分为粗级到细级的两部分。训练期间，属性损失为每个属性的二元分类损失。

训练期间，语言属性由LSTM的输出预测。通过使用NLTK工具逐项处理训练语句，获得分层语言属性。从训练句子中提取四类单独的关键词或属性：名词、形容词、动词、介词。这些大类下的单词保留原形式作为细分级别的属性。然后在高层语义上聚合属性，将具有相同概念的不同分词或复数形式归一化为统一形式。用Leacock-Chodorow距离聚合有相似语义的标签。这些作为粗级属性。

《Context and Attribute Grounded Dense Captioning》笔记

相关推荐