《Context and Attribute Grounded Dense Captioning》笔记

CVPR 2019

《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构,由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成,同时还结合了来自分层语言的辅助监督,以增强学习的描述的独特性。具体架构如下图所示:

《Context and Attribute Grounded Dense Captioning》笔记

第一部分,上下文特征提取器(CFE)。先用Faster RCNN学习输入图像的视觉特征,获得图像的语义特征。这些语义特征通过RPN生成一系列候选区域(ROIs)。基于这些ROI特征,引入CFE生成全局、局部以及相邻三个方面的特征线索构成多尺度上下文线索。全局特征《Context and Attribute Grounded Dense Captioning》笔记就是整个图像的特征,局部特征《Context and Attribute Grounded Dense Captioning》笔记就是图像中目标区域的特征。剩下主要计算相邻区域的特征《Context and Attribute Grounded Dense Captioning》笔记。根据图像去噪中非局部均值的方法,计算相邻特征公式为:

《Context and Attribute Grounded Dense Captioning》笔记

 

《Context and Attribute Grounded Dense Captioning》笔记

其中,《Context and Attribute Grounded Dense Captioning》笔记是区域《Context and Attribute Grounded Dense Captioning》笔记《Context and Attribute Grounded Dense Captioning》笔记的外观相似度,《Context and Attribute Grounded Dense Captioning》笔记是区域《Context and Attribute Grounded Dense Captioning》笔记的定长局部特征。相似度g是基于高斯函数的互相关,《Context and Attribute Grounded Dense Captioning》笔记是互相关的点积相似性。这样就可以获得图像中每个目标ROI和它的邻近ROI的相似度图。一般的目标检测算法会生成冗余的ROI,这会影响邻近特征《Context and Attribute Grounded Dense Captioning》笔记。基于与目标区域的IoU排序邻近区域的ROI,采样前k个候选作为邻近区域。

第二部分,基于属性的描述生成器(AGCG)。这个描述生成器包含两个部分:

1、上下文线索聚合器。采用多个LSTM单元,分层聚合多尺度上下文特征进局部特征。局部分支视为目标的主干,全局和邻近分支作为补充信息。首先自适应的组合全局及邻近线索,再将该结果自适应的融合进局部线索。不同层次的特征通过自适应权重调节,这些权重在训练期间优化。

2、基于属性的由粗级到细级生成器。除了基本的描述语句的损失外,该模型还添加了语言属性损失作为辅助监督。语言属性损失分为粗级到细级的两部分。训练期间,属性损失为每个属性的二元分类损失。

训练期间,语言属性由LSTM的输出预测。通过使用NLTK工具逐项处理训练语句,获得分层语言属性。从训练句子中提取四类单独的关键词或属性:名词、形容词、动词、介词。这些大类下的单词保留原形式作为细分级别的属性。然后在高层语义上聚合属性,将具有相同概念的不同分词或复数形式归一化为统一形式。用Leacock-Chodorow距离聚合有相似语义的标签。这些作为粗级属性。