《Context and Attribute Grounded Dense Captioning》笔记
CVPR 2019
《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构,由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成,同时还结合了来自分层语言的辅助监督,以增强学习的描述的独特性。具体架构如下图所示:
第一部分,上下文特征提取器(CFE)。先用Faster RCNN学习输入图像的视觉特征,获得图像的语义特征。这些语义特征通过RPN生成一系列候选区域(ROIs)。基于这些ROI特征,引入CFE生成全局、局部以及相邻三个方面的特征线索构成多尺度上下文线索。全局特征就是整个图像的特征,局部特征
就是图像中目标区域的特征。剩下主要计算相邻区域的特征
。根据图像去噪中非局部均值的方法,计算相邻特征公式为:
其中,是区域
与
的外观相似度,
是区域
的定长局部特征。相似度g是基于高斯函数的互相关,
是互相关的点积相似性。这样就可以获得图像中每个目标ROI和它的邻近ROI的相似度图。一般的目标检测算法会生成冗余的ROI,这会影响邻近特征
。基于与目标区域的IoU排序邻近区域的ROI,采样前k个候选作为邻近区域。
第二部分,基于属性的描述生成器(AGCG)。这个描述生成器包含两个部分:
1、上下文线索聚合器。采用多个LSTM单元,分层聚合多尺度上下文特征进局部特征。局部分支视为目标的主干,全局和邻近分支作为补充信息。首先自适应的组合全局及邻近线索,再将该结果自适应的融合进局部线索。不同层次的特征通过自适应权重调节,这些权重在训练期间优化。
2、基于属性的由粗级到细级生成器。除了基本的描述语句的损失外,该模型还添加了语言属性损失作为辅助监督。语言属性损失分为粗级到细级的两部分。训练期间,属性损失为每个属性的二元分类损失。
训练期间,语言属性由LSTM的输出预测。通过使用NLTK工具逐项处理训练语句,获得分层语言属性。从训练句子中提取四类单独的关键词或属性:名词、形容词、动词、介词。这些大类下的单词保留原形式作为细分级别的属性。然后在高层语义上聚合属性,将具有相同概念的不同分词或复数形式归一化为统一形式。用Leacock-Chodorow距离聚合有相似语义的标签。这些作为粗级属性。