Learning Semantic Concepts and Order for Image and Sentence Matching笔记

SCO模型阅读笔记

论文:Learning Semantic Concepts and Order for Image and Sentence Matching
发表会议:CVPR2018
作者:Learning Semantic Concepts and Order for Image and Sentence Matching笔记

一、为什么看?

好多关于图像-文本检索的文章,但是大多数都忽略了图像的语义顺序,当语义顺序被忽略时,会造成检索不准确,图像和文本的语义完全相反。
看点图像的语义顺序如何构建
应用于跨模态图像-文本检索

二、论文思路

图像语义之间存在差距,特别是像素级图像缺乏语义信息。本文提出语义增强图像和句子匹配模型,来通过学习语义概念和用一个正确的顺序语义顺序提高图像表示。
Learning Semantic Concepts and Order for Image and Sentence Matching笔记

给定一张图像,用多区域多标签CNN预测语义概念,包括对象、属性、动作;
由于区域没有顺序,如何给这些语义概念排序,将全局上下文和语义概念融合;
对应的句子用LSTM生成,并且对融合后的句子进行监督,对比相似度。
Learning Semantic Concepts and Order for Image and Sentence Matching笔记

疑问?

为什么要提取语义概念?
语义概念是图像与句子匹配的基本内容,像素级无法完成;

为什么不直接用图像描述?
图像描述和匹配是有区别的,图像匹配重点实在细粒度上找最相似的。图像描述体现在语义上,它不一定能够捕获到图像的细节。

为什么不从语义概念上直接学习语义顺序?
不同的顺序就有不同的意义,语义上有意义但可能是错误的顺序。

三、具体工作

句子表示学习:
一个完整的句子包括名词、动词和形容词,分别对应语义概念中的对象、动作和属性。对于一个句子,语义相关词的概念本质上表现为句子的顺序性。
采用传统的LSTM来捕获语义相关的词和构建语义顺序。
Learning Semantic Concepts and Order for Image and Sentence Matching笔记

图像的语义概念提取:
目前存在的数据集中,只有图像和匹配的句子。数据集不能提供对象、属性和动作的信息。所以必须用多区域 多标签的CNN进行预测。(被faster R-CNN取代) 预测语义概念等价于多标签分类问题。
Learning Semantic Concepts and Order for Image and Sentence Matching笔记

只挑选句子中的名词、形容词、动词和数字,删除同一语义相关的词,忽略频率低的词。

图像语义顺序学习
使用图像全局上下文为参考和句子生成为监督。
图像全局上下文
将全局上下文和语义概念全部叠加在一起,不可取。因为语义概念和全局是的重要性是不相同的。
Learning Semantic Concepts and Order for Image and Sentence Matching笔记
生成的句子为监督
Learning Semantic Concepts and Order for Image and Sentence Matching笔记
损失函数:
Learning Semantic Concepts and Order for Image and Sentence Matching笔记
Learning Semantic Concepts and Order for Image and Sentence Matching笔记
Learning Semantic Concepts and Order for Image and Sentence Matching笔记