文字图像处理之跨模态检索和VQA视觉问答

以下内容全是学习自一位学长的读书笔记!!!!

1.跨模态检索

他的定义就是将一个模态的数据(我暂且将认为是图片)作为查询去检索了一个与之相关的模态(我认为可以是视频)的数据,作为查询接过来返回。
一般会将模态分为:

1.自然语言处理(这就是传说中自然语言呀,写和说)
2.视觉信号(也就是图片和视频)
3.声音信号(对声音的编码和韵律)

这就像在输入文字的搜索引擎上面找对应的图片和视频,这就是跨模态(专业专业!!!)
他存在一些主要的方法:
1.子空间方法
基本思想:就是让不同模态的特征投影到一个共同潜在的子空间,然后在这个空间里对模态进行操作
优缺点:他能最大化的提高不同模态的相关性,但是有个不足的没考虑到各自模态的数据局部结构和模态之间的结构匹配(其他提到的优缺点还真看不懂)
2.深度学习法
基本思想:使用特征抽取能力,在底层提取模态信息,在高层建立模态的语义关联。
优缺点:他的检索结果更好,但是需要关注的东西也更多,而这方法的研究不够深入
3.哈希变换方法
基本思想:将不同模态特征映射到一个汉明二值空间(没听说过),然后在汉明空间实现快读是跨模态检索
优缺点:优点在于存储空间很小,检索速度很快,但是他在二值化过程中会存在精度缺失且没有考虑到模态内数据结构和模态的结构匹配关联。

这些概念还真是不太清楚呢,不过一般来说这个发展趋势就是:

会存在大规模的数据采集,有着更精细的模态表示以及多角度之间模态关联建模,并且会和深度学习融合发展。

这里也有各种各样的数据集合,学长也给了相应的解释和备注:
文字图像处理之跨模态检索和VQA视觉问答
文字图像处理之跨模态检索和VQA视觉问答

2.VQA视觉问答

VQA的意思就是给定一张图片和一个该图片相关的自然语言问题,然后根据这个问题,计算机会阐释一个对应的回答,这也是多模态的问题,因为涉及到了cv,和nlp技术,并且也是用到了诸如图片和文字的联系。
在VQA之前,有一个文本QA(QA应该就是question和answer的意思吧),也就是计算机会根据文本来做出相应的回答,所以VQA就相当于是升级版,将文本换成了图片。
他的难点就是在于和文本的对比上面:
图像的维度更高,会存在更多噪声,并且图像的抽象程度较低等等,难以被计算机“解释”

常用方法:
1.联合嵌入模型
2.注意力机制
3.Compositional Models
4.Models using external konwledge base
(这些我都看不懂,就提到就行了)

关于数据集的话:
文字图像处理之跨模态检索和VQA视觉问答