阅读笔记 Modality-specific and shared generative adversarial network for cross-modal retrieval

这一篇论文讲的是使用多模态来进行图片的检索, 通过文字检索出最好的图片,模型结构如下:
阅读笔记 Modality-specific and shared generative adversarial network for cross-modal retrieval

文章提出两个特征概念

  • modality-specific 模态独立特征
  • modality-shared 模态分享特征,也可以理解为共同特征

文章采用对抗训练框架, 在生成模型处

使用3个loss 进行训练:

  • semantic discrimination loss 用于保证语义的区分能力 ,要求模型提取的特征,对于类别的区分度高。要求模型提取的special特征和shared特征(文中是把两个提取的特征拼接成一个特征向量来进行预测),都能够有效的去辨别样本的类别。
  • contrastive loss 对于相同类别的两个不同的样本,要求模型提取对两个样本提取出来的spceial特征相近(包括两个模态), 模型提取出的两个样本的shared特征
  • large margin loss 保证模态独立特征和模态分享特征之间的差别度

在区分模型处

  • 判断给定样本的modality-shared特征, 来判断信息的模态是什么

这样可以 减少 提取的modality-shared特征的模态区别。也就是说对于每一个提取出来的共享特征,他对于模态之间的结果是变化不大的,无论他是从画面还是从文字提取出来的特征,它的共享特征是类似的,所以它的结果是相同的。