阅读笔记 Modality-specific and shared generative adversarial network for cross-modal retrieval

这一篇论文讲的是使用多模态来进行图片的检索，通过文字检索出最好的图片，模型结构如下：
阅读笔记 Modality-specific and shared generative adversarial network for cross-modal retrieval

文章提出两个特征概念

文章采用对抗训练框架， 在生成模型处：

使用3个loss 进行训练：

semantic discrimination loss 用于保证语义的区分能力，要求模型提取的特征，对于类别的区分度高。要求模型提取的special特征和shared特征(文中是把两个提取的特征拼接成一个特征向量来进行预测)，都能够有效的去辨别样本的类别。
contrastive loss 对于相同类别的两个不同的样本，要求模型提取对两个样本提取出来的spceial特征相近（包括两个模态），模型提取出的两个样本的shared特征
large margin loss 保证模态独立特征和模态分享特征之间的差别度

在区分模型处

这样可以减少提取的modality-shared特征的模态区别。也就是说对于每一个提取出来的共享特征，他对于模态之间的结果是变化不大的，无论他是从画面还是从文字提取出来的特征，它的共享特征是类似的，所以它的结果是相同的。