跨模态检索
Annotation Efficient Cross-Modal Retrieval with Adversarial Attentive Alignment (MM2019)
Cross-Modal Retrieval
- 主要问题:image-text的注释平行语料库难以获得,或代价高昂。如何在使用尽可能少的注释对语料库的情况下来进行有效的跨模态检索任务。
- 主要挑战:人工注释文本与机器生成的注释文本之间存在明显的domain shift
- 主要方法:
- 采用Adversarial Attentive Alignment对齐不同的domain,减少domain gap
- 在少量的标注语料对上进行监督训练,在大量的未标注语料库上进行弱监督训练
- 稀疏注释平行语料库
METHODOLOGY
Feature Extractors
- 视觉特征(Faster RCNN):
- 语义特征(LSTM):
Adversarial Attentive Alignment
- K-head context-aware attention network
- 使用注意力模块捕捉信息:
- 特征及参数:
- Triplet Alignment :
- 困难负例:
和
- 三元组损失:
- triplet alignment objective :
- 四个不同的域对齐:
-
- 两个域对齐的对抗损失:
-
- 具体的:
- Intra-modal Alignment
- 具体的:
-
- Cross-modal Alignment
- Cross-modal Alignment
-
- Transitive Alignment
- Transitive Alignment
-
- 对抗损失:
- 对抗损失:
- 总损失
- 优化
常规的对抗学习的优化方式
EXPERIMENT
Results on Sparse Flickr30K
- 视觉多样性比文本多样性更重要
- 相同的稀疏注释对下,性能提升明显
- 使用20%的注释对即可获得有竞争力的性能
Ablation Study
- 注意力机制效果明显
- 域对齐有助于性能提升