跨模态检索

Annotation Efficient Cross-Modal Retrieval with Adversarial Attentive Alignment (MM2019)

Cross-Modal Retrieval
  • 主要问题:image-text的注释平行语料库难以获得,或代价高昂。如何在使用尽可能少的注释对语料库的情况下来进行有效的跨模态检索任务。
  • 主要挑战:人工注释文本与机器生成的注释文本之间存在明显的domain shift
  • 主要方法:
  • 采用Adversarial Attentive Alignment对齐不同的domain,减少domain gap
  • 在少量的标注语料对上进行监督训练,在大量的未标注语料库上进行弱监督训练


  • 稀疏注释平行语料库

跨模态检索


METHODOLOGY

跨模态检索

Feature Extractors

  • 视觉特征(Faster RCNN):

跨模态检索


  • 语义特征(LSTM):

跨模态检索


Adversarial Attentive Alignment

  • K-head context-aware attention network
  • 使用注意力模块捕捉信息:


跨模态检索


  • 特征及参数:

跨模态检索


  • Triplet Alignment :
  • 困难负例:

跨模态检索

跨模态检索


  • 三元组损失:

跨模态检索


跨模态检索


  • triplet alignment objective :

跨模态检索


  • 四个不同的域对齐:

跨模态检索


    • 两个域对齐的对抗损失:

跨模态检索


    • 具体的:
    • Intra-modal Alignment

跨模态检索


    • Cross-modal Alignment

跨模态检索


    • Transitive Alignment

跨模态检索


    • 对抗损失:

跨模态检索


  • 总损失

跨模态检索


  • 优化
    常规的对抗学习的优化方式

跨模态检索


EXPERIMENT

Results on Sparse Flickr30K


跨模态检索


  • 视觉多样性比文本多样性更重要
  • 相同的稀疏注释对下,性能提升明显


跨模态检索


  • 使用20%的注释对即可获得有竞争力的性能

Ablation Study


跨模态检索


  • 注意力机制效果明显
  • 域对齐有助于性能提升

检索结果示例


跨模态检索