您的位置: 首页 > 文章 > 跨模态检索

跨模态检索

分类: 文章 • 2025-02-28 14:08:05

Annotation Efficient Cross-Modal Retrieval with Adversarial Attentive Alignment (MM2019)

Cross-Modal Retrieval

主要问题：image-text的注释平行语料库难以获得，或代价高昂。如何在使用尽可能少的注释对语料库的情况下来进行有效的跨模态检索任务。
主要挑战：人工注释文本与机器生成的注释文本之间存在明显的domain shift
主要方法：
采用Adversarial Attentive Alignment对齐不同的domain，减少domain gap
在少量的标注语料对上进行监督训练，在大量的未标注语料库上进行弱监督训练

稀疏注释平行语料库

跨模态检索

METHODOLOGY

跨模态检索

Feature Extractors

视觉特征（Faster RCNN）：

跨模态检索

语义特征（LSTM）：

跨模态检索

Adversarial Attentive Alignment

K-head context-aware attention network
使用注意力模块捕捉信息：

跨模态检索

特征及参数：

跨模态检索

Triplet Alignment ：
困难负例：

跨模态检索

和

跨模态检索

三元组损失：

跨模态检索

跨模态检索

triplet alignment objective ：

跨模态检索

四个不同的域对齐：

跨模态检索

- 两个域对齐的对抗损失：

跨模态检索

- 具体的：
- Intra-modal Alignment

跨模态检索

- Cross-modal Alignment

跨模态检索

- Transitive Alignment

跨模态检索

- 对抗损失：

跨模态检索

总损失

跨模态检索

优化
常规的对抗学习的优化方式

跨模态检索

EXPERIMENT

Results on Sparse Flickr30K

跨模态检索

视觉多样性比文本多样性更重要
相同的稀疏注释对下，性能提升明显

跨模态检索

使用20%的注释对即可获得有竞争力的性能

Ablation Study

跨模态检索

注意力机制效果明显
域对齐有助于性能提升

检索结果示例

跨模态检索