Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

解决问题：（1）单射嵌入（injective embedding）。当个别实例中存在歧义时，单射嵌入可能会受到影响。考虑一个具有多重含义/意义的模糊实例，例如，多义词和包含多个对象的图像。虽然每个意义/意义都可以映射到嵌入空间中的不同点，但是单射嵌入总是*找到一个点，这可能是所有需要的点的加权几何平均值(不准确)。对于视频和句子来说，这一问题变得更加严重，因为单个图像和单词中的歧义可以聚合和复合，严重限制了它在文本到视频检索等实际应用中的使用。（2）部分跨域关联。例如，文本语句可能只描述图像的某些区域，而忽略了其他部分，而视频可能包含与其关联的语句没有描述的额外帧。这些关联是隐式/隐藏的，使得文本描述所指的图像/视频的哪个部分不清楚。这对于单射嵌入尤其有问题，因为关于任何被忽略部分的信息都将丢失在映射点中，而且一旦映射，就无法从信息丢失中恢复

在这项工作中，我们通过将实例嵌入定义为一对一映射任务，提取实例的k个嵌入和优化映射函数，使其对模糊实例和部分跨模态关联具有鲁棒性，从而解决了上述问题。

主要思想:PIE-Net, Feature Extractors (RsNet, Bi-GRU, GloVe)

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

相关推荐