Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

解决问题:(1)单射嵌入(injective embedding)。当个别实例中存在歧义时,单射嵌入可能会受到影响。考虑一个具有多重含义/意义的模糊实例,例如,多义词和包含多个对象的图像。虽然每个意义/意义都可以映射到嵌入空间中的不同点,但是单射嵌入总是*找到一个点,这可能是所有需要的点的加权几何平均值(不准确)。对于视频和句子来说,这一问题变得更加严重,因为单个图像和单词中的歧义可以聚合和复合,严重限制了它在文本到视频检索等实际应用中的使用。(2)部分跨域关联。例如,文本语句可能只描述图像的某些区域,而忽略了其他部分,而视频可能包含与其关联的语句没有描述的额外帧。这些关联是隐式/隐藏的,使得文本描述所指的图像/视频的哪个部分不清楚。这对于单射嵌入尤其有问题,因为关于任何被忽略部分的信息都将丢失在映射点中,而且一旦映射,就无法从信息丢失中恢复

在这项工作中,我们通过将实例嵌入定义为一对一映射任务,提取实例的k个嵌入和优化映射函数,使其对模糊实例和部分跨模态关联具有鲁棒性,从而解决了上述问题。

主要思想:PIE-Net, Feature Extractors (RsNet, Bi-GRU, GloVe)

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval