Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记

Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文笔记

论文框架

摘要

零样本跨模态检索是当前研究的一个热点,旨在通过不同的数据模态检索出来新类。当前的难点不仅是不同模态之间数据的异质分布,而且可见类和不可见类之间存在语义鸿沟。最近提出的一些方法主要是借鉴零样本学习的思想,即利用类标签的词嵌入作为语义空间,并使用生成对抗网络来捕获多模态数据的结构,并加强输入数据和语义空间之间的联系,泛化可见类和不可见类。这篇论文中,作者主要提出了Learning Cross-Aligned Latent Embeddings (LCALE)来代替那些基于GAN的方法零样本学习的方法,不同于使用类嵌入作为语义空间,作者提出通过modal-specific的自编码器来寻找一个多模态输入数据和类嵌入的共享低维空间。作者提出通过调整多模态输入特征和类嵌入中学习到的分布进行调整,从而构建包含与未看到类相关的潜在嵌入。进一步拓展有效的交叉重构和交叉对齐可以在潜在空间中保存类判别性信息。

引言

随着我们生活中多媒体数据的爆炸式增长,跨模态检索已经成为了一个热门的研究领域。现有的大部分方法利用不同模态的训练信息来学习一个共享的子空间表示。许多现在的跨模态算法都考虑在测试和训练过程中利用来自同一类别的数据,然而在遇到新的类别时,需要重新训练代码。为此本文研究了zero-shot cross-modal retrieval。由于目前的zero-shot cross-modal retrieval研究还比较少,这些方法从语料库中的容易提取的类来构建语义空间并实现可见类和不可见类之间的知识迁移。虽然利用传统的ZSL方法中的类嵌入语义空间来完成分类任务已经取得了很好的效果,但是在ZS-CMR这样的检索场景中,它可能不是最优的。此外,在对抗训练过程中,他们通常采用流行的生成对抗网络作为基本模块,生成通用的嵌入数据,以获取不同形态数据的异构分布。然而,这些方法中的GAN基损耗函数在训练中存在不稳定性。
为了解决上述问题,作者提出不直接将类嵌入作为语义空间,而是构建包含三个特定模态的自编码器的多模态自编码器。通过匹配参数分布和执行交叉重构学习潜在的嵌。论文的主要贡献如下:
1.提出了一种替代现有的基于GAN的ZS-CMR方法,它不是生成多模态输入特征,而是通过自编码器在低维的潜在空间中生成潜在嵌入,既能获得稳定的训练,又能获得优异的检索性能。
2.针对不同模态数据和类嵌入,提出了交叉重建和交叉对齐的方法,有效地增强了潜在嵌入空间,使知识能够传递到空间中的非可见类。
3. 本文对五个广泛应用的数据集进行了充分的实验,分别针对两种跨模式检索场景:图像文本检索和图像草图检索,说明了本文提出的方法在两种任务上的有效性及其最新性能。

论文框架

根据目标函数,论文主体框架主要可以分为以下几个部分:
1.Multimodal Variational Autoencoder
具体来说,作者使用生成原型VAE作为每种模态的基本编译码模块,自动编码器被分解成一个从输入数据 x x x获得低维潜在变量z的编码器和一个从 z z z获得接近 x x xx的输出 x ^ \hat x x^ 的解码器。一般来说,VAE采用变分推理来求潜在变量z上的真实条件概率分布 p ( z ∣ x ) p(z|x) p(zx),由于 p ( z ∣ x ) p(z|x) p(zx)的难解性,用其最接近的代理后验 q ( z ∣ x ) q(z|x) q(zx)作为其近似,利用变分下界最小化 q ( z ∣ x ) q(z|x) q(zx) p ( z ∣ x ) p(z|x) p(zx)的距离。因此,VAE的目标函数是输入数据 x x x的边际似然的变分下界,如下所示:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记公式(1)中的第一项是重构loss,后面是用Kullback-Leibler散度作为先验正则化项。其中,条件概率分布 q ( z ∣ x ) q(z|x) q(zx) p ( x ∣ z ) p(x|z) p(xz)分别构成了编码器和解码器, p ( z ) p(z) p(z) z z z的先验分布,被建模为多元高斯分布,而 μ \mu μ σ \sigma σ是后验分布 q ( z ∣ x ) q(z|x) q(zx)的均值和方差。
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记

结合三个独立的编码器得到多模态的自动编码器来学习一个共享的潜在嵌入空间,首先输入每个模态将其编码到潜在的特征空间,并进一步通过解码器重构原始的数据。
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记
具体来说,多模态自动编码器的函数如公式(2)所示。
2.Cross-Reconstruction with Latent Embeddings
在共享的特征空间基础上,重构不仅在各自的模态上进行,同样可以跨多个模态。mVAE允许通过解码来自同一类其他样本 x n x^{n} xn的另一个模态的潜在嵌入来重构实例 x m x^{m} xm的模态数据。很明显,同一类实例的潜在嵌入在语义上是一致的,即使它们来自不同的模式。然后,三种模态的交叉重构损失可以推导出:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记
3.Cross-Alignment in Latent Embedding Space
为了保证不同模态在潜在空间的连续性,作者提出两个交叉对齐的体系。
第一,利用类嵌入作为桥梁,使潜在嵌入的多元高斯分布在成对模态上对齐。具体定义如下:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记
m m m n n n分别代表不同的模态,进一步简化为下式:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记
最后,我们将等式5应用到我们的特殊情况下,最小化成对模式之间的2-Wasserstein距离,即图像与类嵌入,文本与类嵌入。然后,交叉对齐损失可推导为:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记通过显式地加强潜在嵌入在成对模式之间的交叉对齐,mVAE能够通过所见类的连接将知识迁移到看不见的类。(这点不是很明白)
第二,由于图像和文本模式之间的关联是通过类嵌入隐式建立的,因此我们在这里另外考虑另一种方案来显式地增强两种模式的语义关联。特别地,我们测量图像和文本模式的成对潜在嵌入的最大平均差异(MMD)。MMD准则是一种基于核的距离函数,用于度量在交叉模态分析中成对实例的相关性。如下所示:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记
4.Class-embeddings Reconstruction with Cycle Consistency.
为了进一步增强同一类不同模态特征在潜在嵌入空间中的语义一致性,作者采用循环一致性约束来保证类嵌入的鲁棒重构,其推导如下:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记
其中 R v ( ) R_v() Rv() R t ( ) R_t() Rt()表示图像和文本模式的两个值之后的回归量,分别将解码器的输出从两个模式映射到类嵌入空间。
目标函数
目标函数如下所示:
Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval论文阅读笔记