Face2Voice:人脸与声音之间的跨模态识别与检索

《Seeing Voices and Hearing Faces Cross-modal biometric matching》(2016CVPR)

这篇文章围绕的一个核心任务是跨模态生物特征识别,即给定脸部图像或视频,确定它对应于给定的音频中的哪一个;或者给定声音的音频片段,确定它对应于两个或多个面部图像或视频中的哪一个。文章中介绍了三种框架,分别对应三种不同的任务:
Face2Voice:人脸与声音之间的跨模态识别与检索
第一个static网络用于静态匹配任务,每个测试样本是一个三元组,包含两个静态人脸图像和一个语音片段。第二个Dynamic fusion网络用于动态匹配任务,在第一个网络的基础上引入了一个附加的子网,用来提取人脸的动态特征,输入的三元组包含两个脸部轨迹和一个音频片段。第三个N-way网络是第一个网络的扩展,即人脸图像可以增加到任意N个。

文章的正文和附录对第一个static网络进行了详细的介绍,给出了具体的框架结构:
Face2Voice:人脸与声音之间的跨模态识别与检索
一个static网络包含两个用于摄取图像数据的参数共享人脸子网,和一个用于摄取频谱图的语音子网。然后,这三个流通过融合层(concat)合并(通过特征串联),并馈送到顶部共享模式的全连接层。融合层的作用是在面部和语音之间建立对应关系。

实验部分作者用了两个大规模公开数据集:VGGFace和VoxCeleb。其中VGGFace提供静态图像,VoxCeleb提供视频和音频。实验采用这两个数据集共同包含的1247个人物数据。这里给出了训练集和测试集的分割比例:
Face2Voice:人脸与声音之间的跨模态识别与检索
这里给出了静态图像和动态图像匹配的结果:
Face2Voice:人脸与声音之间的跨模态识别与检索
其中Human Baseline是是人工评估的结果。可以看出动态图像的结果优于静态图像的匹配结果,特别是在V-F的情况下,动态比静态高了3%以上。

表格中还给出了GNA-var removed的结果,这表示说话人的身份信息去除了性别、国籍和年龄的差异,即给的人脸或声音都是来自同一性别、同一国籍、年龄相仿的两个人。在去除了GNA差异的更具挑战性的测试集上,人类评估的准确性更低,这说明存在着某些人类难以识别的生物信息,而作者提出的这个模型却可以识别出来。这也体现了该模型的优势。

另外,还给出了N个输入的结果:
Face2Voice:人脸与声音之间的跨模态识别与检索
可以看出top5,top2和top1的精度都远高于随机结果(chance表示随机概率,即N=2时精度为0.5,N=4时精度为0.25,以此类推)