《Seeing Voices and Hearing Faces Cross-modal biometric matching》（2016CVPR）

这篇文章围绕的一个核心任务是跨模态生物特征识别，即给定脸部图像或视频，确定它对应于给定的音频中的哪一个；或者给定声音的音频片段，确定它对应于两个或多个面部图像或视频中的哪一个。文章中介绍了三种框架，分别对应三种不同的任务：
Face2Voice：人脸与声音之间的跨模态识别与检索
第一个static网络用于静态匹配任务，每个测试样本是一个三元组，包含两个静态人脸图像和一个语音片段。第二个Dynamic fusion网络用于动态匹配任务，在第一个网络的基础上引入了一个附加的子网，用来提取人脸的动态特征，输入的三元组包含两个脸部轨迹和一个音频片段。第三个N-way网络是第一个网络的扩展，即人脸图像可以增加到任意N个。

文章的正文和附录对第一个static网络进行了详细的介绍，给出了具体的框架结构：
Face2Voice：人脸与声音之间的跨模态识别与检索
一个static网络包含两个用于摄取图像数据的参数共享人脸子网，和一个用于摄取频谱图的语音子网。然后，这三个流通过融合层（concat）合并（通过特征串联），并馈送到顶部共享模式的全连接层。融合层的作用是在面部和语音之间建立对应关系。

实验部分作者用了两个大规模公开数据集：VGGFace和VoxCeleb。其中VGGFace提供静态图像，VoxCeleb提供视频和音频。实验采用这两个数据集共同包含的1247个人物数据。这里给出了训练集和测试集的分割比例：
Face2Voice：人脸与声音之间的跨模态识别与检索
这里给出了静态图像和动态图像匹配的结果：

其中Human Baseline是是人工评估的结果。可以看出动态图像的结果优于静态图像的匹配结果，特别是在V-F的情况下，动态比静态高了3%以上。

表格中还给出了GNA-var removed的结果，这表示说话人的身份信息去除了性别、国籍和年龄的差异，即给的人脸或声音都是来自同一性别、同一国籍、年龄相仿的两个人。在去除了GNA差异的更具挑战性的测试集上，人类评估的准确性更低，这说明存在着某些人类难以识别的生物信息，而作者提出的这个模型却可以识别出来。这也体现了该模型的优势。

另外，还给出了N个输入的结果：
Face2Voice：人脸与声音之间的跨模态识别与检索
可以看出top5，top2和top1的精度都远高于随机结果（chance表示随机概率，即N=2时精度为0.5，N=4时精度为0.25，以此类推）

Face2Voice：人脸与声音之间的跨模态识别与检索

《Seeing Voices and Hearing Faces Cross-modal biometric matching》（2016CVPR）

相关推荐