[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)

摘要:现代人脸识别的套路就是:检测->对齐->表示->分类。本文主要研究对齐和表示这两歩。为了应用分段的仿射变换,我们使用了3D人脸建模,最终通过一个9层的深度神经网络获得了人脸表达。这个网络并没有用标准的卷积层,而是用来几个不同享权重的局部全连接层,最终模型参数有120,000,000 (120M)个。在LFW数据集上基于准确的模型对齐训练之后的模型的表达能够很好推广到非受限环境中。

1、 引言
人脸识别技术意义重大,之前的技术都不行,我们的提出的DeepFace第一次采用深度学习技术做人脸识别,很牛逼,几乎是人类水平了。
本文的贡献:
1) 首次用深度学习做人脸识别。
2) 基于显式的3D人脸建模实现高效对齐。

1.1 相关研究
大数据与深度学习:
人脸识别:

2、 人脸对齐
现存的几个人脸数据集提供的对齐方法能够通过使输入成为一个标准化的输入,能够有助于提高算法的识别率。然而,在一个无限制的场景中对齐人脸依然很难,因为要考虑到诸多因素比如人脸姿势,随意变化的表情,这些都很难从面部形态特征中分离出来。最近新出的对齐方法对上述问题的解决效果还不错,这些方法大概是下述方法的组合:
1) 采用可分析3D人脸模型。
2) 搜索具有相似的基准点位置的外部数据集的样本进行推断。
3) 通过无监督方法寻找像素点的相似度变换。
对齐没有标准的解决办法,3D建模近年已经不流行了,我们认为3D建模依然很好,故,本文构建的系统包含了基于基准点(人脸特征点)的可分析的3D人脸建模,这个建模系统能够将一个检测到的人脸crop映射为一个3D的人脸正视图。
基准点的提取算法是SVR(Support Vector Regressor),图片描述子基于LBP直方图算子,其他的特征算子也可以考虑。通过诱导相似度矩阵T将原始图片变换为一个新的图片,可以再在上面跑一边基准点检测器以精细化定位基准点。

2D对齐:即在2D图片中通过相似度变换(缩放,旋转,平移)准确找出6个基准点,然后把这个人脸crop出来。如图(b).
3D对齐:2D对齐不能面外旋转(个人理解就是有的基准点在图片上没直接找出来,相似度变换也很难找准它的位置)的要求,故用一个通用的3D模型与2D裁剪图片对应。如图(g)为最后对应的3d正视图.这中间,需要在crop中再用一次SVR定位67个基准点(图(c))。然后利用给一个开源的3D人脸模型库进行3D人脸建模如图(d),不可见部分可用对称来处理。学习一个3D人脸模型和源2D人脸之间的映射P,并可视化3角块,如图(e)。通过先关的映射把源2D人脸中的基准点转换成3D模型产生的基准点,如图(f),最后的正脸就是图(g)。
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
3、 表示
网络结构如下:
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
输入的是已经crop出来的人脸图片。有连个局部连接层,个人理解就是比全连接层连接少点的层,但是参数相对于卷积层依然很多。输出计算softmax,有多少类别输出就计算多少个概率。

4 验证度量
4.1 加权卡方距离。权重w通过svm学习得到。
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
4.2 孪生网络
1)用两个相同的网络分别处理两张输入图片,得到两个特征向量,计算这两个特征向量的差值的绝对值。2)将这个绝对值向量输入到一个全连接层,输出一个0或者1判断这两张图片是否一同一个人或者不是。

5 实验
5.1 数据集
SFC, LFW, YTF。
5.2 在SFCS上训练
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
[人脸识别]DeepFace: Closing the Gap to Human-Level Performance in Face Verification论文综述(2015)
6 结论
要做人脸识别,人脸的描述算子需要有如下特点:
1) 对姿态,光照,图片质量鲁棒
2) 经过略微修改能够应用于各种各样人群
3) 足够短,足够稀疏。
4) 能够快速计算得到。