深度学习专题笔记-计算机视觉二

人脸识别：PCA是经典的算法。
人脸验证 / 人脸比对（Face Verification）
• 1比1的比对，即判断两张图片里的人是否为同一人
• 应用场景：人脸解锁
• 人脸识别（Face Identification）
• 1比N的比对，即判断系统当前见到的人，为数据库中众多人中的哪一个。
• 应用场景：疑犯追踪，小区门禁，会场签到，客户识别

传统人脸识别的主要思路是设计特征提取器，再利用机器学习算法对提取特征进行分类。核心思想为：不同人脸由不同特征组成
神经网络具有自动提取特征的能力，与人脸识别任务很契合！

同一个人的脸的照片在特征空间中的欧式距离非常接近。

数据集：

LFW （Labeled Faces in the Wild）
• 专为研究非受限人脸识别问题而设计的人脸照片数据库。人脸图片均来源于生活中的自然场景，因此识别难度会增大，尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。
照片被两两分组，目的是判断两张照片是否来自同一个人。

ACC ：准确率，正确分类的样本数目和总体样本数目的比值。
FAR(False Accept Rate): 误识率。指不同人的两张照片，判别为同一人的概率。
设错误接受次数为NFA，类间比较次数为NIRA，则有：
深度学习专题笔记-计算机视觉二
FRR(False Reject Rate): 拒识率。指同一人的两张照片，判别为不同人的概率。
设错误拒绝次数为NFR，类内比较次数为NGRA，则有：

DeepFace

四个步骤：检测，对齐（校正），表示，分类
主要阐述了在对齐和表示这两个步骤上提出了新的方法，模型的表现超越了前人的工作，在LFW上达到了97.35%的人脸验证精度。
对齐方面主要使用了3D人脸模型来对齐人脸,对齐可理解为：获取正脸（去噪）,表示可理解为：构造特征

对齐：用LBP+SVR的方法检测出人脸的6个基准点，眼镜两个点，鼻子一个点，嘴巴三个点
对图像定位67个基准点，并进行三角剖分，得到图©。
用一个3D人脸库USF Human-ID得到一个平均3D人脸模型（正脸），如图(d)。
学习一个3D人脸模型和原2D人脸之间的映射P，并可视化为三角块，如图(e)。学习一个映射关系，然后可以将已有的人脸进行映射
通过相关的映射，把原2D人脸中的基准点转换成3D模型产生的基准点，得到图(f)。最后的正脸，图(g)。
深度学习专题笔记-计算机视觉二
表示：

前3层采用传统的卷积和池化提取信息，共享卷积核()。同一张图片里面用一个相同的卷积核去运算

后3个卷积层采用局部连接，提取不同维度上的特征，不共享卷积核( 于feature map上每个位置，学习不同的卷积核)。

因为人脸的不同区域会有不同的统计特征，比如眼睛和眉毛之间的区域比鼻子和嘴巴之间的区域具有更高的区分能力。局部卷积层会导致更大的参数量，需要很大的数据量才能支撑的起。

倒数第二层采用全连接层提取出对应的人脸特征，最后是softmax层进行分类。

全连接层，用来捕捉（不同位置的）特征的相关性。F8层对F7层的输出特征进行归一化（除以训练集上所有样本中的最大值），得到的特征向量值为0到1之间，使用Softmax进行分类。
Deepface网络的输出是个4030维的分类结果

DEEPID–(Deep hidden IDentity feature)用于人脸验证所以是1V1的，二分类任务

模型使用人脸上不同的区域训练多个单独的ConvNet，每个ConvNet的最后一个隐层为提取到的特征，称之为DeepID
ConvNet的结构由四层CNN和一层Softmax组成。
• 输入的不是整个人脸，而是人脸中的某个区域（Patch）。输入数据有两种，一种是39 * 31 * k, 对应矩形区域，一种是31 * 31 * k，对应正方形区域，其中k当输入是RGB图像时为3，灰度图时为1。
深度学习专题笔记-计算机视觉二
输出的特征DeepID是Softmax层之前的隐层，Softmax层只在训练时才有。
• 最后将不同区域提取到的DeepID 连接起来作为人脸的特征，用PCA降维到150维后送入Joint Bayesian分类器（也可以是其他分类器）进行人脸验证，此时变为二分类任务。
识别信号采用交叉熵损失：
深度学习专题笔记-计算机视觉二
验证信号使用的是L2损失，其中m是可学习的参数。验证信号的计算需要两个样本，故每次迭代时需要随机抽取两个样本，然后计算误差。

Facenet

验证人脸是否为同一个人,在一定程度上解决“光线问题”和“姿势问题
判断依据是“两幅人像的欧几里得距离”，
如
给定一个阈值a=1，那么：
• 当特征距离等于0的时候，认为是同一张图
片（同一个人）；
• 当特征距离小于1的时候，认为是同一个人；
• 特征距离大于1的时候,认为不是同一个人。

Triplet loss是FaceNet的核心，模型希望某个个体的图像和该个体其它图像距离近和其它个体图像距离远.
损失函数：
深度学习专题笔记-计算机视觉二

行人检测

主要难题：外观差异大、遮挡问题、背景复杂、检测速度慢
传统方法
• 特征：方向梯度直方图（Histograms of oriented gradients，HOG）、类harr特征（Haar-like features）、Viola–Jones特征（Viola–Jones features）、纹理（Texture）、局部二值模式（Local Binary Pattern，LBP）等
• 分类器：线性SVM、AdaBoost等。

DNN：两阶段
深度学习专题笔记-计算机视觉二
一阶段：

检测器性能评估：每秒帧数FPS----表示模型效率、准确率AP，召回率RECALL，对数平均漏检率 LAMR-----模型准确性

行人重识别：是否存在特定行人的技术，找出不同视频同一个人。

定位
深度学习专题笔记-计算机视觉二