这篇文章的主要贡献:
1.提出了一种新的级联的CNN模型进行人脸检测和定位,并设计了轻量级CNN结构提高实时性能;
2.提出了一种有效的在线硬样本挖掘方法来提高性能;
3.进行了大量的实验证明了方法的有效性。
这篇文章的主要思路如图所示:
首先将图片重新调整成各种尺寸,建立图像金字塔,作为网络的输入,以适应不同大小的人脸进行检测。
然后,经过P-Net网络,将特征输入三个卷积层以后,通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和面部关键点定位器来进行人脸区域的初步检测,该网络最终将输出很多张可能存在人脸的人脸区域。
R-Net网络,基本构造也是卷积神经网络,相对于P-Net,增加了一个全连接层,对于输入数据的筛选会更加严格,将P-Net生成的许多预测窗口送入R-Net,会过滤到效果比较差的候选框,最后对选定的候选框进行候选框回归和NMS进一步优化结果。
O-Net是输出网络,基本结构是一个比R-Net多一个卷积层的卷积神经网络,O-Net多了这一层卷积层会通过更多的监督来识别面部的区域(因为网络输入的特征更多,更大的256全连接层,保留了更多的图像特征),而且会对人的面部特征点进行回归,最终输出五个人脸面部特征点。