FaceNet: A Unified Embedding for Face Recognition and Clustering

FaceNet:A Unified Embedding for Face Recognition and Clustering

直接学习从人脸图像到欧几里得空间的映射,其中距离直接对应于面部相似度

Embedding从图片到特征空间的映射(image x into ad-dimensional)文中d=128

FaceNet: A Unified Embedding for Face Recognition and Clustering

生成所有满足公式1的三元组很容易的,但是很多对网络收敛几乎没有帮助,所以关键是选择那些对模型性能提升有帮助的三元组

FaceNet: A Unified Embedding for Face Recognition and Clustering

三元组选择

FaceNet: A Unified Embedding for Face Recognition and Clustering

给定,X-i-a.FaceNet: A Unified Embedding for Face Recognition and Clustering

在整个训练集计算argmin和argmax是不可行的。

在一个1000人,每人20张照片的情况下,T=1000*20*20*999所以穷举不太现实,只能从中选部分来进行训练,选择那些最难区分的图像对。

 

Hard positive从20张相似图片中找一张最不相似的,

Hard negative 从20*999张找一个最相似的。

最难分类呢,就是在欧式空间距离最远的那个,但是属于一类,这叫hard positive,另外找Hard negative那就找最近的,这样就解决了。当然在找Hard negative很容易产生局部最优,所以我们要满足:。这叫semi-hard,防止找到他一类里了。

在我们的实验中,我们对训练数据进行采样,以便小批次迭代中每个身份选择大约40张面孔。 另外,添加随机采样的负面人脸。

 

CNN

本文的CNN结构:

一种是来自M. D. Zeiler and R. Fergus.Visualizing and understanding convolutional networks. CoRR, abs/1311.2901,2013. 2, 4, 6。

结构:

另一种来自:C. Szegedy, W. Liu, Y. Jia, P.Sermanet, S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke,and A. Rabinovich.Goingdeeper with convolutions. CoRR, abs/1409.4842,2014. 2, 4, 5, 6, 9

结构:

 

 

训练数据800万个人10~20亿照片,

测试集 100W在训练中没出现过的人脸照片,分布类似,分成5份评估。

还在LFW Youtube FaceDB做verification

FaceNet: A Unified Embedding for Face Recognition and Clustering