FaceNet: A Unified Embedding for Face Recognition and Clustering

FaceNet:A Unified Embedding for Face Recognition and Clustering

直接学习从人脸图像到欧几里得空间的映射，其中距离直接对应于面部相似度

Embedding从图片到特征空间的映射（image x into ad-dimensional）文中d=128

生成所有满足公式1的三元组很容易的，但是很多对网络收敛几乎没有帮助，所以关键是选择那些对模型性能提升有帮助的三元组

FaceNet: A Unified Embedding for Face Recognition and Clustering

三元组选择

FaceNet: A Unified Embedding for Face Recognition and Clustering

给定,X-i-a. FaceNet: A Unified Embedding for Face Recognition and Clustering

在整个训练集计算argmin和argmax是不可行的。

在一个1000人，每人20张照片的情况下，T=1000*20*20*999所以穷举不太现实，只能从中选部分来进行训练，选择那些最难区分的图像对。

Hard positive从20张相似图片中找一张最不相似的，

Hard negative 从20*999张找一个最相似的。

最难分类呢，就是在欧式空间距离最远的那个，但是属于一类，这叫hard positive,另外找Hard negative那就找最近的，这样就解决了。当然在找Hard negative很容易产生局部最优，所以我们要满足：。这叫semi-hard，防止找到他一类里了。

在我们的实验中，我们对训练数据进行采样，以便小批次迭代中每个身份选择大约40张面孔。另外，添加随机采样的负面人脸。

CNN

本文的CNN结构：

一种是来自M. D. Zeiler and R. Fergus.Visualizing and understanding convolutional networks. CoRR, abs/1311.2901,2013. 2, 4, 6。

结构：

另一种来自：C. Szegedy, W. Liu, Y. Jia, P.Sermanet, S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke,and A. Rabinovich.Goingdeeper with convolutions. CoRR, abs/1409.4842,2014. 2, 4, 5, 6, 9

结构：

训练数据800万个人10~20亿照片,

测试集 100W在训练中没出现过的人脸照片，分布类似，分成5份评估。

还在LFW Youtube FaceDB做verification

FaceNet: A Unified Embedding for Face Recognition and Clustering

FaceNet: A Unified Embedding for Face Recognition and Clustering

相关推荐