论文笔记(一)【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】
论文地址:论文
大体分为两部分,第一部分是自己读文章时的记录,第二部分是自己总的感想。
一、论文概述:
1、在摘要中提出了DR-GAN的名字,给出了论文的三个创新点。
(1)通过generator 的encoder-decoder框架学习了生成和判别的表示(representation);
(2)这种表示是从姿态这种人脸变量得出。姿态(pose)代码传输到decoder,姿态的估计(estimation)传给了判别器;
(3)DR-GAN可以输入一张或者多张照片,并且根据随机的合成图片生成统一的表示。
2、根据figure1,在discriminator和generator都可以生成身份标识,可以根据姿态代码生成特定身份的人脸。
endoder输入的是任意角度的人脸,decoder合成目标角度的人脸。G起到了人脸旋转的作用。D不仅比较真实图片和合成图片,而且输出身份和角度。因此,G需要做到:(1)旋转的图片跟输入的图片的身份一样;(2)学到的表示应该更具有多样性。
3、在CGAN中,G输入一个随机的噪音来合成图片。在DR-GAN中,G的输入包括人脸图片,姿态条件和噪音。目的是生成相同身份特定角度的人脸(a face of the same identity with the target pose)。在G-encoder中,输入多张不同角度的图片,生成单一身份的表示;在G-decoder中合成具体角度的人脸。
4、在3.2节中,文章给出了两个不同与之前GAN的优点。(1)采用了encoder-decoder框架的生成器。(2)为了避免其他变量的影响,在0-90度过程生成图片过程生成不同身份的人脸,在网络中不仅加入了class label 而且加入了pose和illumination的label。
5、在3.2.1节中,D是由两部分组成,一部分是用来判别身份,身份数目为训练集身份数目加假的身份(fake class)(Dd ∈ RNd+1 is for identity classification with Nd as the total number of subjects in the training set and the additional dimension is for the fake class.);另一部分是用来判别角度,角度数目为所有角度数目。
给定一张真实图片,D要估计出它的身份和角度,给定一张从generator合成的图片,D要判断其是假的。
目标函数为:
6、与此同时,在G中,decoder输入是encoder学到的identity representation和c(target pose)和z(包含了其他的变量影响,the noise modeling other variance besides identity or pose.)
目标函数为:
7、在G的总结中,提到了三个好处:(1)在encoder学到的f(x)具有更易区分的身份信息。(2)D中的姿态判别器使得G生成的多姿态人脸更准确。(3)pose code加在decoder中,使得encoder学得更多的是身份信息,姿态信息会少一点。
8、网络结构:
9、在3.3节Multi-Image DR-GAN中主要讲解了多图片输入的模型,提出了一个confident coefficient ω,来保证最后多张图片学到的表示能融合在一起,ω相当于一个权重。
网络结构在D上没有改变,在G上增加了多个encoder,在decoder的输入上增加了ω的输入。
G的目标函数为:
10、在具体数据集上的训练。具体为4.1节,在使用Multi-Pie加上了illumination label。
二、感想
1、对数据集的处理很重要,要重新修改以下Multi-pie的数据存储格式,
2、网络结构需要根据文章提出的进行修改,先从单一图片输入网络实现就行。
3、其实考虑的条件不仅仅是pose,而且还有illumination。