论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

论文地址：论文

大体分为两部分，第一部分是自己读文章时的记录，第二部分是自己总的感想。

一、论文概述：

1、在摘要中提出了DR-GAN的名字，给出了论文的三个创新点。

（1）通过generator 的encoder-decoder框架学习了生成和判别的表示（representation）；

（2）这种表示是从姿态这种人脸变量得出。姿态（pose）代码传输到decoder，姿态的估计（estimation）传给了判别器；

（3）DR-GAN可以输入一张或者多张照片，并且根据随机的合成图片生成统一的表示。

2、根据figure1，在discriminator和generator都可以生成身份标识，可以根据姿态代码生成特定身份的人脸。

endoder输入的是任意角度的人脸，decoder合成目标角度的人脸。G起到了人脸旋转的作用。D不仅比较真实图片和合成图片，而且输出身份和角度。因此，G需要做到：（1）旋转的图片跟输入的图片的身份一样；（2）学到的表示应该更具有多样性。

论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

3、在CGAN中，G输入一个随机的噪音来合成图片。在DR-GAN中，G的输入包括人脸图片，姿态条件和噪音。目的是生成相同身份特定角度的人脸（a face of the same identity with the target pose）。在G-encoder中，输入多张不同角度的图片，生成单一身份的表示；在G-decoder中合成具体角度的人脸。

4、在3.2节中，文章给出了两个不同与之前GAN的优点。（1）采用了encoder-decoder框架的生成器。（2）为了避免其他变量的影响，在0-90度过程生成图片过程生成不同身份的人脸，在网络中不仅加入了class label 而且加入了pose和illumination的label。

5、在3.2.1节中，D是由两部分组成，一部分是用来判别身份，身份数目为训练集身份数目加假的身份（fake class）（Dd ∈ RNd+1 is for identity classification with Nd as the total number of subjects in the training set and the additional dimension is for the fake class.）；另一部分是用来判别角度，角度数目为所有角度数目。

给定一张真实图片，D要估计出它的身份和角度，给定一张从generator合成的图片，D要判断其是假的。

目标函数为：论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

6、与此同时，在G中，decoder输入是encoder学到的identity representation和c（target pose）和z（包含了其他的变量影响，the noise modeling other variance besides identity or pose.）

目标函数为：论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

7、在G的总结中，提到了三个好处：（1）在encoder学到的f（x）具有更易区分的身份信息。（2）D中的姿态判别器使得G生成的多姿态人脸更准确。（3）pose code加在decoder中，使得encoder学得更多的是身份信息，姿态信息会少一点。

8、网络结构：

论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

9、在3.3节Multi-Image DR-GAN中主要讲解了多图片输入的模型，提出了一个confident coefficient ω，来保证最后多张图片学到的表示能融合在一起，ω相当于一个权重。论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

网络结构在D上没有改变，在G上增加了多个encoder，在decoder的输入上增加了ω的输入。

G的目标函数为: 论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

10、在具体数据集上的训练。具体为4.1节，在使用Multi-Pie加上了illumination label。

二、感想

1、对数据集的处理很重要，要重新修改以下Multi-pie的数据存储格式，

2、网络结构需要根据文章提出的进行修改，先从单一图片输入网络实现就行。

3、其实考虑的条件不仅仅是pose，而且还有illumination。

论文笔记（一）【 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition】

相关推荐