[CVPR2020]AD-Cluster: Augmented Discriminative Clustering for Domain Adaptive Person Re-id
文章目录
1. Introduction
该篇论文提出了一种基于密度聚类的加强分辨特征的跨数据域ReID框架。
创新点:
- 提出一个cross domain的无监督密度聚类框架。
- 利用GAN网络生成跨视角数据来增加数据量,将StarGAN和CNN网络交替训练(类似对抗)来保证生成图像多样性和CNN的性能。
2. Methods
2.1 算法总体框架
算法总体流程分为以下几个步骤:
- 通过在源域训练过的CNN网络提取目标域的行人特征。
- 对其进行基于密度的聚类(DBSCAN)得到聚类结果并分配伪标签。(Density-based Clustering)
- 利用GAN网络(StarGAN)生成跨视角的行人图像,其伪标签与变换前相同。(Adaptive Sample Augmentation)
- 利用生成的图像和原图像一同对StarGAN网络和CNN网络进行训练。(Discrimative Learning)
2.2 Density-based Clustering
利用DBSCAN算法对于得到的特征进行聚类并分配伪标签。
2.3 Adaptive Sample Augmentation(ASA)
ASA部分通过StarGAN网络生成转换过视角的行人图像。
假设目标域有K个摄像头,那对于目标域一张图片通过StarGAN也就生成K张转换过视角的行人图像,从而使每个簇的数据量扩大为原先的K倍。
转换后的数据为增强数据,转换前的数据为原始数据。
这里的StarGAN需要预先在目标域进行训练,训练每两个摄像头视角图片风格的相互转换。
2.4 Discrimative Learning
由于StarGAN的训练过程完全独立于聚类和特征学习,所以导致跨视角生成图像的多样性不足。为了将StarGAN的训练与特征学习相结合,利用所得到的增强数据和原始数据进行Min-Max优化(Min-Max Optimization),即对于StarGAN和CNN网络进行交替优化训练。
注意:diversity是多样性,不是密度。StarGAN和CNN进行的是一种类似对抗的训练。StarGAN的损失函数让生成的跨视角图像尽可能地远离聚类中心以增加多样性,而三元组损失函数缩短类内距离(也就是减少多样性,将生成的图像拉近聚类中心).
Max-Step
max指的是最大化增强图像(扩充后的簇)的特征的多样性。
将CNN网络固定,对StarGAN进行优化。
对于每一张图片定义其多样性为所生成的特征与簇中心的距离。
对于一个batch,定义多样性损失
L
d
i
v
L_{div}
Ldiv。
L
d
i
v
L_{div}
Ldiv越小,则
D
d
i
v
D_{div}
Ddiv越大,即生成图像距离聚类中心越远,则多样性越大。将
L
d
i
v
L_{div}
Ldiv与StarGAN的损失函数结合对StarGAN进行训练,让StarGAN网络生成更具多样性的跨视角图像。
使
D
d
i
v
D_{div}
Ddiv越大,则
L
d
i
v
L_{div}
Ldiv最小。
Min-Step
min指的是最小化簇内特征的距离。
将StarGAN网络固定,利用难样本三元组损失函数对CNN进行优化,最小化类内距离(簇内距离),最大化类间距离。
Min-Step目标就是最小化多样性
D
d
i
v
D_{div}
Ddiv以获得最小的
L
t
r
i
L_{tri}
Ltri。