【ReID】Batch DropBlock Network for Person Re-identification and Beyond
2019的ICCV,Batch DropBlock Network for Person Re-identification and Beyond,早期也叫做Batch Feature Erasing for Person Re-identification and Beyond(两个版本几乎一样),我以Batch DropBlock Network为准。文章[1]提出了Batch DropBlock (BDB) Network,该网络包含一个注意力特征学习模块batch dropblock,其在feature map中相同区域进行随机去除,迫使网络增强对局部特征的学习。
论文一览:
痛点
ReID饱受姿态变化,遮挡和局部特征在训练中被抑制的问题。而CNN倾向于集中在识别对象主体上,因而抑制了其他可区分的部分。很多工作通过基于姿态关键点来进行改善,但是这些工作太复杂笨重。有些工作用切片方法进行改善,但是这些工作通用性不强。文章旨在设计一种简单又适用性强的网络来解决这个问题——Batch DropBlock Network(BDB Network)。
模型
BDB网络用于粗糙的对齐度量学习任务,其包含两个branch,一个为传统的global branch,和一个包含Batch DropBlock的特征筛除feature dropping branch。global branch执行下采样得到feature representation,feature dropping branch学习局部详细的信息。网络采用ResNet50作为backbone,其中stage 4的downsampling部分被去除,得到的feature map size为(2048,24,8)。
其中Batch DropBlock将随机去除所有feature map相同区域的信息(即相同的语义主体部分),以迫使网络关注未被擦除的部分。
Batch DropBlock在triplet hard mining loss的示意图如下图2:
总的模型结构如下图图3:
global branch正常提取特征,得到id loss和triplet hard loss。
在feature dropping branch中,得到的feature tensor会被Batch DropBlock Layer随机去除一个同样的区域,区域内的所有像素均被清零。然后网络经过global max pooling,fc层,求得id loss和triplet hard loss。这个droping region面积不是固定的,其一开始初始化为一个较小的值,随着训练的进行而逐渐增大,作者提出这样可以稳定训练的进程。并且global branch的训练对于feature dropping branch来说也是相辅相成的,如下图4:
使用global max pooling,作者认为其驱使网络在删除了最具表征性部分后,可以识别相对较弱的显着特征。容易被分类的部分被drop,global max pooling可以网络注意剩下的不容易分类的部分。
测试阶段,global branch和feature dropping branch将堆叠成一个嵌入向量进行测试。
Batch DropBlock Layer有三个特点:
1)Batch DropBlock Layer不参数,不会增加网络参数量
2)即使是其他度量学习任务中,Batch DropBlock Layer也容易使用
3)Batch DropBlock Layer超参数可调,不需要随着网络结构改变而改变。
实验
BDB与baseline的activation map可视化对比,可以看到BDB**区域更多,分布更均匀,而baseline只专注于主要的身体部分。
BDB在CUHK03, DUKE和market1501数据集上的对比
在CUHK03的rank4可视化,绿框正确,红框错误
分离实验对比如下:
和其他dropout方法的原理可视化对比:
去除的面积比例对map和cmc的影响:
不同dropping方法在CUHK03的平行对比:
在CUB200-2011,CARS196,In-Shop Clothes Retrieval和Stanford online products数据集上的SOTA实验:
BDB使用其他loss函数的实验:
问题
dropping思想应该还可以推广到其他角度
参考文献
[1] Dai Z, Chen M, Gu X, et al. Batch DropBlock Network for Person Re-Identification and Beyond[C]. international conference on computer vision, 2019: 3691-3701.