Person Search中关于特征Norm的讨论
论文题目:Norm-Aware Embedding for Efficient Person Search
代码:https://github.com/DeanChan/NAE4PS
这篇是DiChen,shanshan zhang 老师, jianyang 老师,Bernt Schiele 的CVPR2020工作,最近在学习,给了我很多启发关于Feature Norm。我理解的可能也不够深入,只是抛砖引玉,感谢各位宝贵的意见。也欢迎大家投稿到 行人重识别专栏(https://zhuanlan.zhihu.com/personReid)。
先说个题外话,之前,sphere face 作者之一 Zhiding Yu 老师就和我说 feature 角度最重要,feature norm 反而反应的信息并不多。这可以详见他最近的一个工作《Angular Visual Hardness》(https://arxiv.org/pdf/1912.02279.pdf)主要的中心思想是,人的视觉系统和 神经网络学到特征的model score (confidence score)是不完全一致的。
from https://wyliu.com/papers/ChenAVH_slides.pdf
这边,我们把最后model confidence,解构成norm和夹角。
文中做了3张热度图和人的选择比较。 发现人的选择和model confidence 相关度不高,也和magnitude 也就是norm相关度不高,但是和angle 相关度较高(如下图)。
What:
好。说回正题。而这次norm-aware embedding研究的问题是one stage person search。相对的two stage 就是先检测行人,然后再做person re-id学习。
本文研究了把norm 和 angle 做了disentangle,同时做person reid和 pedestrian detection:
-
用norm 去表示 detection结果 (是不是人)
2. 用angle 去区分人 person re-id (也就是行人重识别的任务)
How:
-
Loss:如下图
理想中,彩色的为reID的特征, 而黑色的是检测到背景的特征。
-
reid部分还是用OIM loss,一个cross-entropy的变种,引入negative sample,所以彩色的feature分的比较开。
-
而detection 的loss,是作用在一个scalar 也就是norm上。这边需要强调,r是一个数。如果是人就往1 去推,如果是背景,就往0推,也就是收缩到球心。所以黑色的特征聚集在球心附近。
全部pipeline如下。
在inference的时候,也可以对是 iou 不高的candidate做一些压制,具体就是拿detection的confidence score乘一下。
另外,作者还做了一些拓展,做成一个attention map类似的网络。主要就是,得到roi的时候不要马上pooling 。多做几步,最后再pooling。
这边把和gt bbox有overlapping的区域设置为1,非overlapping的设置为0。 来学detection的r map。边缘上是有bilinear做一个smooth。
实验:
这边有个单词拼错了,不关键。结果还是很高的。可以看到detector的结果有提升,而reid部分也比较好。
我的理解也比较浅,欢迎大家讨论,,
-
抛砖引玉,一个问题,cross-entropy loss 学到后面,feature norm 到底表达了什么?是为了拟合softmax的原因越来越大,所以就完全没有意义么?
最后,也欢迎大家可以check我的一些其他文章,感谢~比心。
郑哲东:【新无人机数据集】从 行人重识别 到 无人机目标定位