Focal Loss for Dense Object Detection
RetinaNet
网络结构讲解:https://zhuanlan.zhihu.com/p/28873248
实验分析:https://blog.csdn.net/beyondjv610/article/details/80977443
focal loss应用及实验:https://blog.csdn.net/Chunfengyanyulove/article/details/83751412
Introduction
目标识别有两大经典结构:
第一类是以Faster RCNN为代表的两级识别方法:这种结构的第一级专注于proposal的提取,第二级则对提取出的proposal进行分类和精确坐标回归。两级结构准确度较高,但因为第二级需要单独对每个proposal进行分类/回归,速度就打了折扣;
第二类结构是以YOLO和SSD为代表的单级结构:它们摒弃了提取proposal的过程,只用一级就完成了识别/回归,虽然速度较快但准确率远远比不上两级结构。
1、交叉熵损失函数(CE)
2、全卷积网络(FCN) 对输入图片尺寸无要求,无全连接层,只有卷积层(分割问题最后一个卷积核1*1)
3、特征金字塔(FPN)
a.图像金字塔
b.传统方法
c .SSD采用的特征金字塔,忽略了其他层特征表达
d.FPN
Focal Loss(按分类难度增加对难分类样本的关注度)
1、Cross Entropy Loss:在单阶段物体检测器中,它会被大量的容易分类的样本控制,导致少量的不容易分类的样本被淹没
*2、Balanced CE Loss:赋予正样本大权重,负样本小权重
对证样本的损失值使用权重因子a,对负样本使用权重因子1-a。从数量角度平衡了*样本损失值
**3、Focal Loss:降低了容易分类样本的权重,从而使损失更关注在难分类的样本上。
不同gamma时,概率值与损失值关系图:
表明:随着gamma的增加,概率越高样本,损失值降低的幅度越大
RetinaNet Detector
Retinanet(ResNet+FPN+FCN)
理解:
Experiments
作者比较了在不同的超参数v下的CDF曲线。CDF(commulative distribution function)是将所有的loss进行归一化之后按照从小到大排序,横坐标代表loss数量的比例,纵坐标代表已有的loss相加占总loss的比例,该曲线越弯曲,代表loss之间的差别越大,即说明难学的样本(loss大)在总loss中的权重更大,从而可以更好地指导梯度下降的方向。从上面两个图可以看出,增加v都会使得CDF曲线变得弯曲,特别是对于background,这种效果更为明显,这也验证了backgroud中存在大量容易学习的样本。
1、RPN、FPN
2、置信度
3、5fps:一秒五张图片
6、AP:mAP