【论文阅读】Gaussian YOLOv3


【ICCV2019】Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving

Abstract

FP(false positive)对无人驾驶会造成严重的后果,比如会造成不必要的刹车,这样会造成驾驶的不稳定性,本文通过在检测阶段使用the predicted localization减少FP,增加TP,从而提高准确度。
建设数据集:KITTI & BDD(Berkeley deep drive)

Introduction

无人驾驶目标检测算法应满足两点要求:

  1. 对于道路目标,例如车、行人、交通灯、交通标志等,具有高检测准确度。
  2. 实时的检测速度

问题:大多数算法尽管知道被检测物体的坐标,但是该bbox的结果的不确定性未知,结合不确定性对于降低FP非常重要。

基础:YOLOv3实时,非常适合无人驾驶,但相较于两阶段检测器准确率低。

改进:

  1. 对YOLOv3的bbox坐标进行建模,只输出确定性值作为高斯参数(均值和方差)
  2. 重新设计了损失函数

Background

主要是对YOLO系列进行描述
【论文阅读】Gaussian YOLOv3

Gaussian YOLOv3

Gaussian modeling

出发点:

  1. 对于目标检测中的分类问题,有objectness scoreclass scores来代表可能性;而对于回归问题没有可能性的表示,bbox的坐标是一个确定的输出,并没有bbox的置信度。
  2. objectness score和bbox并没有很大的依赖性,并不能代表bbox的结果有多么确定。

Because there is only one correct answer (i.e., the GT) for the bbox of an object, complex modeling is not required for predicting the localization uncertainty. In other words, the uncertainty of bbox can be modeled using each single Gaussian model of txt_x, tyt_y, twt_w, and tht_h.

用单个高斯模型代表可能性
【论文阅读】Gaussian YOLOv3
【论文阅读】Gaussian YOLOv3
均值代表了bbox的坐标,而方差代表了bbox坐标的不确定性。对于w、h来说,并没有通过sigmoid的函数,可以有正有负。

Reconstruction of loss function

GT编码:
【论文阅读】Gaussian YOLOv3
xGyGwGhGx^G、y^G、w^G、h^G是GT box相对于原图的比例;
上述所计算的offset是resize后的长和宽相对于anchor的比例;
IWIHIW、IH是resized image的长和宽;
WHW、H是特征图的长和宽;
AkwAkhA^w_k、A^h_k是第kk个anchor的长和宽。

NLL loss
通过negative log likelihood可以更好的处理训练期间的嘈杂数据(不理解)
f(x)=12πσe(xμ)22σ2f(x) = \frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^{2}}}
【论文阅读】Gaussian YOLOv3
通过上述公式,化简后的loss和之前的YOLO loss最大的区别就是引入方差,也许正是这种自适应的不确定性σ\sigma使得精度大大提高。

【论文阅读】Gaussian YOLOv3
wscalew_{scale}给不同大小的物体赋予不同的权重;
δijkobj\delta_{ijk}^{obj}当和gt box的iou最大时为1(也和YOLO系列“负责”的概念对应)

Utilization of localization uncertainty

【论文阅读】Gaussian YOLOv3
UncertaintyaverUncertainty_{aver}是所有4个坐标值不确定性的平均值,该值越高,预测框的置信度越低。方差越大代表波动越大,不确定性就越大,相应的损失也就越大。

Experimental Results

数据集

  • KITTI是无人驾驶应用最广泛的数据集,包括车、行人、骑自行车的人三类,7481个训练集,7518个测试集。
  • BDD是无人驾驶最新的数据集,包括自行车,公共汽车,汽车,发动机,人,骑手,交通信号灯,交通标志,火车和卡车总共十类,训练集:验证集:测试集为7:1:2。

In general, the IOU threshold (TH) of the KITTI dataset is set to 0.7 for cars and 0.5 for cyclists and pedestrians, whereas the IOU TH of the BDD dataset is 0.75 for all classes.

数据集使用的anchor尺度如下,由k-means算法获得:
【论文阅读】Gaussian YOLOv3
结果图
【论文阅读】Gaussian YOLOv3