深度学习论文翻译 -- YOLO-V4

本文翻译为目标检测论文系列:YOLO-V4, Optimal Speed and Accuracy of Object Detection: Optimal Speed and Accuracy of Object Detection
论文链接:https://arxiv.org/abs/2004.10934


Abstract

深度学习论文翻译 -- YOLO-V4

目前为止,有大量的技巧(features)可以提升卷积网络的精度。所以,有必要在大的数据集上对这些技巧进行组合测试,以及结果上的理论证明。一些技巧专门针对特定的模型和专门针对特定的问题,或者只是针对小的数据集。我们假设的通用性的技巧包括 Weighted-Residual-Connections(WRC),Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation.我们使用新的技巧:WRC,CSP,CmBN,SAT,Mish activation,Mosaic data augmentation,CmBN,DropBlock regularization,and CIOU loss,以及联合其中的一些技巧,达到*的结果:在COCO数据集上,43.5% AP(65.7%, A P 50 AP_{50} AP50),在Tesla V100上达到65FPS.

主要内容:

  1. 本文主要是应用当前卷积网络的技巧组合,来达到*的目标检测系统。
  2. 相关的技巧包括,
    加权残差连接(Weighted-Residual-Connections,WRC)
    跨阶段部分连接(Cross-Stage-Partial-connections ,CSP)
    跨小批次归一化(Cross mini-Batch Normalization,CmBN)
    自对抗训练(Self-adversarial-training,SAT))
    Mish**函数
    Mosaic 数据增强
    随机丢弃模块正则化(DropBlock regularization)
    CIoU损失

1. Introduction

深度学习论文翻译 -- YOLO-V4

大部分基于CNN的目标检测系统主要用于目标检测系统。比如,通过城市的视频摄像头的数据,以及缓慢、高精度的模型来推荐停车位置,然而快速、低精度的模型会让车面临碰撞提醒。因此,改善实时模型的精度不仅有利于推荐系统,而且能够离线的进行决策,并减少人工的数量。能够运行在普通GPU设备上的实时目标检测系统是能够负担的。但是,目前精度最高的神经网络不能够实时,而且需要大量的GPU才能训练大的批次。我们期望解决这个问题,也即是将CNN实时的运行在普通的GPU设备,并且训练过程中只需要一块普通的GPU。

深度学习论文翻译 -- YOLO-V4

该工作的主要目标是设计出快速的目标检测系统,并进行并行运算优化,而不是低计算效率的理论值。我们希望设计的网络容易训练和使用。比如,任何人可以使用普通的GPU训练,测试可以达到实时,高质量,高精度的结果,图1给出了评测结果。我们主要的贡献如下:

  1. 我们提出强大且有效的目标检测模型。可以使用1080Ti或者2080Ti的GPU训练出快速且精度高的模型。
  2. 我们在训练检测器的过程中,充分验证了目标检测中特定方法的影响。
  3. 我们修改了*的目标检测方法,使得它们更加有效,并且适合单GPU训练,包括CBN,PAN,SAM等。

主要内容:

  1. 作者希望提出的目标检测系统,可以再普通的单个GPU上训练,并且能够达到实时,且精度高,(简单说就是普通玩家可以训练)。
  2. 以及上述的本文贡献。

深度学习论文翻译 -- YOLO-V4


2. Related Work

2.1. Object detection models

深度学习论文翻译 -- YOLO-V4

当前的目标检测器通常包含2个部分:ImageNet上训练的主干网络(提取特征)和用于预测对象类别和边框的头部(head)。运行在GPU上的模型的主干网络(backbone)通常包括VGGResNetResNeXt 或者DenseNet等,CPU上的网络包括MobileNetShuffleNet等。至于头部网络通常分为2类,比如一阶段(one stage)和二阶段(two stage)检测器。常见的2阶段检测器是R-CNN系列,比如R-CNNFaster R-CNNR-FCNLibra R-CNN等。还有基于 anchor-free的2阶段检测网络,比如RepPoints. 对于一阶段网络,比如YOLO系列,SSDRetinaNet等。最近几年,基于 anchor-free的一阶段检测器也被开发,比如CenterNetCornerNetFCOS等。最近今年,目标检测器的研究方向通常是在主干网络和头部模块之间添加一些层,通常用于将不同阶段的特征图收集。我们称之为目标检测网络的颈部特征(neck)。通常情况下,颈部包括自下而上(bottom-up)路径和几个自上而下(top-down)的路径。比如特征金字塔网络(FPN),路径组合网络(PAN),BiFPN,NAS-FPN。