Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

Y uxi Li1
[email protected]
Jiuwei Li2
[email protected]
Weiyao Lin1
[email protected]
Jianguo Li2
[email protected]

1Shanghai Jiao Tong University , China
2Intel Lab China

Abstract

近年来,随着深度学习的发展,目标检测技术取得了长足的进步。然而,目前大多数的目标检测方法都是资源密集型的,这阻碍了它们在很多资源受限的应用中的广泛应用,如在常开设备、电池供电的低端设备上的应用,在设计整个目标检测框架的过程中,考虑了资源和精度对资源受限使用的权衡。基于深度监督目标检测(DSOD)框架,提出了一种用于资源受限应用的微型DSOD。Tiny DSOD引入了两种创新的、超高效的体系结构块:基于depthwise密集块(DDB)的主干网和基于depthwise特征金字塔网络(D-FPN)的前端。我们在三个著名的基准(PASCAL VOC 2007、KITTI和COCO)上进行了广泛的实验,并将微型DSOD与最先进的超高效目标检测解决方案(如Tiny YOLO、MobileNet-SSD(v1和v2)、SqueezeDet、Pelee,结果表明,在所有三个指标(参数大小、触发器、精度)的比较中,微型DSOD都优于这些解决方案。例如,微型DSOD仅用0.95M的参数和1.06B的触发器就可以达到72.1%的mAP,这是目前为止资源需求如此低的最新成果。

1 Introduction

目标检测被认为是计算机视觉领域中一项关键而富有挑战性的任务,因为它是一个新的目标分类和定位的组合。随着现代深度学习技术的发展,许多基于卷积神经网络(CNN)的检测框架被提出,包括fasterr-CNN[25]、YOLO[24]、SSD[22]及其变体[4、6、12、20、23、33],大大提高了目标检测的精度。

尽管这些模型已经达到了最先进的精度,但它们大多是资源匮乏的,因为它们具有高的计算复杂度和较大的参数尺寸(或大型号尺寸))。高的计算复杂度要求计算单元具有更高的峰值触发器,这通常会增加功耗的预算。在[16]中,对速度和精度的权衡进行了广泛的研究。然而,资源不仅是计算资源,也是内存资源。大的模型大小会产生大的持久性内存需求,这不仅代价高昂,而且由于频繁的持久性内存访问,对于低端嵌入应用程序来说,功耗也很低。由于这两个限制,目前大多数的目标检测解决方案都不适合低功耗的使用场景,例如总是在设备或电池供电的低端设备上的应用。

为了缓解这种局限性,近年来许多研究致力于超高效目标检测网络的设计。例如,YOLO[24]提供了一个名为Tiny YOLO的lite版本,它将YOLO的参数大小压缩到15米,并在PASCAL VOC 2007数据集[5]上实现了超过200 fps的检测速度。squezedet[32]将基于squezenet[17]的主干网引入到YOLO框架中,以实现高效的toutonomousdriving用途。MobileNet SSD在SSD框架中采用MobileNet[13]作为骨干,在PASCAL VOC 2007数据集上生成的模型只有5.5M的参数和1.14B的计算触发器。虽然这些小网络在很大程度上减少了计算资源的需求,但是小网络与全尺寸网络之间仍然存在着很大的精度差距。例如,在PASCAL VOC 2007上,从SSD(77.2%)到MobileNet-SSD(68.0%)的准确率下降了9.2%。简而言之,这些小型的检测网络远没有在资源(FLOPs和内存)和准确性之间取得良好的平衡。

我们提出了微型DSOD,致力于在资源(FLOPs和内存)和精度之间取得良好的平衡。该框架的骨*分受到了目标检测工作DSOD[28]和来自[3,13,27]的最新超高效可分离卷积网络结构的启发。DSOD[28]介绍了从零开始训练目标检测网络的几个重要原则,其中深度监控对于帮助将监控信息从丢失层反向传播到较浅层而不存在梯度消失问题是最关键的。DSOD采用DenseNet结构[14]等隐式深度监督。微型DSOD将[3,13,27]的超高效可分离反褶积合并到DenseNet中,并引入一种新的反褶积密集块(DDB)来代替DenseNet中的密集块。该设计不仅减少了对计算资源的需求,而且保留了对高效训练的隐性深层监控。在前端部分,我们尝试将成功的特征金字塔网络(FPN)[20]引入到我们的框架中,以实现从低分辨率尺度到邻域高分辨率尺度的语义信息的无缝融合。通过将有效的深度卷积方法引入到FPN中,我们发明了深度FPN(D-FPN)。实验证明,轻量级D-FPN前端能够显著提高检测精度。

我们提出了微型DSOD,致力于在资源(FLOPs和内存)和精度之间取得良好的平衡。该框架的骨*分受到了目标检测工作DSOD[28]和来自[3,13,27]的最新超高效可分离卷积网络结构的启发。DSOD[28]介绍了从零开始训练目标检测网络的几个重要原则,其中深度监控对于帮助将监控信息从丢失层反向传播到较浅层而不存在梯度消失问题是最关键的。DSOD采用DenseNet结构[14]等隐式深度监督微型DSOD将[3,13,27]的超高效可分离反褶积合并到DenseNet中并引入一种新的反褶积密集块(DDB)来代替DenseNet中的密集块。该设计不仅减少了对计算资源的需求,而且保留了对高效训练的隐性深层监控。在前端部分,我们尝试将成功的特征金字塔网络(FPN)[20]引入到我们的框架中,以实现从低分辨率尺度到邻域高分辨率尺度的语义信息的无缝融合。通过将有效的深度卷积方法引入到FPN中,我们发明了深度FPN(D-FPN)。实验证明,轻量级D-FPN前端能够显著提高检测精度。

我们进行了大量的实验,以验证在不同数据集(如PASCAL VOC[5]、KITTI[7]和COCO[19])上微DSOD的有效性。结果表明,我们的TinyDSOD在资源(FLOPs和memory)和准确性之间取得了更好的平衡。例如,在PASCAL VOC2007上,微型DSOD的平均精度(mAP)为72.1%,只有0.95M的参数和1.06B的运算速度。据我们所知,这是第一个能够在参数小于1.0米的情况下实现大于70%mAP的检测模型。事实上,在三个比较基准数据集(VOC 2007,KITTI,COCO)对所有三个评估指标(准确性、参数大小、失败次数)的评估。与最小的DSOD模型[28]相比,微小的DSOD将参数大小减少到1/6左右,计算触发器减少到1/5,精度仅下降1.5%。本文的贡献总结如下:

• We propose depthwise dense block (DDB), a novel and efficient network structure to
combinedepthwiseseparableconvolutionwithdenselyconnectednetworks(DenseNet)
for ultra-efficient computer vision usages.

• We propose D-FPN, a novel and lightweight version of FPN [20], to fuse semantic
information from neighborhood scales for boosting object detection accuracy.

• We design the ultra-efficient object detector Tiny-DSOD for resource-restricted usages
based on the proposed DDB and D-FPN blocks. Tiny-DSOD outperforms state-of-the-
art ultra-efficient object detectors such as Tiny-YOLO, SqueezeDet, MobileNet-SSD,
etc in each of the three compared benchmark datasets (VOC 2007, KITTI, COCO) on
all the three evaluation metrics (accuracy, parameter-size, FLOPs).

2 Related Works

最先进的目标检测网络

随着深度学习的快速发展,近年来提出了多种基于CNN的目标检测框架。它们一般可分为两类:基于单阶段的方法和基于两阶段的方法。

典型的两阶段方法包括R-CNN[9]、快速R-CNN[8]、快速RCNN[25]和R-FCN[4]。早期的方法如R-CNN[9]和Fast R-CNN[8]利用外部区域建议生成算法如[31]来生成区域建议候选并对每个候选区域执行分类。后一种方法引入区域建议网络(RPN)来生成区域建议,并将分类、包围盒回归等RPN和前端模块集成到一个端到端训练框架中。这种方法精度高,但计算量大,处理速度慢。

相反,SSD[22]和YOLO[24]等典型的单阶段方法在一个或多个特征映射上应用不同比例/大小的预定义滑动默认框,以实现速度和精度之间的权衡。这种方法通常比两阶段的方法快,但比基于两阶段的方法精度低。

此外,所有这些检测框架都以更好的骨干网(如ResNet[11]或VGG-16[29])作为特征抽取器,实现了更好的检测精度,该特征抽取器参数化程度高,占用了大量的计算资源。

轻量级目标检测网络

在[16]中,对速度和精度的权衡进行了广泛的研究。然而,资源不仅是计算速度的代价,也是内存资源的代价。近年来,人们致力于为资源受限的目标检测设计高效的小型网络。SqueezeNet[17](一个简单版本的inception[30]结构称为Fire module)为基础的主干最近被引入到现代的单级高效检测框架中[32],在PASCAL VOC 2007和KITTI[7]上取得了可比的结果。例如,在PASCAL VOC 2007上,基于挤压网的SSD仅用5.5M的参数和1.18B的计算触发器就实现了64.3%的mAP。

同时,深度可分卷积[3,13,27]在一般的图像分类任务中表现出很好的参数和计算效率。它还被引入到SSD框架中,作为一个主干用于目标检测,并被命名为MobileNet-SSD[13]。在PASCAL VOC 2007上,MobileNet-SSD仅用5.5M的参数和1.14B的浮点运算就实现了68.0%的映射。

Pelee[26]利用双向密集连接结构来减少计算消耗,同时保持移动应用的检测精度。

尽管如此,在高效而微小的网络和全尺寸网络之间仍然存在着很大的精度差距。例如,tiny YOLO在PASCAL VOC 2007上可以达到57.1%的mAP,而YOLOv2[23]在相同的设置下可以达到78.6%的mAP。SqueezeNet-SSD 和MobileNet-SSD在PASCAL VOC 2007上分别达到64.3%和68.0%的mAP,而在相同的设置下,full SSD达到77.2%的mAP。这一发现启发我们,在设计目标检测网络时,仍有很大的空间在资源(FLOPs和内存)和精度之间实现更好的权衡。

3方法

我们的目标是设计一个面向资源受限用途的超高效目标检测网络。我们的检测器是基于单镜头检测器(SSD)[22]框架和深度监督目标检测(DSOD)框架[28],它由主*分和前端部分组成。我们将在下面分别阐述这两个部分。

3.1基于密集块的主干网

受DSOD[28]的启发,我们还构建了一个类似DenseNet[14]的主干,因为它更容易从零开始训练,而训练集相对较少。考虑到资源的限制,我们将超有效的深度可分卷积引入到典型的稠密块体中,并将这种新的结构单元称为深度稠密块体(DDB)

我们提出了两种类型的DDB单元,DDB-a和DDB-b,如图1所示。图1(a)中的DDB-a单元受到MobileNet-v2[27]中提出的新的反向剩余块的启发它首先将输入信道扩展到w×n,其中n是块输入信道数,w是控制模型容量的整数超参数。然后应用深度卷积,进一步用点卷积(即1×1卷积)将特征映射投影到g信道(g是DDB-a的增长率)。最后,我们使用连接将输入和输出特征映射合并在一起,而不是MobileNet-v2中的剩余加法操作[27]。DDB-a有两个超参数w和g,因此我们将其表示为DDB-a(w,g)。

DDB-A有两个主要缺陷:第一,假设L DDB-A块堆叠,堆叠结构的复杂性为O(L3G2)。这意味着资源消耗相对于L的增长很快,因此即使将几个DDB-a叠加在一起,我们也必须将增长率g控制在一个较小的值。然而,小增长率g会损害整个模型的判别能力。其次,DDB-a将压缩的(aka 1×1卷积投影)特征映射串联起来,使得在两个相邻的DDB-a单元内存在连续的1×1卷积。这种处理会在模型参数之间引入潜在的冗余。

考虑到这一点,我们设计了另一种类型的深度密集块DDBb,如图1(b)所示。DDB-b首先将输入信道压缩到生长速率g的大小,然后进行深度卷积。在不增加1×1投影的情况下,深度卷积的输出直接连接到输入端。L堆叠DDB-B块的总体复杂度为O(L2G2),小于DDB-A。我们将在第4.2节中进一步验证DDB-B不仅效率更高,而且在相似资源约束下比DDB-a更精确。因此,我们选择DDB-b作为基本单元来构建我们最终的骨干子网结构。

表1显示了我们骨干网的详细结构。每个卷积层之后是一个批处理规范化和一个ReLU层。提取器部分有四个DDB级,每个DDB级包含几个DDB块,然后是一个过渡层,用于融合最后一级的信道信息,并压缩信道数以进行计算和参数效率。我们在[15]中也采用了变分增长率策略,通过将较小的g分配给具有较大空间大小的较浅阶段,并且当阶段变深时线性增加g。这将有助于节省计算成本,因为较浅阶段的大空间大小通常会消耗更多的计算量。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

表1:微型DSOD骨干结构(输入尺寸3×300×300)。在“组件”列中,块名后面的符号“*”表示块重复在符号后面给定的次数。 

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

图1:深度密集块(DDB)图解。图中显示了两种类型的DDB。在矩形中,“S”表示卷积的步长,“C”表示输出信道的数目。连接节点下的数字(绿色C带圆圈)表示连接后的输出通道数。(a)用生长速率g参数化的DDB-a叠加,用生长速率g参数化的DDB-b叠加。

3.2基于FPN的深度前端

SSD和DSOD的简单结构前端存在浅层预测层缺少对象语义信息的局限性。为了克服这个问题,我们借鉴了文献[6]和[20]中的特征金字塔思想,在预测器中设计了一个称为depthwise-FPN(DFPN)的轻量级FPN,将信息流从较深、较小的特征映射重新定向到较浅的特征映射。图2说明了我们的前端预测器的结构,它由一个下采样路径和一个反向上采样路径组成。在许多研究中,反向路径被证明对小目标检测非常有用[6,20,33]。然而,这些工作大多是通过反褶积来实现逆路径的,这在很大程度上增加模型的复杂度。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

增加模型的复杂度。为了避免这个问题,我们提出了一个成本效益的解决方案的反向路径。如图2右上角所示,我们使用简单的双线性插值层和深度卷积向上采样顶部特征映射,此操作可表示为方程式1。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

 

其中Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages是输出特征映射的第c个通道,Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages是相应的输入通道。Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages是深度卷积的第c个核,*表示空间卷积。Ω是输入特征的坐标集,s是该层中的重采样系数。Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages是可微双线性算子。 

通过元素添加,将生成的特征映射与底层相同大小的特征映射合并。我们在4.2节的实验将表明,D-FPN可以在计算量略有增加的情况下,实现相当大的检测精度提升。

4 实验

4.1实施细则

我们执行我们关于Caffe框架的工作[18]。我们的模型是从零开始训练与SGD解算器在服务器上与PASCAL TitanX GPU。我们的大多数训练策略都遵循DSOD[28],包括数据增强、规模、预测层的L2规范化[21]、默认框的纵横比、损失函数(本地化的平滑L1损失和分类的交叉熵损失)和在线硬示例挖掘策略。

4.2 PASCAL VOC2007的消融研究

设计空间探索

我们首先调查基于DDB的主干网中的设计设置。我们进行了两种类型的DDB单元的实验研究,以及不同密度阶段的生长速率设置。为了公平比较,我们遵循常见的训练集设置,我们在PASCAL VOC 07+12 trainval集上训练我们的模型,并在VOC2007测试集上进行测试。表2总结了研究结果。它表明在资源使用方面,基于DDB-b的骨干网比DDB-a的骨干网性能好得多,例如,当参数大小固定在0.90M时,基于DDB-b的骨干网的mAP比DDB-a的高7.1%(70.2%vs 63.1%),并进一步节省了0.65B的计算开销(1.03B vs 1.68B)。因此,DDB-b是我们推荐的选择,并在以下基准研究中用作标准制定。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

表2:PASCAL VOC2007试验装置的消融研究。数字序列G/g0-g1-g2-g3用于描述网络设置,其中G i是第i阶段DDB的增长率,w是DDB-a的扩展率。勾选“X”表示被评估网络(按行)采用了某种配置,否则为否。 

随着骨干网整体增长率的提高,检测精度也明显提高。同时,我们观察到资源(参数大小和浮点数)和精度(mAP)之间的权衡。从表2中的第(4)行到第(6)行,我们发现当参数大小相似时,具有相对均匀增长率的模型将具有稍好的精度。然而,如第3.1节所述,浅阶段的大增长率会产生较高的计算成本。因此,我们以配置G/32-48-64-80(第7行)为基线,因为在相同的模型大小约束下,它可以达到与最小触发器相当的精度。

D-FPN的有效性

我们进一步研究了我们的轻型D-FPN前端的有效性。通过比较表2中的最后两行,我们发现D-FPN只需增加0.03B触发器和增加0.05M参数就可以带来1.9%的性能增益。由于显著的精度提高,这种计算资源的增加是可以容忍和值得的。

运行时分析

在PASCAL VOC 2007数据集上,我们比较了微型DSOD和最先进的轻量级目标检测器的检测速度。速度是通过Nvidia TitanX GPU上的每秒帧数(fps)来测量的。为了加速推理,我们将批量规范化层的参数合并到前面的卷积操作中。结果报告在表3的“FPS”栏中。在300×300的输入下,微型DSOD可以以9.5ms(105fps)的速度处理图像,批量大小为8,比实时要求(25fps)快4.2倍,比除微型YOLO外的其他超高效探测器快。我们的微型DSOD比全尺寸DSOD快6.0倍[28],比全尺寸SSD快2.3倍[22],比YOLOv2快1.5倍。微小的DSOD仍然比微小的YOLO慢,然而,与其他检测器相比,我们的模型显示出更少的理论错误(见“错误”一栏)。原因有两方面。首先,Tiny YOLO是基于普通卷积结构(不含残差和级联),并对GPU的实现进行了定制优化。其次,我们的微型DSOD直接使用Caffe,而没有任何额外的优化,其中Caffe对于depthwise卷积的实现效率较低。我们认为,当深度卷积得到很好的实现时,我们的微型DSOD应该以更快的速度运行。此外,我们应该强调的是,我们的微型DSOD比所有相比的全尺寸和轻量化探测器具有更少的参数。请参阅表3的“#Params”列更多细节。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

 

4.3 PASCAL VOC2007基准结果

我们的模型是在VOC2007 trainval和VOC2012 trainval数据集的结合上从头开始训练的。我们使用128的小批量(经过多次迭代累积)。初始学习率设置为0.1,并除以每20k次迭代的10倍。训练迭代次数为100k,利用动量为0.1的SGD求解器对目标函数进行优化。与[28]类似,我们使用0.0005的重量衰减来避免过度拟合。我们所有的conv层和dwconv层都是用“xavier”方法初始化的[10]。

我们在表3中报告了VOC2007测试集的检测结果,其中上部的结果来自于最新的全尺寸检测模型,而下部的结果来自于轻量级检测模型。我们的微型DSOD达到了72.1%的mAP,这明显优于大多数轻量级探测器,除了DSOD最小的[28]。然而,我们的微型DSOD只有1/6的参数和1/5的触发器到最小的DSOD。当将我们的模型与最先进的全尺寸模型进行比较时,仍然存在边际精度下降。然而,微小的DSOD需要更小的持久内存来存储模型,而且计算成本也要低得多。例如,更快的RCNN[25]的精度仅比微小的DSOD高1.1%,而模型尺寸大于140倍,理论计算成本高180倍(实际上,fps速度慢10倍)。这些比较表明,微型DSOD在资源(模型大小和FLOPs)和检测精度之间取得了更好的折衷,这对于资源受限的应用非常有用。

4.4 Benchmark Results on KITTI

接下来,我们将评估我们的探测器在KITTI 2D目标检测任务中的自主驾驶使用情况[7]。与PASCAL VOC不同,KITTI数据集由1242×375的超宽图像组成。为了避免小物体的消失,我们将输入图像的大小调整为1200×300而不是300×300。此分辨率将增加探测器的触发器,但将保持良好的检测精度。按照[32]中的配置,我们将7381个图像随机分成训练集和验证集。在验证集上测试平均精度。训练的批大小设置为64。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages 

表4:KITTI 2D检测结果。每个类别下的数字(汽车、骑自行车的人、人)是相应的平均精度(AP in%)。“mAP”列是三个类别上的平均AP。请注意,由于对象类别的数量不同,此处微小DSOD的参数大小(0.85M)与VOC情况(0.95M)略有不同。

 Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

 图3:从微型DSOD输出的道路检测的kitti val集示例。每个输出边界框都被着色编码成相应的类别,并通过0.3的置信阈值进行过滤,以便可视化

我们以0.01的学习率开始我们的训练过程,因为在从头开始的训练过程中观察到损失振荡和较大的学习率。我们将学习率除以每10万次迭代2。我们的训练在60k次迭代时停止,因为训练图像的数量很小。其他设置与第4.3节中关于PASCAL VOC2007的实验相同。

验证集的结果如表4所示。我们的微型DSOD实现了77.0%mAP的竞争结果,这比squezedet[32]稍微好一点(77.0%对76.7%),而我们的模型减少了50%以上的模型参数和计算失败,并且以每图像15毫秒(64.9 fps)的更快运行速度运行,这表明在这种情况下,微型DSOD的效率更高。此外,应该注意的是,在KITTI数据集中的主要对象“cars”类别上,微型DSOD的精度最高。图3进一步说明了KITTI数据集上的一些检测示例。

4.5 COCO的基准结果

最后,我们在COCO数据集上评估了我们的方法的性能。按照常见的设置[25],我们在trainval 35k数据集上训练我们的模型,该数据集是通过从val集中排除5k图像并将剩余数据合并到80k火车集获得的,并且进一步在test dev 2015集上评估我们的检测器。批大小设置为128。对于前80k次迭代,初始学习率设置为0.1,然后在每60k次迭代后除以10。训练迭代总数为320k,其他训练配置与SSD中COCO的实验相同[22]。

试验结果汇总在表5中。微型DSOD在[email protected][0.5:0.95]度量的测试开发集上达到23.2%的mAP,优于轻量级的MobileNet SSD(v1&v2)[27]和pelenet[26],甚至优于全尺寸的YOLOv2[23]。此外,微小的DSOD具有显著的小模型比较-表中列出的所有方法。例如,最先进的全尺寸YOLOv2比微型DSOD有58倍大的型号和15.6倍多的触发器。这些比较证明,对于资源受限的目标检测应用,微小的DSOD是有效而准确的。

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

5 Conclusion

针对资源受限的应用,本文提出了一种轻量级的目标检测方法,即微型DSOD。我们通过两个创新的块:深度密集块(DDB)和深度特征金字塔网络(D-FPN),在资源(FLOPs和memory)和精度之间实现了更好的权衡。我们通过广泛的消融研究来验证所发明的块和探测器的有效性。我们在三个目标检测基准(PASCAL VOC 2007,KITTI,COCO)上将微型DSOD与最先进的轻量级探测器(如MobileNet SSD(v1&v2),squezedet,Pelee)进行了比较。结果表明,在每一个基准测试中,微型DSOD在所有三个指标(精度、触发器速度和参数大小)上都优于这些方法。特别是在PASCAL VOC 2007上,微型DSOD仅用0.95M的参数和1.14B的运算速度就达到了72.1%的mAP。到目前为止,这是资源需求如此低的最新结果。

Acknowledgement

Y uxi Li and Weiyao Lin are supported by NSFC (61471235) and Shanghai "The Belt and
Road" Y oung Scholar Exchange Grant(17510740100).

References
[1] Khalid Ashraf, Bichen Wu, et al. Shallow networks for high-accuracy road object-
detection. arXiv preprint arXiv:1606.01561, 2016.
[2] Zhaowei Cai, Quanfu Fan, Rogerio S. Feris, and Nuno V asconcelos. A unified multi-
scale deep convolutional neural network for fast object detection. In ECCV, 2016.
[3] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. In
CVPR, 2016.
[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Object detection via region-based
fully convolutional networks. In NIPS, 2016.

[5] Mark Everingham, Luc V an Gool, Christopher Williams, John Winn, and Andrew Zis-
serman. The pascal visual object classes (voc) challenge. IJCV, 88(2):303–338, 2010.
[6] Cheng Y ang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi, and Alex Berg. Dssd :
Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017.
[7] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driv-
ing? the kitti vision benchmark suite. In CVPR, 2012.
[8] Ross Girshick. Fast r-cnn. In ICCV, 2015.
[9] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierar-
chies for accurate object detection and semantic segmentation. In CVPR, 2014.
[10] Xavier Glorot and Y oshua Bengio. Understanding the difficulty of training deep feed-
forward neural networks. JMLR, 9:249–256, 2010.
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for
image recognition. CVPR, 2016.
[12] Kaiming He, Georgia Gkioxari, Piotr Dollár, et al. Mask r-cnn. In ICCV, 2017.
[13] Andrew Howard, Menglong Zhu, et al. Mobilenets: Efficient convolutional neural
networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[14] Gao Huang, Zhuang Liu, Laurens V an De Maaten, and Kilian Q. Weinberger. Densely
connected convolutional networks. In CVPR, 2017.
[15] Gao Huang, Shichen Liu, V an Der Maaten Laurens, and Kilian Q Weinberger. Con-
densenet: An efficient densenet using learned group convolutions. In CVPR, 2018.
[16] Jonathan Huang, Vivek Rathod, Chen Sun, et al. Speed/accuracy trade-offs for modern
convolutional object detectors. In CVPR, 2017.
[17] Forrest N Iandola, Song Han, et al. Squeezenet: Alexnet-level accuracy with 50x fewer
parameters and <0.5 mb model size. In ICLR, 2016.
[18] Y angqing Jia, Evan Shelhamer, Jeff Donahue, et al. Caffe: Convolutional architecture
for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
[19] Tsung Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ra-
manan, et al. Microsoft coco: Common objects in context. In ECCV, 2014.
[20] Tsung Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, et al. Feature pyramid net-
works for object detection. In CVPR, pages 936–944, 2017.
[21] Wei Liu, Andrew Rabinovich, and Alexander C Berg. Parsenet: Looking wider to see
better. arXiv preprint arXiv:1506.04579, 2015.
[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, et al. Ssd: Single shot multibox detector.
In ECCV, pages 21–37, 2016.
[23] Joseph Redmon and Ali Farhadi. Y olo9000: Better, faster, stronger. In CVPR, 2016.

[24] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. Y ou only look once:
Unified, real-time object detection. In CVPR, pages 779–788, 2016.
[25] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: towards real-
time object detection with region proposal networks. In NIPS, pages 91–99, 2015.
[26] Xiang Li Robert Wang, Shuang Ao and Charles X. Ling. Pelee: A real-time object
detection system on mobile devices. In ICLR Workshop, 2018.
[27] Mark Sandler, Andrew Howard, Menglong Zhu, et al. Inverted residuals and linear
bottlenecks: Mobile networks for classification, detection and segmentation. arXiv
preprint arXiv:1801.04381, 2018.
[28] Zhiqiang Shen, Zhuang Liu, Jianguo Li, et al. Dsod: Learning deeply supervised object
detectors from scratch. In ICCV, pages 1937–1945, 2017.
[29] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-
scale image recognition. In ICLR, 2014.
[30] Christian Szegedy, Wei Liu, Y angqing Jia, Pierre Sermanet, et al. Going deeper with
convolutions. In CVPR, 2015.
[31] Jasper RR Uijlings, Koen EA V an De Sande, Theo Gevers, and Arnold WM Smeulders.
Selective search for object recognition. IJCV, 2013.
[32] Bichen Wu, Forrest Iandola, et al. Squeezedet: Unified, small, low power fully con-
volutional neural networks for real-time object detection for autonomous driving. In
CVPR Workshops, 2017.
[33] Wei Xiang, Dong Qing Zhang, V assilis Athitsos, and Heather Y u. Context-aware
single-shot detector. In WACV, 2018.
[34] Xiang, Y u and Choi, Wongun and Lin, Y uanqing and Savarese, Silvio. Subcategory-
Aware Convolutional Neural Networks for Object Proposals and Detection arXiv
preprint arXiv:1604.04693, 2016.