【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

写在前面

该篇论文来源google, 是CVPR2019论文,是对CVPR2018论文《Mobile Video Object Detection with Temporally-Aware Feature Maps》的进一步改进;

Mobile Video Object Detection with Temporally-Aware Feature Maps》翻译:

https://blog.****.net/u014386899/article/details/102462076

Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

查找快和慢:内存引导的移动视频对象检测

摘要:

人类的视觉系统只需一秒钟的时间,就能形成一个复杂环境的丰富表现形式,从而达到整体理解的目的。目标识别和检测。这种现象被称为认识场景的“要点”,并依靠相关的先验知识来实现。本文提出了计算机视觉系统中使用内存不仅可以提高视频流中目标检测的准确性,而且减少了计算时间。通过将传统的特征提取器与非常轻量级的特征提取器(只需识别场景的要点)交织在一起,我们证明,当时间记忆存在时,需要最小的计算量才能产生精确的检测。此外,我们还表明,内存中包含足够的信息,用于部署增强学习算法来学习自适应推理策略。我们的模型在imaGenetVID2015数据集的移动方法中实现了最新的性能,同时在像素3Phone1上运行高达70+fps的速度。

1 介绍

最近在图像目标检测方面的进展遵循了一种趋势,即日益精细的卷积神经网络[16,31,33,9]设计,以提高精度或速度。虽然准确性最初是首要关注的问题,并且仍然是一个关键的指标[6,8,28,24,4,19,20],但是随着深入学习的深入,提高这些模型速度的重要性已经稳步上升。技术已越来越多地应用于实际应用中。在速度谱的另一端,已经做了大量的工作[11,30,37,25,35,13,39],使神经网络能够在移动设备上运行,而移动设备代表了一个具有极限计算和能量约束的环境。尽管有重大进展,但最终目标是能够在移动设备上实时运行神经网络,而没有大量的数据精度损失,任何单帧检测模型都还没有达到。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

图1:我们提出的内存引导交错模型的说明。给定视频流,视觉存储模块将快速和慢速特征提取器产生的非常不同的视觉特征融合到不同的帧之间,以在线方式生成检测。

然而,人类视觉系统提供的直觉是,这样的结果应该是可以实现的,因为实验表明,人类可以一目了然地处理有关场景的基本信息。其中特别包括识别几类对象[27]。人类视觉的一个关键优势是它不对单个图像进行操作,而是对一系列图像进行操作。通过在问题中引入时间维度,人类可以依赖上下文。提示和记忆,以补充他们对图像的理解。本研究研究的问题是,神经网络在记忆辅助下是否能够在很少计算的情况下执行视频对象检测。

一个关键的观察是,由于相邻的视频帧趋于相似,在多个帧上运行单个特征提取器可能会导致大部分冗余计算。因此,一个简单的想法是保留以前计算过的特征的记忆,并且只从新帧中提取少量必需的特征。这与人类视觉系统中的要点作用相似,因为两者都需要最少的计算,并且依赖于记忆。为了遵循这一思想,系统需要多个特征提取器-一个精确的提取器初始化和维护内存,而另一个则快速提取代表新图像要点的特征。

根据这些观察,我们提出了一个简单而有效的视频对象检测管道,如图1所示。具体来说,我们引入了一种新的交织框架,在不同的帧上运行两个速度和识别能力截然不同的特征提取器。这些提取器的特征用于以卷积LSTM(ConvLSTM)层的形式维护场景的公共视觉记忆,并通过将上下文与具有当前框架主旨的前一帧。此外,我们还表明,内存和GIST的结合本身包含了决定何时必须更新内存所必需的信息。我们通过将任务描述为强化学习问题来学习何时运行每个特征提取器的交错策略。

虽然先前的工作,特别是基于流的方法[41,39]也提供了基于交织快和慢网络的快速视频对象检测方法,这些方法基于 CNN-specifific的观察,即中间特征可以被光流扭曲。同时,我们的方法依赖于生物直觉,即人类视觉系统中存在快速、记忆引导的特征提取器。这种直觉自然地转化为一个不依赖光流的简单框架。我们的方法在像素3手机上运行了前所未有的72.3FPS后优化,同时在Imagenetvid 2015基准上匹配最先进的移动性能。

总之,本文件的贡献如下:

  • 我们提出了一种内存引导的交织框架,在不同的帧上运行多个特征提取器,以减少冗余计算,并且它们的输出使用公共内存模块进行融合。
  • 我们引入了一种自适应交织策略,其中执行特征提取器的顺序是使用Q-学习来学习的,这将导致更高的速度/精度折衷。
  • 我们展示了设备上最快的移动视频检测模型到目前为止,在高精度水平上.

2 相关工作

近年来,视频目标检测得到了广泛的关注。现有的检测方法主要是利用视频的时态特性来提高检测的准确性和速度,从而扩展单个图像的检测方法。这些方法大致可分为三个家庭。

2.1.后处理方法

将单个图像检测扩展到视频域的初始工作通常以后处理步骤为中心,该步骤将每帧检测连接在一起形成跟踪和检测可信度。S是根据轨道中的其他检测来修改的。SEQ-nms[7]通过动态规划找到轨道,增强了对较弱预测的信心。TCNN[14,15]提供了一条具有光流的管道,用于在帧间传播检测信息,并提供了一种跟踪算法,用于寻找用于重新取心的管束。这些早期的方法带来了相当大的性能改进,但并没有从根本上改变底层的每帧检测过程,从而限制了它们的有效性。

2.2.特征流方法

稍后,朱等人。[41]发现卷积神经网络中的中间特征可以通过光流在视频帧间直接传播。DFF框架[41]证明了计算稀疏关键帧上的检测和通过计算光流(即实质)在所有其他帧上执行特征传播是足够的,这要节省得多。FGFA[40]表明,如果每帧检测被密集计算,而相邻帧的特征被扭曲到当前帧并聚集起来,则这一思想也可用于提高精度。印象网络[10]通过使用稀疏的关键帧来平衡速度和准确性,但保留了一个“印象特征”,该特征被聚集在关键帧之间,并存储长期的时间信息。朱等人的进一步工作。[38]引入了高效的特征聚合以及翘曲后的特征质量度量,用于改进关键帧的选择和稀疏地替换糟糕的翘曲特性。

这一范式也被应用于移动视频对象的检测中,这与本文的研究特别相关。在[39]中,在具有非常高效的特征提取器和流网络的GRU模块上使用了流引导特征传播,以证明基于流的方法在计算受限的环境中是可行的。 我们的工作也适用于移动环境,但是通过交织专门的特征提取器而不是使用流来传播特征,我们消除了对光流的依赖,因此需要光学流培训数据和额外的光流预培训阶段。

2.3.多帧法 

第三类视频对象检测方法涉及同时显式处理多个视频帧的方法。D&T[5]将检测和跟踪结合起来,增加了ROI跟踪操作和对帧的丢失,而STSN[2]使用可变形的卷积来对相邻帧的特征进行采样。Chen等人[3]建议使用刻度时间格以粗到细的方式产生探测。虽然D&T和Chen等人的方法可以通过采样稀疏关键帧和将检测结果传播到中间帧来提高检测速度,但这些工作仍然集中在高精度的检测上。在移动环境中推广应用是非常重要的。我们的方法还从每个帧中提取特征,而不是从关键帧中完全传播结果,这允许访问更多的信息量。

2.4.自适应关键帧选择 

在稀疏处理视频时,有多种选择关键帧的方法。这些方法从固定间隔[41,39]到启发式[38,17]到学习的政策[18,26,32,12,36]不等。这些工作大多涉及语义分割和跟踪问题,以及自适应关键帧选择在视频对象检测中的探索较少。我们提出了一种不同的公式,用于通过利用我们的存储模块中包含的信息来构建学习的自适应策略,创建完整且有原则的检测管道。 

3.方法

3.1 交错模型

本文讨论了视频对象检测的任务。对于此任务,我们必须在视频【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的每个帧上生成帧级边界框和类预测。IN}。我们进一步将任务限制在线设置上,即当生成第k帧的检测时,只有【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection是可用的。 本文的主要贡献是一个交错的模型框架,其中多个特征提取器相继或同时运行。然后,使用内存机制对这些帧级功能进行聚合和细化。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

 图2:使用τ=2的固定交织策略,演示了使用重型和轻量级特征提取器的拟议交错模型。

最后,我们将ssd风格的[24]检测应用于改进的特征,以产生包围盒的结果。

这些步骤中的每一个都可以定义为一个函数。设m个特征提取器为fi:【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,将图像空间映射为【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection中的特征空间。存储器模块m:【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,将特征从 f 和内部状态表示映射到普通的、精化的特征空间,同时输出更新的状态。SSD检测器d:【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection将经过改进的特征映射到最终的检测锚预测。

多特征提取器的使用有几个优点。不同的特征提取器可以对不同的图像特征进行专门化,从而产生一种时间上的集合效果。由于我们专注于移动设置,所以我们研究了特征抽取器具有显著不同的计算成本的情况,这极大地降低了模型的运行时间。特别是,本文的其余部分重点讨论了m=2的情况,其中f0优化了精度,f1优化了速度。

若要获得第k帧上的检测结果【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection(给定前帧的状态【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection),请运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection以获得特征映射【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection和更新的状态【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。然后,【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。 这在图2中示出。注意:运行任何特征提取器(即,选择任何有效的I)将产生有效的检测结果,但是检测的质量和更新的状态表示离子会变化。一个关键的问题是找到一个交错策略,这样我们的方法的摊销运行时类似于【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,同时保持了只运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的准确性。一个简单的固定交织策略包括定义超参数τ、交织比和在【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection运行τ之后运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。尽管我们发现即使这个简单的策略也能取得有竞争力的结果,但我们也在3.4节中提出了一个更先进的学习策略。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的架构是标准Mobileenetv2[30],深度乘数为1.4,输入分辨率为320或320。【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection还使用具有0.35的深度乘法器的Mobileenetv2架构,并且160或160的输入分辨率降低。我们去掉最后一步卷积上的步幅,使输出尺寸与之匹配。SSDLite层类似于[30],不同之处在于SSD特征映射有一个恒定的通道深度为256,并且共享相同的卷积盒预测器。我们还将锚的纵横比限制为{1,0.5,2.0}。

3.2.内存模块

我们的方法需要一个内存模块,用于跨时间步骤从两个提取器聚合特征,特别是在以前的时间上下文中增强来自小型网络的特性。尽管刘和朱(22)证明了lstms可以用来传播时间信息以进行目标检测,但我们的内存模块还可以将不同特征的特征融合起来。提取器和特征空间,提出了一个额外的挑战。此外,我们要求这种机制非常快,因为它必须在所有帧上执行。为此,我们修改了LSTM单元,以更快和更好地保持长期依赖关系。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

图3:一组我们SpeedOptimizedLSTM单元的详细说明。对于G组的每一个执行所示的操作一次。 

 为了提高标准LSTM的速度,我们做了三次修改。我们采用了[22]中提出的瓶颈问题,并在瓶颈和输出之间增加了一个跳过连接,使瓶颈成为输出的一部分。我们还将LSTM状态划分为组,并使用分组卷积分别处理每一组。给定以前的状态【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection和输入特性映射【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,我们将状态通道按顺序划分为G相等的分区【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。我们将每个分区与【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection连接,并计算瓶颈LSTM门【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection(如在[22]中)。更新后的LSTM状态【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection也以相同的方式计算,但现在只是最后更新状态的切片。我们通过跳过连接生成输出片:

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

其中括号表示级联。最后,将片通道连接起来,以获得【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。如图3所示。分组卷积提供了以稀疏层连接加速的功能,而跳过连接允许在不存储内存的情况下将与时间无关的特性包含在输出中。这减少了内存的负担,并允许我们缩小状态维度,而如果状态太小,其他LSTM变体的精度会大幅下降[22]。在我们的模型中,我们选择G=4并使用320通道状态。我们修改的LSTM的速度优势详见表1。

我们还注意到lstm的一个固有弱点是它无法在实践中通过更新完全保存其状态。输入和遗忘门的sigmoid **很少完全饱和,导致长期依赖关系逐渐消失的缓慢状态衰变。当复合许多步骤时,除非【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection重新运行,否则使用【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的预测会降低。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

表1:具有递归层的MobilenetV 2-SSDLite的性能,如[22]所示。每个RNN变体都有一个1024通道的输入和640个通道的输出[email protected]被报告在Imagenet VID的一个子集上每个视频中包含20个帧的随机序列的验证。Mac只包含RNN中的乘法添加。

我们提出了一个解决这个问题的简单方法,就是在F1运行时跳过状态更新,即上次运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection时的输出状态总是被重用。这大大提高了lstm在长序列之间传播时间信息的能力,即使【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection只运行数十个步骤,也会造成最小的精度损失。

3.3.训练程序

我们的培训程序分为两个阶段。首先,我们在ImaGenet分类上预先训练我们的交错模型,而无需检测层,以获得LSTM权重的良好初始化。为了适应网络的分类,我们删除检测层d,在lstm之后立即添加一个平均池和完全连接的层,然后是Softmax分类器。在训练过程中,我们重复每个帧三次,并将LSTM展开为三个步骤。在每一步,我们一致选择一个随机特征提取器运行。

接下来,我们进行SSD检测训练。再一次,我们将LSTM展开为六个步骤,并在每个步骤中均匀地选择一个随机特征提取器。我们训练混合视频和图像数据。对于图像数据,我们通过在每一步裁剪特定区域并在步骤之间移动以模拟ord中的翻译和缩放来增强图像。帮助该模型学习运动与盒位移之间的关系。否则,训练程序类似于标准SSD[24]。我们使用的批处理大小为12,学习率为0.002,余弦衰减。

3.4.自适应交织策略

 虽然简单的交织策略已经取得了有竞争力的效果,但一个自然的问题是,是否有可能对交织策略进行优化以进一步提高效果。提出了一种利用强化学习自适应交织策略的新方法。关键的观察是,为了有效地帮助较小的网络,内存模块必须包含一定程度的检测信心,我们可以利用它作为交错政策的一部分。因此,我们构建了一个策略网络,它检查LSTM状态并输出下一个特征提取器运行,如图4所示。然后,我们使用双Q-Learnin对策略网络进行训练。G(DDQN)[34]。

对于一个强化学习问题,需要定义一个动作空间、一个状态空间和一个奖励函数。动作空间由m个动作组成,其中动作a对应于在下一个时间步骤运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。我们将状态表示为:

 【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

 它包括当前的LSTM状态【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,以及它们在当前步骤【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection期间的更改。我们还添加了一个动作历史术语【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,因此策略网络知道它以前的操作,可以避免过多地运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。动作历史是长度为20的二进制向量。对于所有k,如果【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection在k步前运行,则【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的第k项为1,否则为0。

我们的奖励功能必须反映我们的目标,在尽可能频繁地运行【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection之间找到一个平衡,同时保持准确性。因此,我们将奖励定义为速度奖励和准确性奖励的总和。对于速度奖励,我们只需定义一个正常数γ,并在【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection运行时给出γ奖励。为了获得精度奖励,我们计算了每个特征提取器运行后的检测损失,并取最小损失特征提取器和所选特征提取器之间的损失差。R.最后报酬可表述为:

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

其中【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection表示使用【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection特征检测【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的损失。

我们的策略网络是一种轻量级卷积神经网络,它可以预测给定状态下每个状态-动作对的Q值。我们首先使用S中四个特征映射中的每一个作为单独的组来执行分组卷积。然后,我们进行深度可分卷积,并使用最大池去除空间维数。最后,我们将动作特征向量连在一起,并应用一个完全连通的层来获得m个输出,即每个状态-动作对的Q值。该体系结构如图4所示。

为了训练策略网络,我们通过在推理模式下运行交错网络来生成批量【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection示例。虽然整个系统有可能是端到端的训练,但我们简化了训练过程,在基本交错模型中使用预先训练过的权重,并冻结策略网络之外的所有权重。在获得批处理示例后,我们使用标准DDQN和经验回放,如[34]所述。训练过程详见算法1。【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

3.5推理优化

我们探索了另外两个面向实际使用的优化,它们是我们的方法的三倍帧速率,同时保持了精确性和部署的方便性。

异步推理

基于关键框架的检测方法的一个问题是,它们只考虑平摊运行时(amortized runtime)。但是,由于这些方法在关键帧上执行大量的计算,因此跨帧的延迟非常不一致。当最坏情况下考虑在单帧上的运行时,这些方法并不比单帧方法快,限制了它们在实际设置中的适用性。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

Li等人[17]通过并行运行网络来解决语义视频分割中的这个问题。同样,交错的框架自然地建议了一种异步推理方法,它可以消除平摊运行时和最坏运行时之间的差距,从而使我们的方法能够在移动设备上的实时设备。

当同步运行交错模型时,每个时间步骤都会运行一个特征提取器,因此最大的潜在延迟取决于【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection。但是,通过在单独的线程中运行特性提取器(我们称之为异步模式),这个过程很容易并行。在异步模式下,【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection在每一步运行并独占地用于生成检测,而【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection则继续运行每个【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection帧,并在完成时更新内存。轻量级特性提取器在每一步都使用最新的可用内存,不再需要等待更大的特性提取器运行。如图5所示。

量子化

依赖多个特征提取器而不是光流的另一个好处是,标准的推理优化方法可以在最小变化的情况下应用。特别地,我们证明了我们的交织框架可以用[13]中的模拟量化训练过程来量化。TensorFlow[1]量化库用于MobileNet和SSDLite层的out-of-the-box。对于LSTM,在所有数学运算(加法、乘法、Sigmoid和ReLU6)之后插入假量化操作,遵循[13]中的算法1。**后的范围被固定为[0,1]用于sigmoid,[0,6]用于ReLU6,以确保零是完全可表示的。我们还确保级联操作的所有输入的范围是相同的,以消除重新标度的需要(如A.3所述)。[13]).在Pixel 3手机上,我们的最终量化异步模型运行在72.3FPS,是未优化模型的三倍以上。

4.实验

我们在ImagenetVid 2015数据集[29]上展示了结果,该数据集包含30个对象类。在训练方面,我们使用Imagenet VID培训数据和来自Imagenet Det[29]和Coco[21]培训集的相关课程,共计3862个视频,147 K图像来自Imagenet Det,43K图像来自COCO。我们还提供了没有Coco数据的结果,因为[39]不包括它,尽管它们在附加的光学流数据上进行训练。为了进行评估,我们使用imaGenetVID验证集中的555个视频。

4.1.Imagenet VID结果

表2包含了Zhu等人的单帧基线、基于LSTM的方法和最新的移动视频对象检测方法的结果的比较[39]。我们在我们的合并数据集(包括COCO数据集)上使用公开可用的代码[23]对基于LSTM的[22]模型进行再训练。我们使用TensortFlowLite[1]在Pixel 3 phone中部署我们的模型,在0.5IOU的地图上报告精度、多加计数(MAC)形式的理论复杂性和实际运行时间。该方法将最精确的基于流的移动模型的精度与COCO数据相匹配,即使没有COCO数据,也达到了可比较的精度。我们的模型都不需要任何光学流数据,而[39]也在训练期间使用具有22K示例的Flying Chairs 数据集。我们的方法也具有相当的理论复杂性,但包含的参数要少得多。

我们的自适应模型在4.3节中有详细的讨论,但是我们包含了一个变体(γ=1),它成功地降低了【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的运行频率,同时保持了准确性,虽然它不太适合量化。我们的推论优化了帧速率的三倍,精度较小,从而使我们的方法在实践中运行得更快。尽管使用不同的phone测量了[39]的运行时间并且不直接比较,但是说我们的推断优化方法在移动台上提供了前所未有的实时运行时间是安全的设备。

我们还包括仅在我们的交错框架中运行大和小模型的结果(即,【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection = 0和【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection)。我们的结果表明,两个特征提取器都能够单独执行检测,但是【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection在没有由【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection提供的时间上下文的情况下执行得非常差。这证明了融合两种模型的特性以创建一个快速和准确的检测器的必要性,以及我们的内存引导框架在这样做时的有效性。

4.2.速度/精度权衡

该方法通过改变交织比【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection,提供了一种在速度和精度之间进行折衷的简单方法。图6用不同的关键帧持续时间绘制了我们的模型的精度,并与朱等人的方法进行了比较。在从【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection=1到【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection=39的所有交错模型中,都观察到了3.75MAP的下降。同时,在只将关键帧持续时间增加到20之后,基于流的方法至少减少了4.5个mAP。.值得注意的是,一些其他工作[5,3]已经观察到可以在Imagenetvid上使用多种方法处理帧,表明中等比率的交错并不是很困难的。然而,即使在极高的交织比下,我们的方法也会导致精度下降,这表明我们的记忆引导检测方法在捕捉长期时间动态方面有优势。视频所固有的。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

表2:ImagenetVID验证集的结果。我们所有的非自适应模型都使用固定的交织策略(τ=9)。α是[11]中描述的特征提取器宽度乘数,而β是流网络宽度乘法器。*朱等人用华为Mate8手机报告的实时结果,其余的则在Pixel3手机上报告。†异步推理的有效MAC(84)对于每个帧,仅包括【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection加上LSTM和SSDLite检测层,而190是包括【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的平摊MAC。 

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

图6:流引导方法与内存引导方法的速度/准确性比较.

4.3.强化学习

我们在图7中给出了各种学习交织策略的结果。我们可以通过调整速度奖励γ(γ∈{1.5、1.0、0.4、0.3、0.2、0.1})来改变【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection的运行频率。自适应策略在所有百分比都优于固定策略,尤其是当可以运行更多的大型模型时。此改进是以可忽略的成本为89.6K额外参数和来自策略网络1.76M乘加操作来实现的。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

图7:固定和自适应交织策略之间的速度/准确性权衡比较。

图8显示了训练期间预测的Q值、mAP【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection跑百分比的变化。值得注意的是,mAP达到一个恒定值,而q-值稳定增加,交织比(百分比)下降。这一观察表明,政策网络逐渐学会如何使用小模型,而不损害整体准确性。图9可视化了Imagenet vid验证集上的自适应策略,按大型模型运行的频率排序。当对象在简单的场景中频繁运行时,学习的策略往往会花费更多的计算量,从而展示了这种方法相对于固定政策的优点。

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

图8:在RL训练期间,q值、地图和f0运行百分比。蓝色曲线对应于训练和红色曲线的评价。x轴是训练迭代的次数.

【论文翻译】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

图9:在Imagenetvid验证上为特征提取器选择学习的自适应策略的可视化(最好在颜色中查看)。策略运行大型模型的框架在红色Red.剪辑按大型模型触发的频率排序。场景复杂度相应增加,表明策略智能分配计算。

5.结论

提出了一种将多个特征提取器交织在一起,并在内存中聚集其结果的视频对象检测方法。通过将极其轻量级的特征提取器与传统的特征提取器交织在一起,构造了一个适合于计算受限环境的优化模型。内存模块的存在使得性能较差的轻量级特征提取器能够以最小的精度损失频繁地运行。我们还提出了一种利用强化学习来学习交织策略的方法。我们证明,在移动视频目标检测方面,我们的方法在速度优势和消除对光流的依赖性的同时,与现有的移动视频目标检测技术具有很强的竞争力。在移动环境中部署它是有效和直接的。