【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

Flow-Guided Feature Aggregation for Video Object Detection

用于视频对象检测的流引导特征聚合

译文:

摘要:

将最先进的对象探测器从图像扩展到视频是一个挑战。检测的准确性受到视频中物体外观退化的影响,如运动模糊、视频散焦、姿态罕见等。现有的工作试图利用box level的时间信息,但这些方法没有经过端到端的训练。我们提出了一种用于视频目标检测的精确的端到端学习框架——流引导特征聚合。相反,它利用了特性级别上的时间一致性。通过对运动路径上的邻近特征进行聚集,改进了每帧特征,从而提高了视频识别的精度。我们的方法在ImageNet VID[33]中强大的单帧基线的基础上得到了显著的改进,特别是对于更具挑战性的快速移动的对象。我们的框架是有原则的,可以与2016年赢得ImageNet VID挑战的最佳工程系统相媲美,没有额外的警告。代码将被发布。

1,介绍

近年来,在目标检测方面取得了很大的进展。最先进的方法共享一个类似的两阶段结构。首先利用深度卷积神经网络(CNNs)[22,36,40,14]在整个输入图像上生成一组特征映射。浅探测专用网络[13、10、30、26、5]根据特征图生成检测结果。

这些方法在静态图像中取得了很好的效果。然而,直接将它们应用于视频对象检测是一个挑战。识别精度受到恶化对象出现在视频,很少观察到静态图像,如运动模糊、视频散焦,罕见的姿势,等(见一个例子在图1和图2)。在量化实验,先进的stillimage对象探测器(R-FCN [5] + resnet - 101[14])恶化非常快速移动对象(表1 (a))。

然而,该视频包含了关于同一对象实例的丰富信息,通常在短时间内可以在多个快照中观察到。现有的视频对象检测方法[18,19,12,23]简单地利用了这些时间信息。这些方法首先在单帧中应用目标检测器,然后在专用的后处理步骤中跨时间维装配检测到的边界盒。这一步依赖于离轴的运动估计,如光流,手工制作的边界盒关联规则,如对象跟踪。一般情况下,这种方法只能处理质量一般的单帧检测盒,不能提高检测质量。性能的提高来自于启发式的后处理,而不是有原则的学习。没有端到端的培训。在这项工作中,这些技术被称为盒级方法。

我们试图更深入地研究视频对象检测。利用时间信息,有原则地提高检测和识别的质量。基于图像识别[11]的成功,我们提出了一种基于时间聚合的帧特征学习方法。请注意,由于视频运动的原因,同一对象实例的特征通常不会跨帧进行空间对齐。简单的特性聚合甚至可能会降低性能,如表1 (b)所述。这表明在学习过程中对运动进行建模是至关重要的。

在这项工作中,我们提出了流导向特征聚合(FGFA)。如图1所示,将特征提取网络应用于各个帧,以生成每帧的特征图。为了增强参考帧的特征,光流网络[8]估计了附近帧与参考帧之间的运动。根据流的运动,将邻近帧的特征映射扭曲到参考帧。利用自适应加权网络对变形后的特征图及其自身在参考坐标系上的特征图进行聚类。然后将得到的聚合特征图反馈给检测网络,在参考帧上产生检测结果。特征提取、流量估计、特征聚合、检测等模块都是经过端到端训练的。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

图1所示。说明FGFA(流程引导的特征聚合)。对于每个输入帧,都可以可视化一个对cat敏感的特征映射。参考帧t处的特征**率较低,导致在参考帧中检测失败。相邻的t-10和t + 10帧具有较高的**度。在FGFA之后,改进了参考帧处的地物图,并成功地对其进行检测。

与box level方法相比,我们的方法工作在特征级,执行端到端学习,是互补的(例如,Seq-NMS[12])。它改进了perframe特性并生成高质量的边界框。可以通过box-level方法进一步细化这些框。我们的方法是在大规模的ImageNet VID数据集[33]上进行评估的。严格的消融研究证实了该方法的有效性,并在强单帧基线的基础上进行了显著的改进。与box-level方法的结合产生了进一步的改进。我们报告的目标检测精度与赢得ImageNet VID挑战的最佳工程系统相当,没有附加的风铃响(例如,模型集成、多尺度训练/测试等)。

此外,我们还根据物体运动幅度进行了深入的评价。结果表明,快速运动的物体远比慢速运动的物体更具挑战性。这也是我们的方法获益最多的地方。该方法能够有效地利用快速运动物体的各种快照中丰富的外观信息。

2,相关工作

从图像中检测目标。一般目标检测方法[10,30,26,5]主要基于深度CNNs[22,36,40,14]。在[11]中,提出了一种称为卷积神经网络(R-CNN)的多级管道,用于训练深度CNN对目标检测的区域建议进行分类。为了加快速度,在SPP-Net[13]和Fast R-CNN[10]中,将ROI池引入到整个图像共享的feature maps中。在Faster R-CNN[30]中,区域建议由区域建议网络(RPN)生成,RPN与Fast R-CNN共享特征。最近,RFCN[5]将中间特征图上的ROI池操作替换为最终得分图上的位置敏感性ROI池操作,将特征共享推向极致。

与这些静态图像对象检测方法相比,我们的方法侧重于视频中的对象检测。它结合了时间信息来提高卷积特征图的质量,并且很容易从静止图像对象检测器的改进中获益。

视频中的目标检测。最近,ImageNet引入了视频对象检测的新挑战(VID),将对象检测带入了视频领域。在这个挑战中,几乎所有现有的方法都只在最后阶段的boundingbox后处理中包含时间信息。T-CNN[18,19]根据预先计算好的光流将预测的边界盒传播到相邻帧,然后利用高置信度边界盒的跟踪算法生成小管(tubelets)。沿着tubeletsBoxes将根据tubelets的分类重新打分。Seq-NMS[12]从连续帧中沿着邻近的高可信边界框构造序列。序列的方框被重新评分到平均置信度,其他接近该序列的方框被抑制。MCMOT[23]将后处理问题表示为一个多目标跟踪问题。利用一系列的手工规则(如检测器置信度、颜色/动作线索、变化点检测和前后验证)来确定边界框是否属于被跟踪对象,并进一步细化跟踪结果。不幸的是,所有这些方法都是多级管道,每个阶段的结果都依赖于前一个阶段的结果。因此,很难纠正前几个阶段产生的错误。

相比之下,我们的方法在特征层考虑时间信息,而不是最终的框层。整个系统经过端到端的视频对象检测训练。此外,我们的方法还可以进一步结合这种边界框后处理技术来提高识别精度。

基于流的运动估计。视频中的时间信息需要原始像素或特征的对应来建立连续帧之间的关系。光流在视频分析和处理中有着广泛的应用。传统方法以变分方法为主[2,15],主要针对小位移[43]。最近的研究重点是大位移[3],而组合匹配(如深流DeepFlow[44]、上流EpicFlow[31])已经集成到变分方法中。这些方法都是手工制作的。基于深度学习的方法(如FlowNet[8]及其后继者[28,17])最近被用于光流。其中与我们的工作最相关的是deep feature flow[49],它表明了利用视频中的信息冗余可以在较小的准确率下降的情况下提高视频识别的速度。说明了流子网络和识别子网络联合训练的可能性。

在这项工作中,我们着重于在连续帧中关联和装配丰富的外观信息来提高特征表示,进而提高视频识别的准确性。我们遵循深度特征流的设计来实现跨帧的特征翘曲。

特征集成。特征聚集广泛应用于动作识别[34,20,24,47,38,1,21,41]和视频描述[7,46]。一方面,这些工作大部分[34,24,47,7,46,1,9,35]使用递归神经网络(RNNs)从连续帧中聚集特征。另一方面,利用穷极时空卷积直接提取时空特征[38,21,41,42]。然而,这些方法中的卷积核大小可能会限制快速移动对象的建模。要解决这个问题,应该考虑较大的内核大小,但是这会极大地增加参数数量,从而导致过度拟合、计算开销和内存消耗问题。相比之下,我们的方法依赖于流引导的聚合,并且可以扩展到不同类型的对象运动。

视觉跟踪。最近,deep CNNs被用于目标跟踪[25,16],并取得了令人印象深刻的跟踪精度。当跟踪一个新的目标时,通过将预先训练好的CNN中的共享层与一个新的在线更新的二分类层相结合来创建一个新的网络。跟踪显然不同于视频对象检测任务,因为它假设对象在第一帧中进行初始定位,并且不需要预测类标签。

3.流导特征聚合

3.1。基线和动机

给定输入视频帧{Ii}, i = 1,…,我们的目标是在所有帧上输出对象边界框,{yi}, i = 1,…,。基线方法是对每一帧单独应用一个现成的对象检测器。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

图2。视频中典型的退化对象外观

现代基于cnn的物体探测器也有类似的结构。在输入图像I上应用深度卷积子网络Nfeat,生成整个图像的feature map f = Nfeat(I)。在特征图上应用了浅探测专用的子网络Ndet来生成输出y = Ndet(f)。

视频帧包含同一对象实例的剧烈外观变化,如图2所示。单帧检测会产生不稳定的结果,当图像质量较差时检测失败。图1给出了一个示例。由于运动模糊,cat类的特征响应在参考帧t处很低。这会导致单帧检测失败。观察到附近的t10和t+ 10帧有很高的响应,它们的特征可以传播到参考帧。增强了参照系上的特征后,对参照系的检测成功

这类特征的传播和增强需要两个模块:1)运动导向的空间扭曲。它估计帧与帧之间的运动,并据此对特征图进行变形。2)特征聚合模块。它解决了如何正确地融合来自多个帧的特性。与特征提取和检测网络一起,这些是我们方法的构建块。下文将详细说明。

3.2。模型设计

Flow-guided变换。受到[49]的启发,给定参考坐标系【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection和相邻坐标系【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection,通过流网络F(如FlowNet[8])来估计流场【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

将相邻帧上的特征图按照流的方向变换到参考帧上。变换函数定义为:

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection  (1)

其中W(·)为特征图中每个通道在所有位置上应用的双线性变形函数,【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection为从第j帧到第i帧的变换特征图。

特征集成。经过特征变换后,参照系从邻近的参照系(包括它自己的参照系)累积多个特征图。这些特征图提供了对象实例的不同信息(例如,不同的照明/视点/姿态/非刚性变形)。对于聚集,我们在不同的空间位置使用不同的权值,让所有的特征通道共享相同的空间权值。变形特征的二维权值图【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection记作【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection。然后得到参考帧【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection处的聚合特征:

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection (2)

其中K指定用于聚合的邻居帧的范围(默认情况下K = 10)。式(2)与注意模型[32]的公式相似,其中对记忆缓冲区中的特征赋予不同的权重。

将聚集的特征信息fi输入检测子网络,得到检测结果

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection (3)

与基线和以前的盒级方法相比,我们的方法在产生最终的检测结果之前从多个帧中收集信息。

自适应的重量。自适应权值表示所有缓冲帧的重要性[Ii K,…, Ii+K]到每个空间位置的参考系Ii。具体来说,在位置p处,如果弯曲的特征fj i(p)与特征fi(p)接近,则赋予较大的权值。否则,将分配更小的权重。在这里,我们使用余弦相似度度量[27]来度量变形特征和从参考帧中提取的特征之间的相似度。此外,我们并不直接使用从Nfeat(I)中获得的卷积特征。相反,我们将一个很小的全卷积网络E(·)应用于特征fi和fj i,它将特征投射到一个新的相似度度量的嵌入中,称为嵌入子网络。

我们用下式来估计权重:

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection  (4)

式中,【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection表示相似度度量的嵌入特征,对相邻帧上的每个空间位置P P的权值【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection进行归一化,【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection。权值的估计可以看作是嵌入特征间的余弦相似度通过SoftMax操作的过程。

3.3.训练和推断

【推断】算法1总结推理算法..给定连续帧{II}和连续帧的输入视频

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

在指定的聚合范围K内,该方法在相邻帧(长度一般为2K + 1,开始和结束K帧除外)上使用滑动特征缓冲区对每一帧进行顺序处理。一开始,将feature network应用在开始的K + 1帧上,初始化feature buffer(算法1中的L2-L4),然后遍历所有视频帧,进行视频对象检测,并更新feature buffer。对于每一帧i作为参考,对特征缓冲区中相邻帧的特征映射进行相应的翘曲,计算其各自的聚合权值(L6- L10)。然后将扭曲的特征集合起来,反馈给检测网络进行目标检测(L11-L12)。在以(i+ 1)-th帧为参考之前,在(i+K+1)-th帧上提取特征映射,并添加到特征缓冲区(L13)中。

在运行时复杂度方面,建议的方法与单帧基线的比率为:

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection (5)

其中O(·)表示函数复杂度。通常,与【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection相比,【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection的复杂性可以忽略不计。比例近似为:【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection。增加的计算量主要来自于F,这是可承受的,因为F的复杂度也比【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection的复杂度低很多。

训练。整个FGFA架构是完全可区分的,可以端到端的培训。唯一需要注意的是,特征变形模块是通过双线性插值和完全可微的w.r.t来实现的,无论是特征图还是流场。

Temporal dropout。在SGD训练中,集合范围K受内存限制。我们用一个大的K值在推断阶段,但在训练中K值很小(默认为2)。这是没有问题的,因为自适应权值在训练和推断过程中都得到了适当的规范化。请注意,在训练期间,相邻帧是从一个大范围内随机抽样的,这个范围与推理期间的范围相等。作为对dropout[37]技术的类比,这可以被认为是一个时间的dropout,通过丢弃随机的时间帧。如表3所示,这种训练策略很有效。

3.4。网络体系结构

我们在FGFA模型中引入了不同子网络的具体化。流网络。我们使用FlowNet[8](简单版)。它是在飞行椅数据集[8]上预先训练的。应用于半分辨率图像,输出步长为4。由于feature network的输出步长为16(如下图所示),因此流场被缩小了一半以匹配feature maps的分辨率。

功能网络。我们采用最先进的ResNet(-50和-101)[14]和incepess - ResNet[39]作为特征网络。原始的incepepess - resnet是为图像识别而设计的。为了解决特征不匹配问题并使其适合于对象检测,我们使用了一个被称为校准-嵌入- resnet的修改版本,它在[6]中进行了描述。ResNet-50、ResNet-101和aligned - incepeping - resnet模型都是针对ImageNet分类进行预训练的。

在我们的FGFA模型中,预先训练的模型被设计成特征网络。我们稍微修改了三个对象检测模型的性质。我们去掉了平均池和fc层,保留了卷积层。为了提高特征分辨率,根据[4,5]中的实践,将最后一个块的有效步长从32改为16。特别地,在最后一个块的开始(对于ResNet和aligned - incepeping -ResNet来说都是conv5),步幅从2变为1。为了保持接受域的大小,将最后一个块中卷积层(内核大小为> 1)的扩展设置为2。最后,随机初始化卷积,将特征维数降至1024。

嵌入网络。它有三个层:一个1,1512的卷积,一个3 3 512的卷积,一个1 1 2048的卷积。它是随机初始化的。检测网络。我们使用最先进的R-FCN[5],并遵循[49]的设计。在1024-d地形图上应用RPN子网络和R-FCN子网络,分别连接到第一个512-d和最后一个512-d地形图。RPN中使用了9个锚点(3个比例尺和3个高宽比),每张图像生成300个建议。R-FCN中位置敏感评分地图共7组。

4. 实验

4.1. 实验设置

ImageNet VID数据集[33]。它是一个流行的大规模视频对象检测基准。根据[18,23]中的协议,分别对来自训练集的3862个视频片段和来自验证集的555个视频片段进行模型训练和评估。这些片段都有完整的注释,通常帧率为25或30帧。有30个对象类别。它们是ImageNet DET数据集中类别的子集。

慢、中、快动作。为了更好地分析,根据运动速度对ground truth对象进行分类。一个物体的速度是通过它的平均相交-过并(IoU)分数和它在附近的帧(10帧)中的相应实例来测量的。该指标被称为动议IoU。IoU的运动越低,物体运动越快。图3为所有运动IoU得分的直方图。根据评分将被试分为慢(评分> 0.9)、中(评分[0.7,0.9])、快(评分< 0.7)三组。图4显示了来自不同组的示例。

在评价中,除了标准平均精度(mAP)评分外,我们还报告了慢、中、快组的mAP评分,分别用mAP(slow)、mAP(medium)和mAP(fast)表示。这为我们提供了更详细的分析和深入的理解。

实现细节。在训练期间,在[18,23]之后,使用了ImageNet DET训练和ImageNet VID训练集。进行两阶段的训练。在第一个阶段,使用ImageNet VID中30个类别的注释,在ImageNet DET上对特征和检测网络进行训练。进行SGD培训,每个小批处理一个图像。120K的迭代在4个GPU上执行,每个GPU持有一个小批处理。在前80K和最后40K迭代中,学习率分别为10A3和10A4。第二阶段在ImageNet VID上对整个FGFA模型进行训练,根据第一阶段学习到的权值初始化特征和检测网络。在4个gpu上执行60K迭代,在前40K和最后20K迭代中分别执行10A3和10A4的学习率。在训练和推理过程中,将图像调整为特征网络的短边为600像素,流网络的短边为300像素。实验在Intel E5- 2670 v2 CPU 2.5GHz和Nvidia K40 GPU的工作站上进行。

4.2。消融研究

表1比较了我们的FGFA架构设计带有单帧基线及其变体的FGFA。

方法(a)为单帧基线。它有一个使用ResNet-101的73.4%的地图。它接近73.9%的mAP,

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

表1。使用ResNet-50和ResNet-101特征提取网络,对ImageNet VID验证的不同方法的准确性和运行时间。与单帧基线(a)相比的相对增益在下标中列出。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

图3。所有ground truth对象实例的运动白条的直方图,以及慢、中、快组的划分。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

图4。示例视频片段的对象实例与慢,中等和快速的运动。运动白条分别为0.98、0.77、0.26。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

表2。表1单帧基线(条目(a))的小(面积< 502像素)、中(502面积1502像素)、大(面积> 1502像素)对象实例的检测精度。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

图5。框架上的自适应权重分配。左:入口无流向导向特征扭曲(表1 (c));右:带有流量导向的特征扭曲的入口(表1 (d))。直方图是在具有不同运动的实例框中执行的。

在[49],这也是基于R-FCN和ResNet-101。这说明我们的基线是有竞争力的,可以作为评估的有效参考。需要注意的是,我们并没有为了便于比较和得出清晰的结论而添加诸如多尺度训练/测试、开发上下文信息、模型集成等附加功能。

对运动组的评价表明,快速运动目标的检测非常具有挑战性:慢速运动的mAP为82.4%,快速运动的mAP为51.4%。由于不同尺寸的物体可能具有不同的运动速度,我们进一步分析了物体尺寸的影响。表2给出了不同运动速度的小、中、大物体的地图得分。它表明,快速运动是一个内在的挑战,不管物体有多大。

方法(b)是一种朴素的特征聚合方法,是FGFA的退化变体。不使用流运动。在式(1)中,流程图Mi j被设置为所有的零,没有使用自适应加权。在Eq.(2)中,wj的重量设置为12k +1。该变体也采用与FGFA相同的端到端训练方法。使用ResNet- 101后,地图下降到72.0%,比基线(a)低1.4%。快速移动(51.4% 44.6%)的下降幅度远高于慢动作(82.4% 82.3%)。这说明在视频目标检测中,运动的考虑至关重要。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

方法(c)在(b)中加入自适应加权模块,得到的mAP为74.3%,比(b)高2.3%。值得注意的是,加入自适应加权方案对mAP(慢速)和mAP(中速)帮助不大,但对mAP(快速)很重要(44.6% 52.3%)。图5(左)显示了快速移动实例的自适应权值集中在参考点附近的帧上,这些帧的位移相对较小。

方法(d)是本文提出的FGFA方法,它在方法(c)中加入了流导特征聚集模块,将地图得分提高2%,达到76.3%。快速运动的改善更为显著(52.3% 57.6%)。图5显示了(d)中的自适应权值比(c)中的更均匀地分布在相邻帧上,并且对于快速运动最明显。结果表明,在特征聚合过程中,流导向的特征聚合能有效地促进邻近帧的信息。与单帧基线(a)相比,本文提出的FGFA方法提高了2.9%的总体mAP评分,并提高了6.2%的mAP (fast)评分,示例结果如图6所示。

方法(e)是(d)的退化版本,没有使用端到端培训。它采用单帧基线(a)的特征和检测子网络,以及预先训练的现成的流网络。在训练中,这些模块是固定的,只学习嵌入的子网络。结果明显比(d)差,说明了FGFA端到端训练的重要性。

至于运行时,所提出的FGFA方法使用ResNet-101和FlowNet处理一个帧,需要733ms。它比单帧基线(288ms)慢,因为流网络对每一帧的评估是2K + 1(K = 10)次。为了减少评估的次数,我们还尝试了另一个版本的FGFA,其中流网络只应用于相邻的帧对。通过合成中间流场,得到非相邻帧间的流场。这样,每个相邻帧对上的流场计算可以重复用于不同的参考帧。FGFA的每帧计算时间减少到356ms,比733ms快得多。由于流场组成中的误差累积,其精度略有下降(1%)。

由于内存问题,我们在这个实验中使用了轻量级的ResNet-50。在SGD训练中,我们在每个小批中尝试了2帧和5帧(5帧到达了内存上限),在推论中尝试了1、5、9、13、17、21和25帧。表3的结果显示,使用2帧和5帧进行训练可以获得非常接近的精度。这验证了我们临时辍学训练策略的有效性。在推理中,正如预期的那样,准确性随着使用更多的帧而提高。这种改进在21帧时达到饱和。默认情况下,我们在训练中采样2帧,在推理中聚合超过21帧。

4.3。与Box-level技术相结合

我们的方法侧重于提高视频帧的特征质量和识别精度。输出对象盒可以通过以前的盒级技术作为后处理进一步改进。特别地,我们测试了三种流行的技术,即运动引导传播(MGP)[18]、Tubelet rescoring[18]和Seq-NMS[12]。值得注意的是,在2015年ImageNet VID challenge[18]的获奖作品中使用了MGP和Tubelet rescoring。我们使用了MGP和Tubelet重取岩心的官方公共代码,并重新实现了Seq-NMS。

表4给出了结果。这三种技术首先与我们使用ResNet-101模型的单帧基线相结合。他们都提高了基线。这说明这种后处理技术是有效的。其中,Seq-NMS的增益最大。当使用ResNet-101模型与FGFA结合时,MGP和Tubelet再取心没有改善。然而,Seq-NMS仍然有效(mAP增加到78.4%)。通过使用aligne - incepeping - resnet作为特征网络,进一步完善了FGFA+Seq-NMS图谱到80.1%,表明Seq-NMS对FGFA有很强的补充作用。

【论文翻译】Flow-Guided Feature Aggregation for Video Object Detection

图6。示例视频剪辑,其中FGFA方法改进了单帧基线(使用ResNet-101)。绿色和黄色的方框分别表示正确和错误的检测。更多的例子可以在https://youtu找到。/ R2h3DbTPvVg。

与最先进的系统相比,不像图像对象检测,视频对象检测领域缺乏有原则的度量[48]和评估和比较的指南。在2015年和2016年的ImageNet VID challenge中,现有的主要参赛作品显示了令人印象深刻的结果,但它们是复杂的、高度工程化的系统,带有各种花哨的功能。这使得不同作品之间难以进行直接而公正的比较。

这项工作的目的是一个有原则的学习框架的视频对象检测,而不是最好的系统。FGFA在强单帧基线上的显著改善验证了我们方法的有效性。作为参考,2016年ImageNet VID challenge (NUIST Team)[45]的获奖作品在ImageNet VID validation上获得了81.2%的地图。它使用各种技术,如模型集成、级联检测、上下文信息和多尺度推理。相反,我们的方法不使用这些技术(只使用Seq-NMS),并以80.1%的效率获得最佳mAP。因此,我们得出结论,我们的方法是高度竞争的,即使是目前最好的工程系统。

5. 结论与未来工作

该工作为视频对象检测提供了一个准确的、端到端的、有原则的学习框架。由于我们的方法侧重于提高特征质量,它将是现有box-level框架的补充,以提高视频帧的准确性。有几个重要方面有待进一步探讨。我们的方法慢了一点,它可能会被更轻量级的流网络加速。在快速物体运动方面仍有很大的改进空间。更多的注释数据(例如,YouTube-BoundingBoxes[29])和精确的流量估计可能有助于改进。我们的方法可以进一步利用更好的自适应记忆方案在聚合,而不是使用的注意模型。我们相信这些开放的问题将激发更多的未来工作。