2020 CVPR ECCV 2D目标检测】

2020 CVPR 论文地址

2020 ECCV 论文地址

 

两个会议中涉及目标检测论文大约130余篇,其中60余篇关注2D检测,将近40篇关注3D检测,其他涉及显著性目标检测、视频目标检测、域自适应目标检测。

本文主要关注2D目标检测。

  1. 针对Anchor Free的方法提出了新的网络如CentripetalNet,改进方法如BorderDet,Soft anchor point。
  2. 针对Anchor Based方法研究较多:
  • 提出了新的分类和回归任务损失函数。
  • D2Det、SABL用于提高定位精度。
  • 讨论了task missalignment的问题,提出double head、分离任务特征的方法。
  • 在feature fusion方面,对FPN提出改进如AugFPN、BiFPN、PyramidConv,或者是将context信息融合仅RoI特征中。
  • 在label assignment方面,提出各种更合理的正负样本划分方法,如ATSS、基于probability、cleanliness、AABO、LabelEnc。

3. 从几个不同的学习任务上看:

  • few-shot/one-shot: 注意力机制、增量式学习;
  • weakly supervised learning:使用context信息解决检测得到物体局部的问题;
  • oriented:使用PIoU loss,rotation convolution提高精度。

4. 其他如:数据增强搜索和验证、用分组/soft sampling解决数据不平衡(长尾效应)、用montage方式对检测器进行预训练。

5. 提出了一些新的具体任务如全局目标检测、伪装物体目标检测、水下物体目标检测。

6. 提出新的范式:使用Transformer、GNN进行目标检测。

 


Anchor Free Method

Anchor Free方法,如CornerNet,将一个目标物体视为为一对角点(左上点、右下点)的组合。大致流程是先定位出每个类别的角点位置(反映为角点的热度图和某个类别通道上的掩码**),然后通过使用embedding vector对所有角点进行分组(体现为让属于同一个目标的角点对距离最短)。

CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection

  • 使用向心偏移(Centripetal Shift Module),解决CornerNet角点分组时因为物体外貌相似被分为同一组(将多个物体框进同一个框/同一个物体被框进另外两个物体框),也能解决CenterNet在密集检测的不佳表现。如图所示:

2020 CVPR ECCV 2D目标检测】

3种网络在密集、同形物体上的检测效果

  • 使用十字星形可变形卷积(Cross-star Deformable Convolution)学习角点池化后特征图上“十字星形”(包含上下文信息)的几何结构,如图所示:

2020 CVPR ECCV 2D目标检测】

  • 网络结构如图所示:

2020 CVPR ECCV 2D目标检测】

  • mAP在Anchor Free方法中最佳,仅AP50和APs比RPDet稍差。

 

BorderDet: Border Feature for Dense Object Detection

  • BorderAlign module:显式、自适应地提取物体边界极限点特征。对于一个anchor点预测的一个框,将该框的4条边对应在特征图上的特征进行池化,提出每条边的特征。最终BAM分别预测一个边界得分border score和一个边界回归值border offset,和原始的密集检测器(FCOS)的输出组合成最后的输出。如图所示:

2020 CVPR ECCV 2D目标检测】

不同feature extraction方式的对比

2020 CVPR ECCV 2D目标检测】

 

Corner Proposal Network for Anchor-free, Two-stage Object Detection

  • 和CornerNet的区别在于一个应用在one-stage,这个应用在two-stage上。
  • Corner Proposal Network (CPN):通过提取关键角点组合生成proposal,送入两阶段分类器,相当于把两阶段检测器的RPN改成了CPN。避开anchor需要设置超参数的问题。

 

Soft Anchor-Point Object Detection

  • anchor point detector使用point-to-boundary距离将目标边框编码为一个anchor point,关联当前位置特征,速度快但定位精度上低于key point方法。原因在于注意力偏差(attention bias,目标清晰的区域生成得分较高,抑制了周围其他目标的得分区域)和特征选择(feature selection,anchor free方法选择特征level时不受anchor匹配的约束,可同时为一个目标分配一个或多个level的特征)。
  • soft-selection pyramid levels:为每一个目标预测各个特征金字塔的level的选择权重。
  • soft-weighted anchor points:对于正样本anchor point,根据其到目标中心点的距离、所属特征金字塔level的选择权重,调整anchor point对整个网络损失的影响权重。

2020 CVPR ECCV 2D目标检测】

  • 结果有着较好的trade-off。

Anchor Based Method

Regression loss

Offset Bin Classification Network for Accurate Object Detection

  • Offset bin classification network optimized with cross-entropy loss:重新定义了回归网络的损失函数,将连续偏移量离散化为若干offset bin,预测每一个offset bin的概率。可以有效解决smoothL1对不同误差大小的sample施加同样惩罚的不合理之处。

2020 CVPR ECCV 2D目标检测】

Classification loss

DR Loss: Improving Object Detection by Distributional Ranking

  • 将分类问题转换为排序问题,即正样本的得分比负样本的得分高,也即让正负样本的分布区分开。如图所示:

2020 CVPR ECCV 2D目标检测】

  • 用其对ResNet101的改进,在COCO上mAP可以提升2%。

 

 


Label assignment

在划分anchor为positive、negative、ignore样本时,最原始方法是先计算anchor与ground truth的IoU值,设置IoU阈值来划分正负样本,正样本给为1,负样本给为0,其他为-1。但可能出现问题:(1)IoU低于阈值的负样本的IoU其实可能被回归到阈值以上;(2)IoU高于阈值但其值不同的两个anchor都被标为1,体现不出差异。(3)不同ground truth匹配到的anchor数量不均衡。

针对(3),使用top k方法,即对每个ground truth都匹配前k个IoU值最高的anchor,属于动态改变IoU阈值的方法划分正负样本。

 

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

  • 通过对比实验证明了anchor based和anchor free方法的根本差异来源于正负样本的选择方式不同
  • 提出ATSS(Adaptive Training Sample Selection)动态设置IoU阈值划分正负样本的方法。主要流程:根据对象的统计特征选择正负样本,对每一个ground truth,根据L2 distance在每一个特征图层收集k个(文中设为9)与ground truth中心最近的anchor作为一个集合,计算集合中的正样本与ground truth的IoU,获得每个集合的均值mean和标准差std。最终针对一个ground truth,其IoU阈值为mean+std,将IoU大于阈值的anchor作为正样本。文中实验最终证明这种阈值设置方法对不同的anchor超参数设置具有鲁棒性(anchor的尺寸、比例、数量设置对mAP几乎无影响)

2020 CVPR ECCV 2D目标检测】

(a)高均值高标准差 (b)低均值低标准差

  • ResNeXt-64x4d-101-DCN为backbone,MS COCO测试可达50.7%的mAP。

 

Probabilistic Anchor Assignment with IoU Prediction for Object Detection

  • 思路:模型应当以概率的方式将一个anchor预测为正样本。基于此,将每一个ground trugh的anchor score视为从概率分布中抽取的样本,用最大化anchor score的likelihood。

 

Learning from Noisy Anchors for One-stage Object Detection

  • 提出评价anchor质量的指标cleanliness score,由anchor回归后与ground truth的IoU和class score加权求和。一方面将cleanliness作为分类的soft label(不再是0/1),另一方面将cleanliness用于计算sample re-weighting factor,减轻hard sample的作用,重新访问cleaned sample,使得分类效果更好。

 

Prime Sample Attention in Object Detection

  • IoU Hierarchical local rank (IoU-HLR):PISA认为sampling strategy应从评价指标mAP出发,关注主要样本。对每一个groud truth匹配的sample根据IoU值进行排序,顺序越靠前说明这个sample对这个ground truth更重要,因此根据排序结果给这些anchor赋予不同权重,从而让IoU值更高的sample拥有更高的confidence。

2020 CVPR ECCV 2D目标检测】

IoU值更大的prime sample带来更好的分类结果

 

Multiple Anchor Learning for Visual Object Detection

  • Multiple Anchor Learning:构建一个anchor bags,在每一个bags中对每一个anchor计算其联合分类和回归的confidence,作为判断其重要性,选择最具代表性的一个anchor。
  • anchor selection and depression module

2020 CVPR ECCV 2D目标检测】

 

AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling

  • 证明了anchor的超参数设置是一个模型的关键因素。提出一种自适应调整anchor超参数的方法。
  • 结合Bayesian Optimization和sub-sampling提供anchor的优化。
  • 提升Mask RCNN、HTC检测器2%的结果。

 

LabelEnc: A New Intermediate Supervision Method for Object Detection

  • LabelEnc:a novel label encoding function, mapping the ground-truth labels into latent embedding。使用一个标签编码函数来利用ground truth的标签。
  • 使用一个定义在label空间的AutoEncoder预测对于一个目标检测器的中间监督表达,根据近似的optimal detect head将ground truth的标签引入潜在空间。

2020 CVPR ECCV 2D目标检测】

  • 使用该中间监督件进行训练

2020 CVPR ECCV 2D目标检测】

  • 在多种模型上均能实现2%的提升。辅助结构仅在训练过程存在,不影响测试开销。

Task missalignment

分类任务和回归任务本质上是两个不同的方向(如行人检测,分类要求不同的人归属同一类,而回归要求将两个人区分开),对特征的在空间维度上的要求也不同。分类任务所需的特征需要保证平移和尺度不变,回归任务所需的特征需要保证平移和尺度相等(特征能够保留目标的位置和形状信息)。

 

Rethinking Classification and Localization for Object Detection

  • 通过实验对比得出(1)全连接层在分类任务上比卷积效果好(特别是小目标)并给出了Pearson相关系数证实了此结论;(2)卷积层在回归任务上比全连接层好。实验统计如图:

2020 CVPR ECCV 2D目标检测】

第一行:IoU越大,fc给出的class score平均效果比conv好;第二行:IoU大于0.4之后conv回归的box平均结果比fc稍好

  • 设计了Double head的网络,fc做分类,conv做回归。损失函数为两者加权求和,再加RPN损失。Double head ext版本考虑unfocused task的影响,fc和conv都做分类和回归,将结果再做加权求和。网络结构如图所示:

2020 CVPR ECCV 2D目标检测】

 

Revisiting the Sibling Head in Object Detector

  • Task-aware spatial disentanglement learning(TSD)将分类和回归任务在空间维度上分离。将RPN产生的proposal的特征图,通过pointwise deformation生成用于分类任务的proposal,通过proposal-wise translation生成用于回归任务的proposal。
  • Progressive constraint (PC) 渐进性约束,使用sibling head的预测结果帮助提升TSD的效果。

2020 CVPR ECCV 2D目标检测】

 

Learning a Unified Sample Weighting Network for Object Detection

  • 设计了一个损失函数用于预测classification和regression任务的权重,从而动态调整任务权重。
  • 不影响测试速度。

Feature fusion

低层特征分辨率高,包含位置、细节信息,但语义性低,噪声多。高层特征则具有更强的语义信息。将不同尺度的特征进行有效融合是提高目标检测效果的一个重要手段。例如SSD使用多个尺度的特征图进行预测再对预测结果进行综合,Feature Pyramid Network则将特征图进行融合,在每个融合后的特征图上单独进行预测。

 

AugFPN: Improving Multi-scale Feature Learning for Object Detection

  • Consistent Supervision:解决FPN因为将高低层语义信息相差较大的特征图直接相加导致的表达能力削弱的问题。
  • Residual feature Augmentation:解决FPN自顶向下融合时顶层特征由于经过1*1卷积降维导致信息损失的问题。
  • Soft RoI Selection:解决FRN中,根据proposal尺度决定从相应哪一层特征图选择RoI特征图进行预测造成的对忽略层信息利用不充分的问题。

2020 CVPR ECCV 2D目标检测】

 

EfficientDet: Scalable and Efficient Object Detection

  • 提出使用BiFPN,使用权值对不同尺度的特征图的重要性进行区分,并反复应用自顶向下和自下而上的特征融合过程。

2020 CVPR ECCV 2D目标检测】

  • 应用EfficientNet进行模型复合扩张。

2020 CVPR ECCV 2D目标检测】

FLOPs:floating point operations

  • EfficientDet-D7在COCO上可达52.2%,且模型复杂度也不高。

 

Scale-Equalizing Pyramid Convolution for Object Detection

  • Pyramid convolution:使用3D卷积(可表示为N个不同的2D卷积)关联相近特征图,进一步联系不同尺度特征图的内在关联。使用共享Batch normalization层,减小方差。
  • Scale-equalizing pyramid convolution(SEPC)解决在特征金字塔相邻层之间使用间隔不同的卷积层和非线性单元导致的不同尺度特征图之间没有固定的理论高斯模糊核,它在高层特征图上用可变形卷积来与低层特征图上的点对齐。
  • 最佳表现达50.1%。

 

NETNet: Neighbor Erasing and Transferring Network for Better Single Shot Object Detection

  • Neighbor Erasing and Transferring (NET) mechanism :重新配置特征金字塔,擦除大物体的显著特征,突出小物体的浅层特征。

2020 CVPR ECCV 2D目标检测】

 

Hierarchical Context Embedding for Region-based Object Detection

  • Image-Level Categorical Embedding:通过multi-label loss学习带有context信息的特征。
  • Hierarchical Contextual RoI Feature Generation:利用context信息特征和RoIAlign产生带有context信息的RoI特征。
  • Early-and-Late Fusion:将带有context信息的RoI特征与原本的RoI特征进行融合,提高分类效果。

2020 CVPR ECCV 2D目标检测】

Others

D2Det: Towards High Quality Object Detection and Instance Segmentation

  • Dense local regression:不同于Faster RCNN在RoI pooling之后将特征图送入全连接层,D2Det将RoI上的所有点视为特征点,对每个proposal与ground truth有交集的特征点做回归(而Faster RCNN只做一个回归),最后将所有点回归的偏移量做平均得到最终的偏移量。
  • Discriminative RoI Pooling:先使用一个light-weight预测器预测每个RoI子区域,然后进行自适应加权,赋予区别明显的特征点更高的权重。

2020 CVPR ECCV 2D目标检测】

Side-Aware Boundary Localization for More Precise Object Detection

  • SABL:直接由特征图对每一条边进行预测(传统边框回归通过预测中心点和尺寸得到边框)。主要流程:将目标空间分成多个bucket,先预测边框位于哪一个bucket,再回归边框与bucket中心点的偏移量。

2020 CVPR ECCV 2D目标检测】

2020 CVPR ECCV 2D目标检测】

  • 效果提升了1-2%,除了Cascade RCNN之外速度都持平。

 

MimicDet: Bridging the Gap Between One-Stage and Two-Stage Object Detection

  • 用two-stage检测器与one-stage检测器结果做similiarity loss,用于优化one-stage检测器。

2020 CVPR ECCV 2D目标检测】


Few shot object detection

Few shot旨在使模型无需在新类别上重新训练就可以检测新类别物体。

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

  • Attention-RPN:query图片和support图片经过权值共享网络,由Attention-RPN利用额外的support集信息,将原本RPN找到的proposal过滤掉不属于support集类别的proposal和background。

2020 CVPR ECCV 2D目标检测】

  • Multi-Relation head:用多关系检测分类器代替原本Faster RCNN的softmax分类起,通过计算proposal与support集之间相似度的方式区分proposal中的目标是否属于support集。
  • Two-way Contrastive Training Strategy:每次训练从support集和query集中分别选取一张c类图像,和support集中一张非c类的图像。

2020 CVPR ECCV 2D目标检测】

 

Incremental Few-Shot Object Detection

  • 不使用比对的方式,而采用增量式添加类别到模型,减少对大量标注数据的依赖,并且能够提速。
  • OpeN-ended Centre nEt (ONCE):在CentreNet结构上引入meta-learning,将批量学习转变为元学习。

2020 CVPR ECCV 2D目标检测】

 

OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features

  • dense correlation:匹配学习到的local feature
  • feed-forward geometric transformation model:align features
  • bilinear resampling:计算预测得分

2020 CVPR ECCV 2D目标检测】


Weakly supervised learning

SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection

  • 具有最高class confidence的proposal往往只覆盖了待测目标物体的一部分,覆盖更大面积的其他proposal往往具有较低class score。
  • MIL模块由三个WSDDN构成,生成的平均分类得分用于SLV模块的监督信息。
  • SLV:包含重分类分支和重定位分支。每张图片中的所有proposal从空间维度对每个类别的likelihood进行投票。对似然值高的区域proposal将其投票结果进行正则化作为最终的bouding box,用于最后的分类和回归。

2020 CVPR ECCV 2D目标检测】

 

Instance-Aware, Context-Focused, and Memory-Efficient Weakly Supervised Object Detection

2020 CVPR ECCV 2D目标检测】

  • instance-aware self-training algorithm:teacher-student的蒸馏过程,可以帮助提高student模型的表达能力。涉及将实例关联约束instance-associative constraints加入为标签的生成中,利用各个proposal的得分,对生成的伪标签施加空间多样性用于诱导偏差。
  • learnable Concrete DropBlock

2020 CVPR ECCV 2D目标检测】

  • Memory-efficient sequential batch back-propagation

 

Seeing without Looking: Contextual Rescoring of Object Detections for AP Maximization

  • Rescore detection:基于拥有更高的IoU值的检测结果应该拥有更高的confidence的想法,使用高层的语义信息来重新评分。每一个检测结果由一个特征向量表示,不仅包含原有的视觉特征,还包含original confidence,predicted class,bounding box coordinates这些非视觉的高层语义信息。使用带有自注意力机制的RNN来学习contextual representation,损失函数用于训练获取最大AP。

2020 CVPR ECCV 2D目标检测】

 

Robust Object Detection under Occlusion with Context-Aware CompositionalNets

  • 基于任何位于bounding box之外的特征具有感受野会被认为是上下文的一部分。基于给出的bounding box的标注,将image representation分成context representation和object representation的混合模型
  • 提出一个part-based的投票机制用于进行bounding box回归。

 

Enabling Deep Residual Networks for Weakly Supervised Object Detection

  • 针对度残差网络在弱监督学习中显示出检测精度和不收敛性的显著下降提出一系列设计原则,从增加冗余自适应、提高鲁棒性、特征对齐的角度进行设计。
  • Redundant adaptation neck:for effective object instance localization and discriminative feature learning。
  • Small-kernel convolution,maxPool down sampling:提高鲁棒性。
  • dilated convolution:对特征进行对齐,通过提取高分辨率的特征图,实现对不同位置信息的利用。

 

Many-shot from Low-shot: Learning to Annotate using Mixed Supervision for Object Detection

  • Online annotation module(OAM):在弱标签和强标签上进行联合训练,使能从大量弱标签数据生成可靠的标签数据,用于训练检测器。

2020 CVPR ECCV 2D目标检测】



Oriented object detection

Dynamic Refinement Network for Oriented and Densely Packed Object Detection

  • Feature selection module:基于物体形状和方向自适应调节神经元感受野,缓解感受野和目标物体的不匹配。

2020 CVPR ECCV 2D目标检测】

  • dynamic refinement head:DRH-C和DRH-R分别用于分类和回归,对每个样本的唯一性和特殊性建模,从objectivewise细化预测。

2020 CVPR ECCV 2D目标检测】

 

Arbitrary-Oriented Object Detection with Circular Smooth Label

  • 证明现有的回归基旋转检测器具有由角周期性或角序直接引起的不连续边界问题,其原因在于理想预测超出了限定范围。
  • A new rotation detection baseline:将角预测从一个回归问题转化为一个精度损失很小的分类任务来解决边界问题,与之前使用粗粒度旋转检测的工作相比,设计了高精度的角度分类。
  • circular smooth label (CSL):处理角度的周期性问题,增加对相邻角误差容错性。

 

PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments

  • PIoU loss:从IoU计算得到。(以往的oriented bounding box通过在水平边框引入由距离损失优化得到的附加角度来得到,距离损失使角度最小,与IoU相关性不高,并且其对ratio较大的目标效果较差)

2020 CVPR ECCV 2D目标检测】

 

Data augmentation

Learning Data Augmentation Strategies for Object Detection

  • 认为在目标检测中直接应用分类任务的数据增强策略带来的提升有限。
  • AutoAugmentation:将检测任务上的数据增强策略搜索视为一个离散优化问题(discrete optimization problem)。22个数据增强运算,包括对颜色、几何变换、框位置的变换进行增强, 结果显示每一类变化都是必要,并且Rotate、Equalize(直方图均衡化)、BBox only TranslateY(对框的位置做垂直翻转)在检测任务上的提升效果较明显。
  • 训练集数据很小的时候,数据增强方法带来的涨点最多,在小物体检测上效果明显。

 

Training strategy

Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection

  • Montage Assembly:从样本集中按照一定规则选择正负样本,通过拼图方式组合,用于检测器的预训练,避免在大规模数据集上进行预训练的需求。
  • ERF-adaptive loss:对特征图的每个点进行分类,每个点的soft label基于其对应的有效感受野进行计算,然后对每个区域进行加权求和,其权重为每个区域感受野权重之和与整体有效感受野权重之和的比值。

2020 CVPR ECCV 2D目标检测】

Data imbalance

Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax

  • Balanced Group Softmax:将目标数量相近的类放在同一组,对每一组分别进行softmax操作。需要在每一组中放入一个others类别,包括所有background和本组不具备的来自其他组的foreground。

2020 CVPR ECCV 2D目标检测】

Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels

  • concurrent softmax:利用多标签的隐性依赖关系输出每种类别的概率值,解决真实环境中显式多标签(并列/继承关系标签)、隐式多标签(漏标、混标)问题,

2020 CVPR ECCV 2D目标检测】

  • soft sampling:混合采样,增加稀少类的采样频率,解决长尾效应问题。

New paradigm

End-to-End Object Detection with Transformers

  • 将目标检测问题转化为一个集合预测set prediction的问题,用Transformer预测box的集合。

2020 CVPR ECCV 2D目标检测】

  • 结果在大目标上表现良好,小目标上表现较差。

 

GeoGraph: Graph-based multi-view object detection with geometric cues end-to-end

Features of anchors are used to generate a dense fully connected graph -> GNN, Geo-Localization network

2020 CVPR ECCV 2D目标检测】

improvement: re-identification, geo-localization tasks

 

UFO2: A Unified Framework towards Omni-supervised Object Detection

  • 使用带不同级别标签的数据进行联合训练(包括无标签)

2020 CVPR ECCV 2D目标检测】

2020 CVPR ECCV 2D目标检测】


New tasks

Dual Renement Underwater Object Detection Network

2020 CVPR ECCV 2D目标检测】

Universal object detection

Object Detection with a Unified Label Space from Multiple Datasets

  • 训练一个目标检测器用于预测所有标签空间的并集。比如某个类在一个数据集中被注释,但在另一个数据集中存在却没有注释,在一个数据集中被认为是前景,在另一个数据集中被认为是背景。
  • pseudo labelling approach

Camouflaged Object Detection

  • 伪装物体目标检测,待测目标与背景从肉眼观察具有高度相似性。

2020 CVPR ECCV 2D目标检测】

2020 CVPR ECCV 2D目标检测】