Take Goods from Shelves A Dataset for Class-Incremental 翻译

摘要

在自助售货机中实现自动可视化结账的目标检测在零售业中引起了广泛的关注。然而，一些关键性的挑战还没有得到足够的重视。首先，迫切需要大规模、高质量的零售图像数据集来训练和评估检测模型。其次，训练有素的模型应该能够以较低的成本应对频繁增加的新产品，而大多数前沿模型则不能。本文提出了一种新的分层的大规模目标检测数据集——货架取货(TGFS)，包含24个细粒度和3个粗类的38K图像。提出了一种快速的R-CNN类增量目标检测器(FCIOD)，并对其进行了评价。此外，还对TGFS数据集上的几种常用方法进行了基准测试

提供了一个数据集，提出了一种类增量学习方法

1 INTRODUCTION

随着卷积神经网络(convolutional neural networks, CNNs)[10,12,15,28]的发展，基于cnn的目标检测模型[5,6,21,22,24]在速度和精度上都有了很大的突破。这些模式在工业上得到了广泛的应用，例如自助贩卖机的自动结账系统，它可以自动检测并为顾客购买的商品收费，每天创造巨大的价值。然而，这一领域还存在一些挑战，并没有得到足够的重视

第一个挑战来自数据集。一方面，零售业的商品通常是分层结构的，同一品牌的商品在视觉上总是相似的。因此，需要分层的从粗到细的数据集。 “粗”的标签应该是概念(如饮料、零食等)或品牌，而“细”的标签应该是具体的产品，也就是说。库存管理单元(SKU)。另一方面，数据集应该反映由于握在手中的遮挡和形状变化。最后但并非最不重要的是，图像和对象的数量应该很大，因为基于cnn的方法通常需要大量的训练数据。

另一个挑战来自于对象检测模型。最先进的模型只能在固定的类设置下工作，即: 预先定义和固定类的数据集用于训练模型。因此，模型可以在训练后检测这些类的对象。然而，需求在实际情况中变化很快。通常情况下，不能总是提前完全获得类。一个典型的情况是自助贩卖机经常会根据市场趋势添加新的商品，所以机器中自动结账系统的检测模型应该以较低的成本适应这种变化。因此，更重要的是对象检测的类增量设置，即检测类可以随着时间的推移不断地添加到模型中，而不需要对所有累积的数据进行完全的再培训。

综上所述，为了解决零售业面临的挑战，本文主要做了三个方面的工作

(1)从自助贩卖机采集的货架取货(TGFS)数据集，包含三个粗类、24个细粒度类、38K张高质量图像，呈现给社会，促进类增量对象检测和计算机视觉的发展;

(2)在知识蒸馏的启发下，提出了一种快速R-CNN类增量目标检测器(FCIOD)的初步模型来解决类增量目标检测问题;

(3)利用TGFS数据集对海量的策略和方法进行基准测试

数据集和代码将很快公开。

2 RELATED WORKS

2.1 Object Detection Dataset

数据集在深度学习中起着至关重要的作用，大量的数据集被提出用于各种任务。在常用的视觉类别对象检测任务中，Pascal VOC[3]数据集和Microsoft COCO[18]数据集是应用最广泛的两个数据集。对于特定的应用领域，如零售业，也有特定于字段的数据集

GroceryDataset

ydataset[31]是一家专注于烟草品牌的零售产品认知数据集。这个数据集包括超市货架上的354张图片，10个品牌烟草上的13000种裁剪产品。然而，354幅图像严重不足训练一个基于cnn的目标检测模型

弗莱堡杂货数据集

它包括25个食品类的5021张图片，每个类97到370张。各种杂波程度和光照条件的图像使数据集变得困难。训练集中的图像具有同一个类的一个或多个实例，测试集中的图像包含多个类的对象。但是，这个数据集只提供图像级的注释，这使得它不适合训练检测模型。

MVTecD2SDataset

它包含21,000张高分辨率图像，带有边界框和实例掩码的注释。这些物品包括60个类别的杂货和日常用品。训练集中的图像只包含同构背景上单个类的对象，而验证和测试集中的图像则包含多个类的对象。

Small Hand-held Object Recognition Test (SHORT)

它包含30个食品杂货类，1080个培训和134,524个测试图像。培训集是高质量的，从产品手册、广告、3D产品视图中收集。测试集的质量并不稳定，因为图像是从手持手机上采集的，视角不同，清晰度不同，背景杂波不同，遮挡不同，光照不同，镜面反射不同。

Take Goods from Shelves A Dataset for Class-Incremental 翻译

我们的Take Goods from shelf (TGFS)数据集包含24个细粒度类的38K高分辨率图像，分为三个粗粒度类。从真实的意义上捕获的图像具有高质量，带有边框注释。图2将TGFS数据集与零售业现有数据集进行了比较

2.2 CNN-Based Object Detection Methods

近年来，基于目标检测的方法主要分为两级和单级。一般来说，两阶段法的精度较高，而单阶段法的速度较快。

The two-stage methods.

这些方法(如R-CNN[6]、fast R-CNN[24]和Mask R-CNN[8])通常由两个可分离的阶段组成。第一阶段的目标是使用区域建议方法，如选择性搜索[30]、EdgeBox[32]和RPN[24]生成对象边界框建议。在第二阶段，用类标签分配提案，并对提案的边界框坐标进行回归。这两阶段的方法是准确的，并采取了许多挑战数据集的领导者董事会，如帕斯卡VOC和微软可可。由于这两个阶段是可分的、灵活的，提出了对每个阶段进行优化的各种改进方法[1,17]，并在此基础上设计了许多其他的目标检测方法[17,29]

The single-stage methods.

这些方法将这两个阶段集成到一个统一的轻量级过程中。 YOLO[21]方法使用一个前向卷积网络直接预测边界框和对象类，速度快但精度不高。通过YOLO v2[22]和YOLO v3[23]的改进，利用多尺度训练方法和特征图提高了小对象的性能，同时利用更高效率的骨干网加快了速度。 SSD[19]方法在不同的特征映射中生成不同纵横比的锚，迫使每一层学习检测特定尺度的对象。根据SSD的体系结构，DSOD[26]方法是一种高效、易于从零开始训练的方法。为了提高检测模型的精度，提出了各种预处理方法、损失函数和体系结构。

上面的这些方法必须处理预先定义和固定类的数据集，而我们试图处理类随时间增长的情况，这在现实世界中很常见，尤其是在零售业中。

2.3 Class-incremental Learning

类增量学习是一种终身学习，目的是在训练有素的模型中不断增加新的识别类，而不是完全依靠所有“旧”的训练数据进行再训练。更新后的模型应该在旧类和新类上都能很好地工作。然而，“灾难性遗忘”现象(灾难性遗忘是指网络在学习新信息时完全忘记之前所学的内容)是课堂增量学习中最大的挑战。

在分类方面，Li和Hoiem[16]对新增加的类采用交叉熵损失，对旧类采用知识蒸馏损失，在一定程度上克服了遗忘问题。回绝等。[20]采用了一个基于原型的分类器和一个样本集。样本集中的数据是“旧的”训练图像，最接近类原型，在每个类增量过程之后重建类原型。他们还引入了一个范例管理策略来保持子集的大小和质量

最近，Shmelkov等人。[27]提出了一种基于快速R-CNN的类增量目标检测方法。利用模型的冻结副本选择与旧类对应的提案，对模型的分类和回归部分进行知识蒸馏，指导学习过程，防止旧类出现遗忘现象。

从货架上取货数据集

基于零售业的实际情况，提出了货架取货(TGFS)数据集。它记录了人们从自助贩卖机的货架上取货的过程。这个数据集中有38,027张图像，属于24个细粒度类，分为三个粗粒度类。我们希望这个数据集能够促进类增量对象检测、自助贩卖机以及零售业的研究。

3.1 Dataset Construction

图像采集硬件。

图3展示了图像采集硬件。在无人超市的自助贩卖机的左右两侧，每层货架之间都安装了多个鱼眼摄像头。固定焦距鱼眼相机的空间分辨率为480×640像素，垂直视野为120°。然后调整相机的白平衡、灵敏度、变形校正等参数，使相机在大多数情况下都能获得清晰的照片。为了防止相机表面起雾，镜头上还采用了特殊的涂层，控制机器温度。预装在机器上的LED灯作为光源

架子上的货物。

我们调查了大学校园的自助售货机，选择了11种常见的饮料和12种最畅销的零食。货物的名称列在表1中。这些饮料有九个品牌，都是瓶装的。这些属于7个品牌的零食，用塑料袋(如饼干)、盒子(如巧克力棒)和瓶子(如方便面)包装。货物被放在货架的不同楼层。相同或相似类别的多个商品放在一起，就像超市的货架一样。

取货过程。

志愿者被邀请从货架上取下商品。人们可以用任何他们想要的方式，一次从货架上只拿出一件商品。例如，对于瓶装商品，可以用手蒙住品牌，或者将瓶子水平拿着，这样相机只能看到底部。至于袋装货物，很有可能会引起各种变形，或挤压包装的质量，或损坏袋口。志愿者不需要刻意控制取货速度，所以整个取货过程通常非常快，平均只有1-2秒。由于我们在购物时经常犹豫不决，所以不允许从货架上取下任何东西，也不允许来回摆放。鱼眼摄像机以每秒25帧的速度将货物的运送过程拍摄成视频

后处理。

视频被转换成帧。由于快速移动而严重模糊的帧被手动过滤掉。为了使其更具挑战性，我们还保留了只包含纯手的图像，因此检测模型应该区分“纯手”和“手中物品”。使用LabelImg 1，数据集中的每个对象都用包围框手动标记。然后按3:2的比例随机分割训练和测试部分。为了便于使用，数据集按照著名的Pascal VOC数据集的结构组织

统计数据

该数据集共包含38,027幅图像，分为24个精细类、3个粗类。每个精细类平均有1584个图像，而每个图像只包含一个对象。训练集有22,815张，测试集有15,212张。类名和类中的图像数量列在表1中，并在图4中显示。从统计学上看，该数据集的分布是相对均衡的。每个类的示例如图1所示。

独特性

首先，在实际的业务场景中，层次细粒度标签，尤其是品牌和规范信息是必不可少的。现有的公共数据集没有这样的信息来促进这项任务的研究。‘

其次，取货过程中不可避免地会造成物品严重遮挡。这种遮挡本质上使得零售业的目标检测任务更具挑战性，因为严重的遮挡会使目标检测模型在实际场景中失效。此外，即使这些对象被部分阻塞，也很难识别它们。在以前的数据集中，没有那么多具有严重遮挡的图像。为此，我们将手动阻塞的图像和手动类添加到数据集中，这增加了难度。在图1中，我们可以看到货物总是被手阻塞。

最后但并非最不重要的是，这个数据集的难度适中，因为每个图像中只有一个对象，而且图像的质量是稳定的。它是一个适用于自助贩卖机场景中对象检测问题的基准数据集。

3.2 Applications

我们的TGFS数据集可用于开发各种应用程序，例如自助售货机中的自动充电系统。具体来说，自助超市的可视化自动计费系统属于对象检测，属于某种特殊的、细粒度的对象检测问题，具有实用性、现实性和挑战性，具有较高的商业价值。该数据集还可以作为对象检测算法的基准数据集。

4 CLASS-INCREMENTAL OBJECT DETECTOR

在零售业中，商店和市场应该经常根据市场趋势添加新的商品，比如自助贩卖机。自助贩卖机的目标检测模型应具有高效处理商品添加的能力。例如，经过良好训练的对象检测模型是由一些新类的图像来更新的，而更新的模型不仅要检测新类的对象，还要检测旧类的对象。类增量对象检测问题研究较少，有许多潜在的解决方案。针对类增量目标检测问题，提出了一种快速的R-CNN类增量目标检测器(FCIOD)

如图5所示，我们采用更快的R-CNN作为基本模型，在不丢失旧类知识的前提下，通过多次修改来扩展其检测能力。传统的FasterR-CNN有三个独立的模块 .主干特征提取器生成输入图像的特征映射。区域建议网络(RPN)分支使用特征图提出候选对象边界框。快速R-CNN (FRCN)分支对box提案进行分类并调整它们的坐标。更快的R-CNN的损失函数可以写成

$\mathcal{L}=\mathcal{L}_{\mathrm{cls}}+\mathcal{L}_{\mathrm{reg}}$

其中L_cls和L_reg分别是分类和回归的一部分。在本工作中，分类部分在进行类增量训练时进行修改，回归部分保持原样。我们在FRCN分支上应用了知识蒸馏，并引入了一个图像级的范例管理策略，以防止在执行类增量学习时遗忘

4.1 Knowledge Distillation Structure

知识蒸馏[11]是为在不同体系结构的网络之间传输知识而设计的。近年来，它也被用于类增量分类问题中[14,16]，以防止灾难性遗忘现象。因此，与[7]类似，将这种结构引入到我们的模型中，以确保分类器能够在学习新概念的同时保持旧类的性能

整个模型的一个冻结副本被创建为教师模型，而未冻结的副本被视为学生。将student FRCN中分类器的输出节点扩展到已经看到的类的数量，并随机初始化新添加节点的权重

将相同的图像x输入到教师和学生模型中，分别生成类预测P_t(·)和P_s(·)的检测结果。值得注意的是，P_st(·)表示学生对老类部分的预测

为了使模型学习新的概念，利用传统的交叉熵损失L _trad对学生模型进行优化。然后，为了防止老类遗忘，采用P t作为教师模型的附加指导，以知识蒸馏损失L _dstl的形式帮助学生的学习过程。分类部分的损失函数可表示为:

$\mathcal{L}_{\mathrm{cls}}=\mathcal{L}_{\mathrm{trad}}\left(P_{\mathrm{s}}(\mathbf{x}), y_{\mathrm{gt}}\right)+\gamma \mathcal{L}_{\mathrm{dst} 1}\left(P_{\mathrm{t}}(\mathbf{x}), P_{\mathrm{st}}(\mathbf{x})\right)$

其中y_gt为提案框的分类依据真值; γ是hyperparameter控制力量的监督老师,并设置为2。具体来说，L_dstl可以写成:

$\mathcal{L}_{\mathrm{dst} 1}\left(P_{\mathrm{t}}(\mathbf{x}), P_{\mathrm{st}}(\mathbf{x})\right)= \\ H\left(\operatorname{sof} \operatorname{tmax}\left(\frac{P_{\mathrm{t}}(\mathrm{x})}{T}\right), \operatorname{sof} \operatorname{tmax}\left(\frac{P_{\mathrm{st}}(\mathrm{x})}{T}\right)\right)$

其中T为光滑超参数，称为温度，通过实验设置T = 2。选取Kullback-Leibler散度损失H(·)对式(3)进行优化

4.2范例集管理

为了解决类增量目标检测问题，传统的方法倾向于用所有累积的训练数据对模型进行再训练，虽然费时，但性能良好，为了解决类增量对象检测问题，传统的方法倾向于用所有累积的训练数据对模型进行再训练，虽然费时，但效果良好，因为所有类的数据都是足够的，不会出现遗忘现象。为了平衡性能和速度，我们限制了在类增量训练过程中可以访问的先前数据的数量。因此，我们的模型中引入了一个范例集，并执行了一个映像级的范例管理策略。范例集有一个固定的大小K，这意味着模型最多可以访问之前训练数据的K个图像

经过一定的训练，该模型可以检测出C_o类的对象。我们审核培训数据和记录

$P_{\mathrm{f}}(\mathbf{x})=\frac{\mathbf{f}_{\mathrm{L}-1}(\mathbf{x})}{\left\|\mathbf{f}_{\mathrm{L}}-1(\mathbf{x})\right\|}$
式中，x为输入图像，f_L−1(·)为学生FRCN分类器前一层的特征。为每个类y = 1,…, C_o,然后使类的原型µy y:

$\mu_{y} \leftarrow \frac{\sum P_{f}(\mathbf{x}) | \hat{y}=y_{g t}=y}{\left\|\hat{y}=y_{g t}=y\right\|}$

ˆy和y_gt的类真实预测和建议,分别。类的所有对象y是采取和排序根据他们的特征距离µ_y从小型到大型的原型。最后，我们遍历对象并将整个对应的图像一个一个地放到范例集中，直到我们得到类y的k_o = K/C_o惟一图像，或者考虑所有对象。这个过程在算法1中指定。

Take Goods from Shelves A Dataset for Class-Incremental 翻译

这段怎么选择exemplar的没看懂。大概的意思是按照距离选择。

在下一个训练阶段，类的数量将从C_o增加到C_n。该模型由一个混合数据集训练，该数据集将新类的数据与范例集结合起来.训练结束后，我们从混合训练数据集中为每个类最多选择k n = k /C n个图像，重新计算所看到的所有类的类原型，清空并重新构建样本集。

The Protocol of Our Problem

根据Haoetal .[7]提出的设置，我们采用以下数据集转换、模型训练和模型评估协议对类增量设置下的模型进行基准测试。

Dataset Preparing.

数据集做准备。

很难创建一个能够随着时间推移而增加类定义和数据的数据集。此外，由于不同数据集之间的偏差和类间的交集，我们不能为每个类增量训练会话使用完全独立的新数据集。但是，将现有的标准对象检测数据集转换为类增量数据集是很方便的。转换步骤主要包括:

(1)将类分成组。将标准对象检测数据集的C类划分为N组。每组由c i类组成;

(2)为每组选择图像。为每个组选择整个数据集的所有符合条件的图像。这些图像需要保证只包含属于相应组的对象。具有多组对象的图像将被省略;

(3)每组划分培训与评估部分。来自数据集训练部分的图像构成了组的训练部分，测试部分也是如此。

这个数据集准备过程如图6所示。它确保不同组中的图像包含完全不同类的对象，因此我们可以轻松地选择任意一个未使用的组来执行类增量训练

Take Goods from Shelves A Dataset for Class-Incremental 翻译

图6:数据集转换过程的演示。我们将类分成组，并从每个组的相应部分中选择所有符合条件的图像。

Training.

目标检测模型的训练应采用逐段递增的方法，使用对应组训练段的数据进行训练。在第一个训练阶段，利用第一组的训练数据对模型进行训练，该模型的主干由预先训练好的ImageNet权值初始化。对于下面的会话，将加载上一个会话生成的经过良好训练的模型。然后，增加模型的输出节点，并通过对应组的数据对模型进行更新。在每个会话之后，模型可以学习检测新组对象的能力。

Evaluating.

为了全面评估模型的性能，需要同时获取所看到的所有类的性能，因此应该使用包含所看到的所有类的对象的混合数据集来评估模型。我们将之前所有组的测试部分混合在一起，并用这种混合对模型进行评估。因此，旧类的性能可以直接与最后一个组的性能进行比较

Evaluation metrics.

通过评估，计算出每个类在union (IoU)上0.5相交处的平均精度(AP)，这是反映模型性能的一个较低的指标。我们还可以通过对我们所见过的所有类的平均APs求平均平均精度(mAP)，这是一个高级指标。一个中等水平的指标，每组的平均精度(也称为分组地图，gmAP)，也可以计算出来

5 EXPERIMENTS AND ANALYSIS

5.1 Experimental Setup

我们在TGFS数据集上执行基准测试。采用表1中的类顺序，将24个类平均分为4组。利用第4.3节提出的图像选择策略，对每组图像进行选择。经过选择，每组约有5700张训练图像和3800张测试图像。然后我们对以下方法进行基准测试

FCIOD是本文提出的一种方法，因为该模型可以在增量训练过程中访问有限数量的训练数据。选择Resnet101[9]作为骨干特征提取器，根据[11]中的建议，利用Kullback-Leibler散度损失对方程3进行优化。该模型在每个会话中由十个epoch进行训练。在训练过程中，样本集的大小固定为200，初始学习率为0.001，每隔4个时点逐渐降低0.2。为了平衡GPU内存和速度，在4台Nvidia GTX 1080 Ti GPU上平均放置12张图像，在进行类增量训练时需要10gb GPU内存。

ILWCF[27]是一种支持类增量训练的最先进的对象检测方法。该方法适用于在类增量训练过程中，模型不能访问任何以前的训练数据的情况。该方法以边缘框[32]生成边界框建议，利用快速R-CNN对建议进行分类，并对坐标进行回归。在进行课堂渐进训练时，采用知识蒸馏机制，防止老课的灾难性遗忘。我们使用了作者发布的代码，并采用了他们论文中建议的相同参数。该模型为每个训练会话进行20K次迭代训练。第一个阶段的初始学习率设置为0.01，下一个阶段的初始学习率设置为0.001，当达到训练过程的80%时，初始学习率降低0.1。

我们还对传统的策略和方法进行了基准测试。类增量(CI)策略是指在执行类增量训练时，扩展模型的输出节点，只使用新类的数据对模型进行训练。再培训策略是传统的培训策略。增加模型的输出节点后，将之前的所有训练数据进行合并，形成混合训练数据集。利用混合数据集对在ImageNet[2]上预先训练的权值重新初始化后的模型进行训练。我们将这两种策略应用到YOLO v2和更快的R-CNN中，形成以下四种方法:

YOLOv2是YOLOv2与类增量策略的结合。使用Darknet19[22]作为骨干。每组训练350个epoch，批大小为64。开始时将学习率设置为0.001，每150个时代衰减0.1个。其他参数与[22]相同。

frrcn - ci将更快的R-CNN与类增量策略相结合。采用ResNet101作为特征提取器。该模型在每个列车会话中训练10个时点。初始学习率设置为0.001，历元8衰减0.1。我们保持所有其他设置和参数与建议在[24]相同

YOLO- rt将YOLO v2与再培训策略集成在一起。其他参数与yolol - ci策略相同

frrcn - rt是快速R-CNN与再培训策略的结合。其他参数与FRCN-CI策略相同

模型按4.3节中的训练协议进行分组训练，结果如表2所示，具体结果如表3所示。每个模型的四行描述了每个训练阶段之后的性能。首先利用A组数据对模型进行训练。然后通过B组数据对训练良好的模型进行更新，使其能够同时识别A组和B组对象。在接下来的两次会话中，模型分别由C组和D组进行更新，两次会话后分别检测A组到C组和A组到D组的对象

Take Goods from Shelves A Dataset for Class-Incremental 翻译

5.2 Experimental Results

Performance.

研究结果分为四类: 1)下界，包括YOLO-CI和FRCN-CI，仅利用新类数据，对遗忘现象无任何防范; 2)严格的基线，特别是ILWCF，在执行类增量训练时，不需要任何以前的数据，引入各种机制来防止遗忘; 3)放松基线，尤其是FCIOD，在有限数量的“旧”累积训练数据的辅助下，对遗忘现象实施策略; 4)上界，包括yolol - rt和FRCN-RT，全部通过累积的数据对模型进行再训练。研究结果分为四类: 1)下界，包括YOLO-CI和FRCN-CI，仅利用新类数据，对遗忘现象无任何防范; 2)严格的基线，特别是ILWCF，在执行类增量训练时，不需要任何以前的数据，引入各种机制来防止遗忘; 3)放松基线，尤其是FCIOD，在有限数量的“旧”累积训练数据的辅助下，对遗忘现象实施策略; 4)上界，包括yolol - rt和FRCN-RT，全部通过累积的数据对模型进行再训练。

下界。该策略的模型在新组上有较好的性能，而在旧组上性能下降较快。例如YOLO-CI在a组得到92.4%的gmAP，然后用B组数据更新模型。更新后，模型得到B组的gmAP为88.2%，但是忘记了a组的知识，因为a组的gmAP下降到了7.7%。这说明该模型面临灾难性遗忘，没有任何机制可以预防。在其他群体中也可以看到类似的现象。

严格的基线。知识蒸馏机制虽然缺乏老班的训练数据，但在一定程度上防止了老班的遗忘现象。

放松的基线。与之前的模型无法访问任何以前的训练数据相比，这种策略更加宽松。范例管理机制可以找出对边界框建议分类最有价值的例子，这些例子可以在一定程度上帮助模型克服遗忘现象。但是，FCIOD是一种比较初步的方法，只考虑FRCN分支中的分类器，遗忘现象仍然明显。

上限。

它是所有四种策略中最宽松的策略，也是前一种策略的一个特例:范例集的大小是无限的。结果表明，由于所有类的图像都是充分的，因此该策略不会发生遗忘。

Trainingtime。

假设每个组有大致相同的一堆示例，因此孤立地训练每个组的时间大致相等。对于每一组，我们将正向时间表示为tf，反向时间表示为tb

Take Goods from Shelves A Dataset for Class-Incremental 翻译

6 CONCLUSIONS

本文旨在解决来自零售业的计算机视觉挑战。为了促进本课题的研究，我们引入了一个来自真实自助贩卖机的海量取货(TGFS)数据集。为了使目标检测模型能够解决商品添加问题，我们回顾了类增量目标检测设置，并介绍了一种阈前模型，即更快的R-CNN类增量目标检测器(FCIOD)。我们在TGFS数据集中对几种策略和方法进行了基准测试，为这个问题建立了一个基线

Take Goods from Shelves A Dataset for Class-Incremental 翻译

摘要

1 INTRODUCTION

2 RELATED WORKS

2.1 Object Detection Dataset

GroceryDataset

弗莱堡杂货数据集

MVTecD2SDataset

Small Hand-held Object Recognition Test (SHORT)

2.2 CNN-Based Object Detection Methods

The two-stage methods.

The single-stage methods.

2.3 Class-incremental Learning

从货架上取货数据集

3.1 Dataset Construction

图像采集硬件。

架子上的货物。

取货过程。

后处理。

统计数据

独特性

3.2 Applications

4 CLASS-INCREMENTAL OBJECT DETECTOR

4.1 Knowledge Distillation Structure

The Protocol of Our Problem

Dataset Preparing.

Training.

Evaluating.

Evaluation metrics.

5 EXPERIMENTS AND ANALYSIS

5.1 Experimental Setup

5.2 Experimental Results

Performance.

6 CONCLUSIONS

相关推荐