1. VOC2007：

包含9963张标注过的图片，由train/val/test三部分组成，共标注出24,640个物体。 VOC2007的test数据label已经公布，之后的没有公布（只有图片，没有label）。

总共：9963
test： 4952
trainval：5011

train： 2501 object 6301
val： 2510 object 6307

2. VOC2012

trainval： 11540

train：5717
val：5823

VOC2012：VOC2012数据集是VOC2007数据集的升级版，一共有11540张图片。对于检测任务，VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。对于分割任务， VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有 2913张图片共6929个物体。
VOC2012数据集分为20类，包括背景为21类，分别如下：

人：人
动物：鸟、猫、牛、狗、马、羊
车辆：飞机、自行车、船、巴士、汽车、摩托车、火车
室内：瓶、椅子、餐桌、盆栽植物、沙发、电视/监视器
这些物体包括20类：
voc数据 map f1计算

二、Detection Task

在test数据集上对20类目标预测出每个类别的bounding box。每个bounding box包含（x，y，w，h，real-valued confidence，class）这样可以画出Precision/recall曲线
对此任务按下面的数据进行训练，不允许自己标注
提交结果
用检测器检测出结果后，每行按以下格式输出（第一个左上像素是1，1）
输出置信度大于0.5的检测结果
类别、置信度、左、上、右、下
评估
PR curve、AP、mAP
area of overlap: Detections Ground truth bounding boxes
其中交并比a0>0.5，预测框和真实框的交集/并集

注意：对一个图片的同一个目标有5个检测结果，则认为1个TP，4个FP。
这个任务应该是参赛者在输出检测结果之前就要过滤的，这会直接影响P=TP/(TP+FP)，但是不会影响R=TP/len(GTs)

注释标记为difficult的不计算在评估里，或者单独进行评比

以voc2007为val为例 2510，6307
数字就是总的目标实例：除了6307个目标还有一个background类别，总共6308，对总的预测进行计算TP，FP，从而计算R和P，再利用检出的M进行分别求和计算R=acc_TP/npos, 或者计算
F1：又称为平衡F分数（BalancedScore），它被定义为精确率和召回率的调和平均数。
说明：总分为本实战项目排行榜上的Score，排名：总分值越高，排名越靠前。结果匹配方法：本题规定predicted bounding box和ground truth bounding box的IOU（交叉比）作为结果匹配的依据。检测正确的目标：IOU值>0.7的结果。漏检：标准答案中标识出的目标，但是模型中未找到IOU值>0.7的匹配项
voc数据 map f1计算

按如下口罩检测就是5类，训练后生成：模型、日志、算法效果评估图(损失曲线：从tensorboard导出），最后对模型进行评估F1分数

某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：

精确率 = 700 / (700 +200 + 100) = 70%

召回率 = 700 / 1400 =50%

voc数据 map f1计算

1. VOC2007：

2. VOC2012

二、Detection Task

相关推荐