DOTA: A Lareg-scale dataset for object detection in aerial images

DOTA: A Lareg-scale dataset for object detection in aerial images

Abstract: Earth vision

图像规模庞大,多样性,物体定位和地球表面物体实例的形状检测,良好注释的数据集过于匮乏

从不同的传感器和平台众包2806个航拍图像,每一个图像是大约4000*4000,目标涵盖了各种各样的规模,位置,形状。这些图像被遥感领域专家注释并被分为15个类别,注释后的完整数据集图像包括188282个实例,每一个被一个任意四边形标记。

1.Introduction

从自然场景的目标检测算法向earth vision转换。

区别:

  1. 航拍图像中对象实例的尺度变化是巨大的。这不仅是因为传感器的空间分辨率,还因为同一对象类别内的尺寸变化。
  2. 许多小物体实例在航拍图像中拥挤,例如,港口中的船只和停车场中的车辆。此外,航拍图像中的实例频率是不平衡的,例如,一些小的size(例如1kx1k)图像包含1900个实例,而一些大尺寸图像(例如4kx4k)可能只包含一小部分小实例。
  3. 航拍图像中的物体通常以任意方向出现。还有一些具有极大纵横比的实例,例如桥。

2.Motivations:

我们认为一个好的航空图像数据集应该具有四个属性,即1)大量图像,2)每个类别的许多实例,3)正确定向的对象注释, 4)许多不同类别的对象,这使得它接近真实世界的应用程序。然而,现有的航空图像数据集[15,17,24,40]共同存在几个缺点:数据和类别不足,缺乏详细的注释以及低图像分辨率。而且,它们的复杂性不足以被视为重新考虑现实世界。

DOTA: A Lareg-scale dataset for object detection in aerial images

DOTA: A Lareg-scale dataset for object detection in aerial images

DOTA每张图像上实例多,类别小是因为航拍图像中能够看清的物体有限(分辨率低)。

3.Annotation of DOTA

3.1 图像的收集

在航拍数据集上,多种多样的传感器被使用,是产生数据集偏差的因素,为了消除这些偏差,我们数据集中的数据是由多分辨率多传感器和多平台收集来的,比如谷歌地球,为了提高数据的多样性,记录坐标,保证没有重复的图像。

3.2 分类

15类包括:

飞机,船舶,储罐,棒球场,网球场,篮球场,地面轨道场,港口,桥,大型车辆,小型车辆,直升机,环形交通枢纽,足球球场和篮球场。

3.3 标注方法

(x,y,h,w) (x,y)表示位置,(h,w)是边框的宽和高 不能精确或紧凑的贴合物体的轮廓

(x,y,w,h,theta) theta 表示边界框与水平方向的夹角度  不能贴合围绕住那些不同部分之间可能有较大变形的物体。

任意四边形边界框,可以表示为f(xi; yi), i = 1; 2; 3; 4,其中(xi; yi)表示图像中定向边界框顶点的位置。顶点按顺时针顺序排列。

3.4 数据集的划分

1/2 训练集

1/6 验证集

1/3 测试集

4.DOTA 数据集的性能

4.1 图片大小

航拍影像相较于自然场景图像都是比较大的,我没数据集的图像原始尺寸范围大概是800*800-4000*4000之间,但是一般常规数据集如Pascal_voc和mscoco中大部分图像尺寸都不出超过1000*1000

4.2 具有多种方向上的实例

4.3 空间分辨率信息

每张图像提供了空间分辨率

4.4 具有多种像素尺寸的分类

小中大实例占比比较平均

DOTA: A Lareg-scale dataset for object detection in aerial images

4.5 具有多种纵横比的实例

计算了数据集中所有实例的两种宽高比,为模型提供更好的参考:

  1. 最小外接矩形边界框的宽高比
  2. 原始四边形边界框的宽高比

数据集中有大量具有大纵横比的实例

4.6 各种实例密度的图像

 

5.评价

我们在DOTA数据集上使用了目前最先进的目标检测方法来评估。对于水平物体的检测,我们选择那些在普通目标检测表现良好的算法,如选择Faster-RCNN(26)、R-FCN(4)、YOLV2(25)和SSD(16)作为我们的基准测试算法。对于定向的物体检测,我们修改原来的Faster R-CNN算法,使其能使用正确预测定向的边界框。

值得注意的是,主干网络如下:对RFNET-101使用R-FCN和Faster R-CNN,对InceptionV2使用SSD,对YOLVO2使用定制化的GoGoLeNET

5.1 Tasks

HBB

DOTA: A Lareg-scale dataset for object detection in aerial images

OBB

DOTA: A Lareg-scale dataset for object detection in aerial images