KITTI 3D Object Detection Dataset

数据集构成

分为训练集与测试集, 分别包含7481和7518张图片, 每张图片有对应的点云数据。
其中, 只有训练集的ground truth被公布。
Ground truth的格式为:
KITTI 3D Object Detection Dataset

对应的涵义为:
KITTI 3D Object Detection Dataset

特点:

  • 同时有2D和3D的位置标注, 且都是有方向的。
  • 根据遮挡与截断程度分为Easy、Medium、Hard三个级别。
  • 由于数据量的原因, 只考虑汽车、人与自行车三个类别。

Evaluation

与2D的检测问题一样, AP(Average Precision)是用于衡量算法性能的主要指标。 计算IoU时使用的维度不同, 得到的AP也不同。 常用的AP计算方式有三种:

  • AP2D: 将3D检测结果框映射到回2D 的Image View, 与图片上的2D ground truth计算IoU。
    KITTI 3D Object Detection Dataset
  • AP3D:直接在3D空间计算检测结果与Ground truth的IoU。
    KITTI 3D Object Detection Dataset
  • APBEV: 将3D检测结果与Gound truth映射到2D的鸟瞰图上再计算IoU。
    KITTI 3D Object Detection Dataset

但AP只考虑到检测结果的(分类和)位置上的表现, 不能衡量检测结果的方向是否正确。 所以还有另一个衡量指标 AOS, Average Orientation Similarity, 平均方向相似性, 用于衡量检测结果与Ground truth的方向相似程度。

AP的计算方式为:

AP=111r{0,0.1,,1.0}maxr^:r^rP(r^)

AOS的计算方式与AP类似:

AOS=111r{0,0.1,,1.0}maxr^:r^rS(r^)

其中P(r)分别代表recall=r时的 precision.

P(r)=TPTP+FP

具体计算方式可参考Pascal voc的evaluation.

S(r)分别代表recall=r时的orientation similarity.

S(r)=1|Dr|iDr1+cosΔθ2δi

其中:

  • Dr为recall=r时的检测结果集合。
  • Δθ为角度差值。

可以看出, 当两个框的角度相同时,Δθ=0, 方向相似度为1; Δθ=π时, 方向相似度为1.

有的论文里(AVOD)也将3D上计算的AOS称为AHS(Average Heading Similarity).

References