KITTI 3D Object Detection Dataset
数据集构成
分为训练集与测试集, 分别包含7481和7518张图片, 每张图片有对应的点云数据。
其中, 只有训练集的ground truth被公布。
Ground truth的格式为:
对应的涵义为:
特点:
- 同时有2D和3D的位置标注, 且都是有方向的。
- 根据遮挡与截断程度分为Easy、Medium、Hard三个级别。
- 由于数据量的原因, 只考虑汽车、人与自行车三个类别。
Evaluation
与2D的检测问题一样, AP(Average Precision)是用于衡量算法性能的主要指标。 计算IoU时使用的维度不同, 得到的AP也不同。 常用的AP计算方式有三种:
-
: 将3D检测结果框映射到回2D 的Image View, 与图片上的2D ground truth计算IoU。
-
:直接在3D空间计算检测结果与Ground truth的IoU。
-
: 将3D检测结果与Gound truth映射到2D的鸟瞰图上再计算IoU。
但AP只考虑到检测结果的(分类和)位置上的表现, 不能衡量检测结果的方向是否正确。 所以还有另一个衡量指标 AOS, Average Orientation Similarity, 平均方向相似性, 用于衡量检测结果与Ground truth的方向相似程度。
AP的计算方式为:
AOS的计算方式与AP类似:
其中分别代表时的 precision.
具体计算方式可参考Pascal voc的evaluation.
分别代表时的orientation similarity.
其中:
- 为recall=r时的检测结果集合。
- 为角度差值。
可以看出, 当两个框的角度相同时,, 方向相似度为1; 时, 方向相似度为1.
有的论文里(AVOD)也将3D上计算的AOS称为AHS(Average Heading Similarity).