KITTI数据集calibration.txt解读

一、kitti数据集，label解析

16个数代表的含义：

第1个字符串：代表物体类别

'Car', 'Van', 'Truck','Pedestrian', 'Person_sitting', 'Cyclist','Tram', 'Misc' or 'DontCare'

注意，’DontCare’ 标签表示该区域没有被标注，比如由于目标物体距离激光雷达太远。为了防止在评估过程中（主要是计算precision），将本来是目标物体但是因为某些原因而没有标注的区域统计为假阳性(false positives)，评估脚本会自动忽略’DontCare’ 区域的预测结果。

第2个数：代表物体是否被截断

从0（非截断）到1（截断）浮动，其中truncated指离开图像边界的对象

第3个数：代表物体是否被遮挡

整数0，1，2，3表示被遮挡的程度

0：完全可见 1：小部分遮挡 2：大部分遮挡 3：完全遮挡（unknown）

第4个数：alpha，物体的观察角度，范围：-pi~pi

是在相机坐标系下，以相机原点为中心，相机原点到物体中心的连线为半径，将物体绕相机y轴旋转至相机z轴，此时物体方向与相机x轴的夹角

KITTI数据集calibration.txt解读

r_y + pi/2 -theta = alpha +pi/2（即图中紫色的角是相等的）

所以alpha = r_y - theta

第5～8这4个数：物体的2维边界框

xmin，ymin，xmax，ymax

第9～11这3个数：3维物体的尺寸

高、宽、长（单位：米）

第12～14这3个数：3维物体的位置

x,y,z（在照相机坐标系下，单位：米）

第15个数：3维物体的空间方向：rotation_y

在照相机坐标系下，物体的全局方向角（物体前进方向与相机坐标系x轴的夹角），范围：-pi~pi

第16个数：检测的置信度

二、kitti数据集，calib解析

KITTI数据集calibration.txt解读

要将Velodyne坐标中的点x投影到左侧的彩色图像中y：

使用公式：y = P2 * R0_rect *Tr_velo_to_cam * x

将Velodyne坐标中的点投影到右侧的彩色图像中：

使用公式：y = P3 * R0_rect *Tr_velo_to_cam * x

Tr_velo_to_cam * x ：是将Velodyne坐标中的点x投影到编号为0的相机（参考相机）坐标系中

R0_rect *Tr_velo_to_cam * x ：是将Velodyne坐标中的点x投影到编号为2的相机（参考相机）坐标系中

P2 * R0_rect *Tr_velo_to_cam * x ：是将Velodyne坐标中的点x投影到编号为2的相机（参考相机）坐标系中，再投影到编号为2的相机（左彩色相机）的照片上

注意：所有矩阵都存储在主行中，即第一个值对应于第一行。 R0_rect包含一个3x3矩阵，需要将其扩展为4x4矩阵，方法是在右下角添加1，在其他位置添加0。 Tr_xxx是一个3x4矩阵（R | t），需要以相同的方式扩展到4x4矩阵！

通过使用校准文件夹中的3x4投影矩阵，可以将相机坐标系中的坐标投影到图像中，对于提供图像的左侧彩色相机，必须使用P2。rotation_y和alpha之间的区别在于rotation_y直接在相机坐标中给出，而alpha也会考虑从相机中心到物体中心的矢量，以计算物体相对于相机的相对方向。例如，沿着摄像机坐标系的X轴面向的汽车，无论它位于X / Z平面（鸟瞰图）中的哪个位置，它的rotation_y都为 0，而只有当此车位于相机的Z轴上时α才为零，当此车从Z轴移开时，观察角度α将会改变。

KITTI数据集calibration.txt解读

相关推荐