Robust Dense Mapping for Large-Scale Dynamic Environments


项目地址:http://andreibarsan.github.io/dynslam

算法流程

Robust Dense Mapping for Large-Scale Dynamic Environments

A 双目恢复深度

文章选择了Efficient Large-scale Stereo Matching (ELAS) 和DispNet两种深度恢复方法。基于在完整性和精度上各有优势的两种方法来评估重建结果。

B 语义分割

文章选择了Multi-task Network Cascades (MNC)来进行语义分割,前后帧之间,根据交并比来跟踪语义分类,没有和前一帧匹配成功的语义用以做跟踪初始化。刚性变换的物体如汽车也会在后续操作中对齐做单独重建,非刚性运动的物体如行人,不对齐做重建。静态部分用于后续环境的重建。

C 稀疏场景流跟踪和位姿估计

使用libviso2进行位姿估计,在左右帧和参考帧之间,提取特征点进行四向匹配,根据匹配结果,利用RANSAC算法来计算相机和刚性运动的物体位姿。我觉得比较奇怪的是,为什么相机的位姿估计不在静态环境上进行?

D 物体运动估计

利用相机位姿来判断物体的运动和静止,运动物体采用和相机相同的方法来计算位姿。

E 静态环境和动态物体重建

使用InfiniTAM对静态环境和动态物体进行建模

F 深度图修剪

Robust Dense Mapping for Large-Scale Dynamic Environments

在室内环境中,由于视距较小,深度估计的误差不大。在室外环境下,如上图所示,深度估计会有较大的误差,在重建结果中产生大规模的重建错误。文章去除了体素块中深度过大的部分。

实验评估

文章提出的实验侧重于评价重建效果,而不是跟踪精度。

  • 定性评价:去除动态物体之后,静态环境重建效果提升。
  • 定量评估: 基于2015 KITTI stereo benchmark对重建效果进行评估,利用语义分割结果将静态环境和刚性变换的动态物体分开进行评估,不考虑分类其它语义的点。结果显示ELAS虽然重加完整度较差,但是重建结果较好。而且更加能够受益于多帧融合对于深度估计错误值的优化。同时,去除错误的深度估计也可以降低重建的规模,提升重建精度。