算法流程

Robust Dense Mapping for Large-Scale Dynamic Environments

A 双目恢复深度

文章选择了Efficient Large-scale Stereo Matching (ELAS) 和DispNet两种深度恢复方法。基于在完整性和精度上各有优势的两种方法来评估重建结果。

文章选择了Multi-task Network Cascades (MNC)来进行语义分割，前后帧之间，根据交并比来跟踪语义分类，没有和前一帧匹配成功的语义用以做跟踪初始化。刚性变换的物体如汽车也会在后续操作中对齐做单独重建，非刚性运动的物体如行人，不对齐做重建。静态部分用于后续环境的重建。

使用libviso2进行位姿估计，在左右帧和参考帧之间，提取特征点进行四向匹配，根据匹配结果，利用RANSAC算法来计算相机和刚性运动的物体位姿。我觉得比较奇怪的是，为什么相机的位姿估计不在静态环境上进行？

利用相机位姿来判断物体的运动和静止，运动物体采用和相机相同的方法来计算位姿。

使用InfiniTAM对静态环境和动态物体进行建模

Robust Dense Mapping for Large-Scale Dynamic Environments

在室内环境中，由于视距较小，深度估计的误差不大。在室外环境下，如上图所示，深度估计会有较大的误差，在重建结果中产生大规模的重建错误。文章去除了体素块中深度过大的部分。

文章提出的实验侧重于评价重建效果，而不是跟踪精度。

定性评价：去除动态物体之后，静态环境重建效果提升。
定量评估：基于2015 KITTI stereo benchmark对重建效果进行评估，利用语义分割结果将静态环境和刚性变换的动态物体分开进行评估，不考虑分类其它语义的点。结果显示ELAS虽然重加完整度较差，但是重建结果较好。而且更加能够受益于多帧融合对于深度估计错误值的优化。同时，去除错误的深度估计也可以降低重建的规模，提升重建精度。