A Point-Line Feature based Visual SLAM Method in Dynamic Indoor Scene

Abstract
Introduction
Related Work
Feature Extraction and Matching
Dynamic Objects Elimination
Motion Estimation
Experiment
Conclusion and Future Work

本文主要的创新点在于将特征点和线性特征信息相结合，同时通过对动态目标上特征点的踢除避免动态环境对位姿信息估计带来的不利影响。

Abstract

本文在基于特征信息的基础上针对传统的基于点信息的方案在较少语义的场景下精度和鲁棒性降低的问题以及针对在视觉里程计中由于移动物体对视觉中的位姿估计信息造成的干扰提出了一种结合特征点和特征线的视觉里程计，同时针对视角中的移动物体文中通过YOLO模型对相关的特征信息进行了踢除，有效的提高了通过视觉信息估算位姿信息的精度和鲁棒性。

Introduction

当前的视觉里程计主要的方案依旧是基于特种呢个点，例如ORB_SLAM，该方案面临的主要问题依旧是在较低语义的场景下无法保证足够的正确率和鲁棒性，因此本文中提出的方案是基于特征点以及特征线的视觉里程计方案，通知当前已有的方案主要是针对静态环境下运行的，本文中提出的方案对移动物体中的特征信息进行了踢除，有效的避免了动态物体对位姿信息估计造成的不利影响。

Related Work

该部分对视觉SLAM的发展以及相关的部分进行了粗略的介绍，包括实时性、卡尔曼滤波、非线性优化、以及相关的图优化算法，但之前大部分的工作都没有针对动态的场景考虑，于是在动态场景的干扰下视觉SLAM的精度不足等问题依旧有待解决。
本文提出的方案将特征点和特征线相结合，同时针对移动的物体对结果造成的影响踢除了有效的方案避免动态环境对整体的效果造成的影响。整个系统的框架如下图所示。
A Point-Line Feature based Visual SLAM Method in Dynamic Indoor Scene

Feature Extraction and Matching

该部分主要对俩种特征信息的提取和匹配所涉及到的问题进行介绍。
A.Point Feature Tracking
系统中特征点的提取是在ORB的基础上进行的，通过基础矩阵 $F$ ，对不合理的特征点进行踢除处理，最后通过匹配帧之间的视差信息对不合理的匹配进行踢除，在正确特种特征匹配的基础上可以估算对应特征信息的3D空间坐标信息，对应的3D空间点的坐标信息和对应的2D特征信息在之后的位姿信息估计中会发挥较大的作用。
B.Line Feature Tracking
对线性特征信息的跟踪主要是实现对LJL(Line-Junction-Line)的跟踪，通过LSD算法获取直线信息，将俩直线之间具有交点的结构称之为LJL结构，通过构建图像金字塔模型结合LJL结构对图片之间的线性特征进行跟踪。

Dynamic Objects Elimination

该部分在物体检测方面使用了YOLO方案，整个流程分为以下3个部分。
A.Extract The Candidate Box
对原始图像进行区域分割。
B.Target Detection
对区域中的目标进行检测。
C.Pedestrian Detection and Positioning
估算行人位姿信息，输出格式为 $[X,Y,W,H,P_0,C_p]$ ，该输出信息标识了目标信息所在的区域信息。
D.Pedestrian Detection Based On Image Sequences
通过YOLO模型对图像信息进行处理获得移动物体上的特征信息，将其踢除避免对位姿信息的估计造成影响。
A Point-Line Feature based Visual SLAM Method in Dynamic Indoor Scene

Motion Estimation

在踢除了动态特征信息之后，通过对3D和对应的2D特征信息之间构建误差信息实现最优的位姿信息估计，对应的3D空间点为 $X_i$ ，对应俩帧的投影信息分别为 $Z^i_1,Z^ i_2$ ，于是俩帧对应的投影信息为 $\begin{bmatrix}z^i_1\\1\end{bmatrix}=CX^i,\begin{bmatrix}z^i_2\\1\end{bmatrix}=C(RX^i+t)$ ，于是针对点类型的特征信息构建的误差函数为 $e_1=\sum^N_{i=1}(||CX^i-[z_1^i,1]^T||^2+||C(RX^i+t)-[z_2^i,1]^T||^2)$
对于线性特征信息，对应的误差信息为 $e_2=\sum^M_{j=1}(||L_j\times V_S||^2+||L_j\times V_E||^2)$ 其中 $L_j$ 表示线性2D特征信息对应的方向向量， $V_S,V_E$ 表示3D线性信息对应的俩个端点。于是通过LM方法求解 $min(e_1+e_2)$ 获得对应的 $R,t$ 。

Experiment

Conclusion and Future Work

本文提出了一种结合点和线性特征信息的视觉里程计系统，同时引入目标检测算法对移动物体进行检测踢除动态环境对视觉位姿信息估计的影响。

A Point-Line Feature based Visual SLAM Method in Dynamic Indoor Scene