论文笔记_SLAM_Review_Visual simultaneous localization and mapping: a survey
目录
7 Salient feature selection (显著特征选择)
8.5 Data association in visual SLAM
a. 环路闭合检测 (Loop closure detection)
c. 多会话和协作建图(Multi-session and cooperative mapping)
9 地图的表达(Representation of the observed world)
9.3 一些经典 Visual SLAM Systems 关键特点的对比
10 测试数据库 Datasets to test visual SLAM systems
1 论文简介
- 时间: 13 November 2012
- 期刊: Artif Intell Rev (2区)
- 作者: Jorge Fuentes-Pacheco · José Ruiz-Ascencio · Juan Manuel Rendón-Mancha
2 现状
最新研究进展:
- 小的静态地图,使用距离传感器(lasers or sonar)进行SLAM被认为已解决了。
活跃研究区域:
- 使用vision作为单一外部传感器,进行动态、复杂、大场景的SLAM;
- RGB-D SLAM 目前较新的研究方向;
- 相机off-line校正:比较普遍(减少相机在线计算量,缺点:内参也可能随环境如温度湿度有微小变化)。
3 问题
使用的计算机视觉技术中,仍有待改进的点:
- 如显著特征的检测、描述和匹配、图像识别和检索等。
Visual SLAM 目前要解决的问题:
- 在外部环境时;
- 在动态环境时;
- 在有太多或很少 salient features 的环境时;
- 在大规模的环境时;
- 在不稳定的相机运动环境时;
- 传感器部分或全部阻塞时。
4 不同传感器比较
4.1 exteroceptive sensors
Laser sensors and sonar 的优缺点
- 优点:
- 精确,获取环境结构的稠密信息。
- 缺点:
- 在高混乱环境(highly cluttered environments)中,不可用;
- 无法识别对象;
- 价格贵,重,块头大,在航空机器人或类人机器人使用困难。
GPS sensor缺点
- 在狭窄街道,水下,其他星球,偶尔在室内不能很好的工作。
仅采用camera
- 优点:
- 既能获取 range information, 又能恢复(retrieve)环境的 appearance;
- 为 detection and recognition 提供了可能;
- 便宜,轻便,低功耗。
-
缺点(可能导致error的原因):
- 相机分辨率不足时;
- 光线有变化时;
- 纹理表面缺乏纹理时;
- 快速移动导致图像模糊时。
- Monocular SLAM 的优缺点:
- 优点:
- 图像比多目相机更容易获取;
- 从硬件和处理时间的角度来看,简单,灵活,经济。
- 缺点:
- 不能通过简单的观察,提供足够的信息,来确定地标的深度;
- a landmark initialization problem 的解决方案:
- delayed (Lemaire etal. 2007)
- undelayed (Vidal et al. 2007)
- 优点:
4.2 Proprioceptive sensors
- 比如: encoders, accelerometers and gyroscopes
- 可以获取:velocity, position change and acceleration。
- 优点:
- 可以通过 deadreckoning navigation method (also known as deduced-reckoning),获取实体移动的增量的评估。
- 缺点:
- 含有固有噪声( inherent noise) ,因为误差的积累;
- 不能总是可以满足精确评估。
4.3 多传感器信息融合
- 会增加费用,重量,设备功率。
5 Visual SLAM 现存重要问题
- 累计误差,导致 robot 位置评估前后不一致(inconsistent estimates),地图重建不协调(incongruous maps)
- 产生的原因:
- 1) 相机移动平滑的假设,和场景含有显著特征的假设;
- 目前解决方案:
- a. 采用keyframes (see “Appendix I”) (Mouragnon et al. 2006; Klein and Murray 2008)
- b. 从模糊图像序列中进行跟踪 (Pretto et al. (2007) and Mei and Reid (2008))
- 目前解决方案:
- 2) 场景中,只含有静态的,刚性的物体(stationary and rigid elements)的假设;
- 目前解决方案:
- a. Wang et al. (2007); Wangsiripitak and Murray (2009); Migliore et al. (2009), 以及 Lin and Wang(2010)
- 目前解决方案:
- 3) 重复场景:如相同的纹理,人工元素,交通信号灯,使得大场景的 SLAM 变得困难。
- 1) 相机移动平滑的假设,和场景含有显著特征的假设;
joidea???: 移动不平滑时,根据移动速度v,设置相机拍摄频率f。对于动态物体,建立含有时间维度的地图表示。
6 Visual SLAM problem 的解决方案
6.1 基于概率滤波器的经典方式
- 概率滤波器中维护了一个包含机器人姿态和环境中地标位置的概率表达。
- 方法有:
-
Extended Kalman Filter (EKF)
- 缺点:
- 对 bad associations 特别敏感,一个不正确的测量,会导致整个滤波器的发散;
- EKF的复杂度是地图上landmarks 数量的二次方倍,很难维护 large maps。
- 改进:
- Atlas Framework (Bosse et al. 2003)
- Compressed Extended Kalman Filter (CEKF) (Guivant 2002)
- Sparse Extended Information Filter (SEIF) (Thrun et al. 2002)
- Divide and Conquer Paz et al. (2008)
- Conditionally Independent Submaps (CI-Submaps) ;Piniés and Tardós (2008)
-
FastSLAM Montemerlo et al. (2002,2003) <= Particle Filter
- 描述:维护了一个实体位姿分布,作为一组 Rao-Blackwellized 粒子,每个粒子代表实体的轨迹,并使用EKF维护自己的map。
-
MonoSLAM:实时单目概率系统,只能在密闭的室内工作(因为它采用EKF来估计数据)。
- 改进:Clemente et al. (2007),采用分层映射技术,基于GCBB(Geometric Constraints Branch and Bound )的一种鲁棒的数据关联算法,执行大的闭合环路(约250米)。
- 单目视觉SLAM的一个问题:landmarks 的初始化(因为landmarks的深度无法从一次观测中计算出来)
- 解决方案:
- Davison (2003):采用延迟初始化技术;
- Montiel (2006):提出了一种称为反深度参数化的技术,在一个EKF-SLAM系统中,从检测到它们的第一时刻,开始执行未延迟的landmark initialization。
- 解决方案:
- 缺点:
- Maximum Likelihood (ML,最大似然估计)
- Expectancy Maximization (EM,期望最大化)
-
Extended Kalman Filter (EKF)
- 方法评价:
- 这些方法在small scale上是成功的,但在 large environments 中导航,或向 loop closure 中添加信息的能力有限。
6.2 增量式的SfM
- 标准流程:
- a. 提取图像显著特征;
- b. 匹配图像特征;
- c. 执行非线性优化(non-linear optimization):采用Bundle Adjustment (BA), 优化重投影误差(re-projection error)。
- 发展:
- visual odometry (VO) 的提出,Nistér et al. (2004)
- Local Bundle Adjustment 的提出: Mouragnon et al. (2006, 2009), 基于VO;
- 评价:视觉测程技术(VO) 允许在每一帧中处理数千个特性,而概率技术只能处理很少的特性。
- Parallel Tracking and Mapping (PTaM):Klein and Murray (2007)
- 它使用了一种基于关键帧的方法,并使用了两个并行处理线程。第一个执行线程执行大量特征的鲁棒跟踪任务,而另一个执行线程在BA技术的辅助下生成3D点地图。
- 缺点:在环境中含有相似纹理,和移动对象时,tracking会失败。
- 它使用了一种基于关键帧的方法,并使用了两个并行处理线程。第一个执行线程执行大量特征的鲁棒跟踪任务,而另一个执行线程在BA技术的辅助下生成3D点地图。
- FrameSLAM and View-Based Maps (Konolige and Agrawal 2008; Konolige et al. 2009)
- 这种方法的基础是,将地图表示为一个“骨架”,由帧之间的非线性约束图(而不是单独的3D特征)组成。
- Strasdat et al. (2010b) 提出:
- 为了提高单目SLAM系统的定位精度,建议增加特征量(SfM的基本属性)而不是帧数。
- 评价:
- 理想的SLAM系统,应该同时利用好SfM技术和概率滤波器的优点。
6.3 受生物学启发的技术
- RatSLAM,Milford et al. (2004) 利用啮齿类动物的海马结构(负责空间记忆)模型,来创建定位和映射系统。
- Collett (2010):研究了沙漠中蚂蚁的行为,分析它们是如何被视觉地标而不是信息素轨迹 ( pheromone trails ) 引导的。
7 Salient feature selection (显著特征选择)
- 包含 points, regions, or even edge segments;
- 良好的特征应有的属性(Lemaire et al. 2007):
- notable (easy to extract).
- precise (it may be measured with precision) .
- invariant to rotation, translation, scale and illumination changes.
7.1 Detectors (特征检测器)
- 选择特征检测器的原则是: 依照机器人实际的工作环境;
- 典型的特征检测器:
-
Harris corners detector (Harris and Stephens 1988)
- Harris-Laplace and Hessian-Laplace points detectors
- Harris-Affine and HessianAffine (Mikolajcczyk and Schmid 2002)
- Harris-Laplace and Hessian-Laplace points detectors
- Difference of Gaussians (DoG) used on SIFT(Scale Invariant Feature Transform) (Lowe 2004)
- Maximally Stable Extremal Regions (MSERs) (Matas 2002)
- FAST (Features from Accelerated Segment Test) (Rosten and Drummond 2006)
- Fast-Hessian used on SURF (Speeded Up Robust Features) (Bay et al. 2006). Mikolajczyk et al. (2005)
-
Harris corners detector (Harris and Stephens 1988)
- 对比结果:
- Hessian-Affine and MSER detectors 性能最好;
- Hessian-Affine:在失焦和JPEG压缩的情况下,性能最好;
- MSER:在视角和光线的变化场景中,鲁棒性最强。
7.2 Descriptors (特征描述符)
- 最常用的是:histogram-type SIFT descriptor ( Lowe,2004)
- PCA-SIFT:
- a modification to SIFT, Ke and Sukthankar (2004),
- 使用更少的components表述SIFT特征,使用的是PCA技术进行缩减
- GLOH (Gradient Location-Orientation Histogram):
- an extension of the SIFT descriptor, (Moreels and Perona 2005; Mikolajcczyk and Schmid 2005)
- SURF descriptor:
- 稳定性优于SIFT (Gil et al. 2009)
- some improvements of the SIFT algorithm:
- ASIFT: 在仿射变换中加入不变性, (Morel and Yu 2009)
- BRIEF (Binary Robust Independent Elementary Features) (Calonder et al. 2010)
- ORB:一种快速的二进制描述符,基于简单但旋转不变且抗噪声 (Rublee et al. 2011)
- PIRF (Position-Invariant Robust Feature) (Kawewong et al. 2010)
- GPU-SIFT:在GPU上的SIFT实现,以便并行、实时计算 (Sinha et al. 2006)
8 图像匹配与数据关联问题
- ( The image matching and data association problems)
8.1 image matching
- 在一个图像中搜索每个元素,在另一个图像中搜索对应的元素;
- 分成两类:short baseline and long baseline;
- Baseline:照相机的光学中心的线。
8.2 data association
- 将传感器的测量值,与机器人地图中的元素,联系起来;
- 这个问题还涉及到,确定测量值是伪造的,还是属于地图中不包含的元素。
8.3 short baseline matching
- 图像在尺度或视角上呈现出较不大的变化;
- patch:一个矩形窗口,推荐大小 9×9 or 11×11 pixels 点的特征是通过简单地从patch中采样的一组像素的强度值表征;
- 确定两个patch之间的相似性的方法有:
- normalized crossed correlation (NCC);
- calculate homography.
- short Baseline缺点:
- 深度计算对噪声非常敏感 。
8.4 Long baseline matching
- 图像在尺度或视角上呈现出较大的变化,
- 这是由于图像中的一个点移动到另一个图像中的任意位置。
- similarity measures (相似性度量)方法:
- Euclidean distance, Manhattan distance, Chi-Square distance
- epipolar constraint (极线约束) (Hartley and Zisserman 2003)
- learning strategies (Grauman 2010; Özuysal et al. 2010)
- Correspondent graphs (Sanromá et al. 2010)
- 使用 robust estimators,处理错误的 correspondence,如:
- RANSAC (Random Sample Consensus 随机样本一致性)
- RANSAC的一个替代品 active matching:
- 一种用于帧到帧通信的贝叶斯技术;
- 并使用了Shannon Information Theory。
- RANSAC的一个替代品 active matching:
- PROSAC (Progressive Sample Consensus 顺序抽样一致性算法)
- RANSAC (Random Sample Consensus 随机样本一致性)
- 匹配算法(matching algorithms):
- ROC curve (Fawcett 2006)
- precision (正确匹配的数量 除以 找到的correspondences的总数)
- recall (正确匹配的数量 除以 预期correspondences的总数)
8.5 Data association in visual SLAM
a. 环路闭合检测 (Loop closure detection)
- 检测方法分类(Williams et al. (2009)):
- 分类依据:关联数据的来源(map space or image space)
- map to map
- image to image
- image to map
- 解决方案:
- Ho and Newman (2007):使用相似矩阵,来编码捕获图像中,所有可能的对,之间的相似关系;
- Eade and Drummond (2008):GraphSLAM 基于 a Bag of Visual Words (BoVW);
- BoVW:其改进版本称之为 Vocabulary tree (Nistér and Stewenius 2006)
- 描述:
- BoVW在信息检索(Manning et al. 2008)和计算机视觉社区开发的基于内容的图像检索领域,取得了巨大的成功。
- BoVW的经典模型,将图像描述为一组局部特征,称之为 visual words(视觉单词),
- 这一整套词汇被称为 visual vocabulary(视觉词汇);许多BoVW方案通过对大量训练图像的描述符进行K-means聚类(但也可以使用其他方法)来生成离线词汇表 (off-line vocabulary)。
- 描述:
- 优点:
- 能快速找到相似的图像。
- BoVW:其改进版本称之为 Vocabulary tree (Nistér and Stewenius 2006)
- Angeli et al. (2008) :在Bayessian filtering方案中,使用incremental BoVW;
- Cummins and Newman (2008) :a probabilistic framework;
- Mei et al. (2010):提出基于co-visibility的a new topometric representation of the world。
b. 绑架机器人(Kidnapped robot)
- 定义描述:
- 机器人被放回一个已经建好map的区域,但不知道它在被运送到那个地方时的位移,
- 或者当机器人由于遮挡、暂时的传感器故障或快速的相机移动而盲目移动时的情况。
- 解决方案:
- Chekhlov et al. (2008):提出了一种能够承受相机姿态不确定性的系统,并从连续不稳定运动或遮挡产生的微小跟踪故障中恢复。
- Williams et al. (2007) :提出一个 re-localization module,该模块监控SLAM系统,检测跟踪故障,在地图地标框架中确定相机姿态,一旦条件改善就恢复跟踪。
c. 多会话和协作建图(Multi-session and cooperative mapping)
9 地图的表达(Representation of the observed world)
9.1 metric maps (度量地图)
- 网格地图 occupancy grid maps (Gutmann et al.2008)
- 网格地图以单元的形式对环境进行离散化,模拟*和被占用的空间,其中可能包含2D、2.5D或3D信息。
- 基于地标的地图 landmark-based maps (Klein and Murray 2007; ...)
- 描述:识别并保存环境中某些显著特征的三维位置。
- 缺点:不适合避障或路径规划。
9.2 topological maps (拓扑地图)
- 描述:(Botterill et al. 2010),将环境表示为由弧连接的,重要位置的列表(类似于图)
- 优点:
- 简化了地图大范围扩展的问题;
- 不过,为了减少局部误差,有必要对map进行全局优化;
- 试验展示,使用IMU和立体视觉,可以度量轨迹达10km (Konolige et al. (2009))。
- 缺点:
- 缺乏度量信息,用地图来为机器人guide是不可能的;
- 改进:Konolige et al. (2011)提出了在单一一致模型中,混合metric和topological信息的策略。
- 基于graph的环境表达;
- 目前困难:
- 当检测到错误的位置估计时,编辑graph的能力有待提高;
- 生成非常大维度的全局地图的能力。
- 目前困难:
- 缺乏度量信息,用地图来为机器人guide是不可能的;
9.3 一些经典 Visual SLAM Systems 关键特点对比
10 测试数据库 Datasets to test visual SLAM systems
- (a) New College and City Centre Datasets (outdoor) (Cummins 2008), used by Cummins and Newman (2008);
- (b) The New College Vision and Laser Data Set (outdoor) (Smith 2012), captured by Smith et al.(2009)
- (c) Bovisa (outdoor) and Bicocca (indoor) Datasets of Rawseeds project (Rawseeds 2012), captured by Ceriani et al. (2009);
- (d) The Cheddar Gorge Data Set (outdoor), captured by Simpson et al. (2012) and RGB-D datasets (indoor)(Sturm 2012)(Sturm et al. 2011).
11. 一些代表性论文
- SLAM要解决的问题定义:problem divided into three main areas: localization, mapping and path planning (Cyrill 2009)
- 使用外部传感器提高visual SLAM鲁棒性的论文:Jones and Soatto 2011,visual-inertial SLAM
- 相机校正内外参数:Hartley and Zisserman 2003
- 三角测量原理: triangulation (Hartley and Sturm 1997)
- 双目立体(binocular stereo)SLAM系统代表工作:Konolige and Agrawal (2008), Konolige et al. (2009), Mei et al. (2009)
- 单目SLAM代表工作: MonoSLAM (Davison 2003)
// 备注:red-interesting, green-idea, croci-TO-DO