Visual Place Recognition: A Survey阅读笔记

注:本文不是翻译,重在关键点的理解和记录,以及额外材料的补充。

摘要:文章主要内容

首先,引入视觉位置识别的概念。
然后,在忽略环*观变化的情况下,给出位置识别的解决方案。
再次,在考虑环境变化的情况下,给出位置识别的解决方案
最后,结合深度学习,语义分割,视频解说,讨论位置识别的未来。

I Introduction

一个位置识别系统需要做的是,像人或动物一样,识别出当前这个地方我曾经来过。这是一个较难的领域,是因为环境总是具有挑战性的变化。
首先,一个位置识别系统需要有一个内部表示的地图,去和当前输入的图像做比较;其次必须系统最后需要报告一个belife:是否最近的视觉信息是否在之前出现过。

II 在机器人领域的位置识别概念

视觉识别系统包括:图像处理模块belief 生成模块地图
Visual Place Recognition: A Survey阅读笔记

III what is a place?什么是位置?

由于机器人的传感器和执行器的噪声,去建一个精确的地图(a metrically accurate map),并且在里面实现定位是困难的。所以我们采用另一种简单而有效的建图方式——拓扑地图,它用节点代表位置,用edge代表位置之间的可能的路径。机器人导航简化为跟随节点之间的这些边缘,而位置代表了路径之间的关键交叉点或决策点以及期望的最终目标。
以下都是基于拓扑地图中node的选择。

位置的定义取决于导航的上下文环境,它可以被定义为一个点,也可以被定义为一个二维区域或三维区域。与机器人的位姿不同,一个palce没有方向,一个依旧存在的挑战是位姿不变性——无论机器人在这个地方的方向如何,都能确保被识别出来。

**palce quantify **: 如何将世界分为不同的地方?
这个问题与视频分割中的变化点检测相似,所以能使用变换点检测算法:例如
Bayesian surprise,语义回归。过去有:将相似图片聚为一组(ISP)作为拓扑地图的节点;结合Kalman filtering 和 the Neyman-Pearson Lemma.;dynamic vocabulary building;topic modelling;coresets;都是用于如何将视频/图片序列转化为不同place的方法。

Future and challenge】一个持续的挑战是:使用语义标签(如“门”或“十字路口”)增强外观信息,因此,Place可以根据label在线选择决策点。在地图中加入语义数据可以改善规划和导航任务,需要将位置识别与其他识别和分类任务相关联,尤其是场景分类和对象识别。这些关系是共生——识别可以改善目标检测,为目标检测提供上下文启动以及上下文先验对象定位,反之,目标识别也可以帮助位置识别, 特别是在室内环境,例如厨房或客厅可以由一些oject来确定,从而有利于语义地图的建立。

IV. 描述位置:图像处理模块

视觉位置描述主要分为两大类:那些有选择地提取图像中,某些有趣或值得注意的部分(local freture descriptor),以及那些描述整个场景而没有选择阶段的部分(global freture descriptor)。常见的local :SIFT,SURF,FAST…常见的global:HOG,PHOG,Gist…

local 和 global 区别 :local需要先检测出角点(特征点/感兴趣的点),而global无需检测这一步,不管图像的内容直接进行操作。

Future and challenge】: 权衡pose invariance(不管图像实在地方的那个角度(视点)拍摄的都能被识别出来这个地方)和condition invariance(当视觉外观变化时(例如光照变化:同一个地方的白天与黑夜)也能识别出位置)这两个方面,到现在还是没有很好的解决。

【词袋模型的缺点】:

  1. 不能很好的解决“感知偏差”问题,直观特征描述子出现没出现,忽略了场景的几何位置关系。
  2. 词袋模型是典型的预先训练的模型,也就是说如果换了一个场景就得重新训练词典。改善:针对这个问题有人提出了在线BOW模型,无需提前训练模型。
    【优点】:可以做到pose invariance

【全局描述的缺点】:
全局描述符比局部特征描述符更依赖于位姿。改善:通过将单词袋装方法与图像段上的Gist描述符相结合。
【优点】:condition invariance

【局部描述子缺点】:
局部特征描述符在光照条件变化时表现较差;
在变化条件下的位置识别方面,全局描述符的表现要优于局部特征描述符。
【优点】:pose invariance

两种方法的折衷】在图像片段上使用全局描述符而不是在整幅图像上使用全局描述符可能会在这两种方法之间提供一种折衷,因为足够大的图像片段显示了整幅图像的一些条件不变性。足够小的图像片段表现出局部特征的位姿不变性。