Semantic Visual Localization-论文阅读笔记

本文提出了一个基于3D几何和语义信息进行视觉定位的新方法:
Semantic Visual Localization-论文阅读笔记

具体实现方法:

(1)采用RGB-D相机作为系统输入,分别对输入图像进行像素级的语义分割,并根据深度信息投影到3D空间中,融合得到体素级的3D语义地图。

(2)根据语义类别对体素进行聚类,得到一个个subvolume个体。

(3)采用变分编码-解码结构对subvolume进行处理,幻想出subvolume中被遮挡的部分

(4)采用变分编码-解码的潜在空间输出作为subvolume的描述子,同时对语义和结构信息进行压缩编码

(5)根据描述子对两地图进行匹配,过程同视觉词袋相似,也会通过下线训练得到一系列单词,通过K层聚类来加速匹配

(6)两地图对齐,根据缩放比例a,穷尽枚举所有的旋转和平移量,分别进行匹配验证,匹配好的标准不仅是体素对齐,语义也要相同。

思考:本文采用神经网络对3D几何和语义信息进行一个压缩编码,生成一个描述子,定位后续过程就与典型的视觉词袋相似了。