Semantic Visual Localization-论文阅读笔记

本文提出了一个基于3D几何和语义信息进行视觉定位的新方法：
Semantic Visual Localization-论文阅读笔记

（1）采用RGB-D相机作为系统输入，分别对输入图像进行像素级的语义分割，并根据深度信息投影到3D空间中，融合得到体素级的3D语义地图。

（2）根据语义类别对体素进行聚类，得到一个个subvolume个体。

（3）采用变分编码-解码结构对subvolume进行处理，幻想出subvolume中被遮挡的部分

（4）采用变分编码-解码的潜在空间输出作为subvolume的描述子，同时对语义和结构信息进行压缩编码

（5）根据描述子对两地图进行匹配，过程同视觉词袋相似，也会通过下线训练得到一系列单词，通过K层聚类来加速匹配

（6）两地图对齐，根据缩放比例a,穷尽枚举所有的旋转和平移量，分别进行匹配验证，匹配好的标准不仅是体素对齐，语义也要相同。

思考：本文采用神经网络对3D几何和语义信息进行一个压缩编码，生成一个描述子，定位后续过程就与典型的视觉词袋相似了。