论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

1

摘要

我们建议将人工场景中的文本对象紧密集成到可视化SLAM中,基于文本的视觉SLAM的核心思想是将每个检测到的文本视为一个平面特征,这个平面特征具有丰富的纹理和语义信息.文本特征由三个参数简洁地表示,并采用光照变化的光度误差集成到视觉SLAM中.据我们所知,这是第一个与文本特征紧密结合的可视化SLAM方法.我们在室内和室外环境中测试了我们的方法.结果表明,有了文本特征,视觉SLAM系统变得更加鲁棒.并产生更精确的3D文本地图.这对于机器人或增强现实应用中的导航是有用的.

视觉SLAM是自我运动估计和场景感知的重要技术,已广泛应用于无人机导航、地面车辆或自动驾驶汽车导航和增强现实应用.典型的视觉SLAM算法从图像中提取点特征用于姿态估计和建图.最近的方法甚至直接对像素进行操作.众所周知,在可视化SLAM系统中加入线甚至面这样的高级特征将会以更少的参数,带来更好的性能.

我们周围可以用作高级特征的一种对象是文本.日常场景中的文本标签为导航提供了丰富的信息.它们可以帮助我们识别地标,在复杂的环境中导航,并引导我们到达目的地.由于深度神经网络的蓬勃发展和诸如COCO-Text、DOST和ICDAR等大型文本数据集的出现,文本提取和识别近年来发展迅速.一个问题是,文本是否可以集成到一个可视化的SLAM系统中,不仅可以产生更好的性能,还可以生成高质量的3D文本地图,这对导航和场景理解非常有用.

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

2

介绍

提出了一种新的与文本特征紧密结合的视觉SLAM方法。我们的基本动机是文本通常是平面的和纹理丰富的斑块特征:我们在日常生活中发现的文本大多是平面状的区域,至少对于一个单词或字符,如果不是整个句子。文本实体的丰富模式使得文本对象自然成为跟踪和定位的良好特征。我们的工作表明,通过充分挖掘文本特征的这些特征,我们可以提高SLAM系统的整体性能,包括定位和语义图生成的质量。本文的主要技术贡献包括:

  • 提出了一种新的文本特征三变量参数化方法.参数化是紧凑的,并且允许用小的运动视差对文本特征进行瞬时初始化

  • 通过采用由归一化平方差和测量的光度误差,文本特征被集成到视觉SLAM系统中.这种光度误差对快速相机运动引起的照明变化和模糊图像是鲁棒的.文本特征的跟踪和映射通过最小化光度误差来完成,而无需额外的数据关联过程.

  • 我们给出了实现这种基于文本的SLAM系统的细节,包括文本特征的初始化和更新、基于文本的摄像机姿态跟踪和后端优化.据我们所知,这是第一个文本特征紧密集成的可视化SLAM方法.

我们在室内和室外环境中进行实验.实验结果表明,与基于线特征相比,本文提出的基于文本的SLAM方法具有更好的准确性和鲁棒性,能够生成更好的三维文本地图,这种语义上有意义的地图将有利于人造环境中的导航。

3

系统

我们的文本SLAM系统建立在使用点特征的基本系统之上,并采用基于关键帧的框架来紧密集成文本特征。点的混合特性和文本特性使我们的系统即使在没有文本标签的场景中也能正常工作.图3是TextSLAM的流程图

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

4

实验

我们收集了一组图像序列,用于室内和室外场景的评估.图4显示了我们的数据收集设备.左边是室内测试场景,右侧是配备GoPro摄像头的数据采集设备.

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

我们在表中给出了相对位姿误差和绝对位姿误差.注意那些方法的误差非常接近.原因是测试场景很小,纹理很高,其中只使用特征点应该效果不错.ORB-SLAM的性能略优于我们的两种方法,这并不奇怪,因为ORBSLAM采用了一种基于协方差姿态图的复杂地图重用机制.我们的方法目前实际上是里程计系统,尽管如此,与我们的单点实现相比,我们仍然观察到在使用文本特性方面的性能提升.

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

我们还评估了该方法在快速摄像机运动下的鲁棒性.快速运动导致严重的图像模糊,如图5所示,我们的基于文本的方法在这些测试中工作得很好,并且执行得更准确.

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

角度误差的统计数据在图8中示出,建图结果在图7中.实验结果表明,文本SLAM生成的三维文本地图明显优于基于ORB-SLAM的平面拟合方法,原因是ORB-SLAM生成的点云实际上是有噪声的,如图7所示.我们分析了导致这些噪声点的原因,并推测这可能是由图像中不正确的特征位置或对应关系引起的.

图七虽然采用了RANSAC,但对ORB-SLAM的点云进行平面拟合仍然会产生噪声结果(如下面一行所示).TextSLAM通过使用光度误差将文本对象作为一个整体进行匹配或跟踪来避免这种问题.

图八是角度误差的统计分布.TextSLAM和ORB-SLAM的结果分别以红色和蓝色显示.

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

(图七)

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

(图八)

室外实验在某商业中心进行,如图6所示,这个日常环境充满了各种各样的挑战,包括各种大小、字体、背景和语言的文本对象、复杂的遮挡、玻璃的反射和动态的行人.由于很难获得摄像机轨迹或3D文本地图,我们仅呈现视觉结果来显示我们的方法的有效性.图6中的第二列和三列展示了重建的3D文本标签和估计轨迹.在最后一栏中,从自上而下的角度对ORB-SLAM进行了并排比较.

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

(图六)

图六是购物中心的真实世界测试,文本检测结果显示在第一列,每行显示并放大了三个典型位置.第二列和第三列显示了特写视图和俯视图.为了比较,相同位置的ORB-SLAM性能也在第四列中给出.我们可以在视觉上观察噪声点云,如封闭在红色矩形中.

5

结论

我们提出了一种新的与平面文本特征紧密结合的可视化SLAM方法.实验已经在具有地面真实和真实世界场景的人工室内情况下进行.实验结果表明,基于文本的SLAM方法比仅基于点的SLAM方法具有更好的性能,尤其是在由快速摄像机运动引起的模糊视频序列中.然而,即使基于点的方法产生非常嘈杂的点云,定位性能增益也没有我们在室内测试中预期的大.这可能是因为相机姿态估计对噪声点不太敏感,因为通常涉及鲁棒的方法。然而结果表明,我们的方法生成的三维文本地图比基于现有的可视化SLAM系统的松耦合方法要精确得多.

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

▲长按加微信群或投稿

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

论文简述 | TextSLAM:具有平面文本特征的视觉SLAM

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  论文简述 | TextSLAM:具有平面文本特征的视觉SLAM