Deep Learning Features at Scale for Visual Place Recognition 用于地点识别的大规模深度学习算法

本博客仅为作者记笔记之用,不对之处,望见谅,欢迎批评指正。
更多相关博客请查阅:http://blog.****.net/weixin_39779106
如需转载,请附上本文链接:http://blog.****.net/weixin_39779106/article/details/79028988

原论文链接

一、摘要

Deep Learning Features at Scale for Visual Place Recognition 用于地点识别的大规模深度学习算法

原文摘要

原文摘要 翻译
In this paper, we train, at large scale, two CNN architectures for the specific place recognition task and employ a multi-scale feature encoding method to generate condition- and viewpoint-invariant features. 本文针对地点识别问题,训练了两个大规模CNN网络,并采用多尺度特征编码方法生成了具有条件和视角不变性的特征。
To enable this training to occur, we have developed a massive Specific PlacEs Dataset (SPED) with hundreds of examples of place appearance change at thousands of different places, as opposed to the semantic place type datasets currently available. 为了训练专门用于地点识别的网络,我们开发了一个庞大的数据集(SPED),该数据集包含了数千个不同地点的数以百计不同环*观的例子,但与当前用与的语义地点分类的数据集不同。
We comprehensively evaluate our trained networks on several challenging benchmark place recognition datasets and demonstrate that they achieve an average 10% increase in performance over other place recognition algorithms and pre-trained CNNs. 我们对提出的网络在几个具有挑战性的数据集上的进行了测试,实验证明本文所提出的网络比其他地方识别算法和预先训练的CNN网络的性能平均提高了10%。

详解:

  1. 这是本文作者第二次发表用于地点识别的深度学习CNN。前一篇论文解读详见:Convolutional Neural Network-based Place Recognition 基于卷积神经网络的地点识别算法
  2. 本文首次公开了专门用于地点识别的庞大数据集SPED(250万张图片)。在训练样本如此宝贵的今天,这是十分难得的。

二、介绍

Deep Learning Features at Scale for Visual Place Recognition 用于地点识别的大规模深度学习算法

原文摘要

原文摘要 翻译
However, the task of scene recognition is different from place recognition; images under the same scene category can come from different places. Specific place recognition is the key component of loop closure in the vast majority of mapping and localization systems. 地点识别与场景识别不同, 同一场景类别的图片可能来自不同的地点。 在绝大多数测绘和定位系统中,地点识别是闭环检测的关键组成部分。

Deep Learning Features at Scale for Visual Place Recognition 用于地点识别的大规模深度学习算法

原文摘要 翻译
we do not know what training deep networks specifically for the task of place recognition will yield; we do not have place recognition datasets of sufficient scale with which to properly investigate this question; and we do not understand the characteristics of networks trained specifically for place recognition and how they are different to networks trained for other tasks. 我们不知道专门为地点识别任务训练的深度网络会产生什么; 我们没有足够规模的地点识别数据集来对这个问题进行研究; 而且我们不了解专门的地点识别网络应具有哪些特性,与其他网络有何不同。
The multiple exemplars of each place enables us to cast the place recognition problem as a classification problem. 同一个地方有多个实例,让我们能够把地点识别当作一个分类问题。
visualizing the CNN layers’ responses, we illustrate the differences in the internal representation of a network trained specifically for place recognition versus other recognition tasks. 将网络每一层相应进行可视化,这样可以展示专门用于地点识别的网络的内部表征与其他识别任务的区别。

详解

  1. 首先惯例与基于局部视觉特征的FAB-MAP以及著名的Seq-SLAM进行比较,说明目前基于深度学习的地点识别算法是性能最好的。
  2. 解释地点识别与场景识别的区别,同一场景类别的图片可能来自不同的地点,如:A城的街道和B城的街道场景类别都是街道,但并不是同一地点。
  3. 提出目前基于CNN的地点识别存在的三大问题:1)不知道网络产生的是什么结果;2)没有足够的数据进行研究;3)不知道网络特性。作者在文中一一进行了解答,针对问题1),实际上在上一点中已经说明了,地点识别网络最终产生的结果将是没有具体地点的类别(分类问题);针对问题2),作者自己做了一个包含200万张图片的数据集对地点识别网络进行训练;针对问题3),作者将地点识别网络的每一层进行可视化,来探究其特性。

三、研究背景

略…

四、地点识别网络的训练

Deep Learning Features at Scale for Visual Place Recognition 用于地点识别的大规模深度学习算法