摘要

以前的方法大部分是用全局信息来进行场景的分类，并且把图像中所有的像素用来高级别的任务。它们只是把RGB和深度信息连接起来，没有探索RGB和深度的关系和互补性，也没有考虑局部特征的分布。从人的观点来看，我们识别物体的种类一般是通过：外观，纹理，形状和深度。不同物体之间的结构分布也要考虑。基于这个观察，建立一个中级别的物体区分性的表示应该会对场景分析很有效。作者提出了LM-CNN（new Convolutional Neural Networks- based on local multi-modal feature learning freamwork）用来场景分类。这个方法可以有效的从RGB-D图像中捕获局部结构，并且可以自动的学习到一个物体级别识别步骤的融合策略，而不是简单的用特征提取层作为分类器。作者在NYU v1深度数据集和SUN RGB-D数据集上做了实验，结果说明我们的方法超过了之前最佳的表现。

关键词

深度学习（Deep learning），局部微调（Local fine-tuning），卷积神经网络（Convolutional neural networks），RGB-D场景分类（RGB-D scene classification）

简介

室内场景分类最近收到来自学术界和工业界的广泛关注，它在语义识别（semantic recognition），基于内容的图像索引和检索（content-based image indexing and retrieval），遥感图像分类（ remote sensing image classification）等任务中有很大作用。在现实世界中，场景的内部变化是巨大的，遮挡（occlusion），光照不足（low illumination），复杂的背景（sophisticated background），甚至不同的视角（view angles）都会带来很多挑战。尽管前人做了很多努力，但是室内场景识别仍然是一个充满挑战的任务。

深度卷积网络（Deep Convolutional Neural Networks (CNNs)）在高层次（high-level）的任务上取得了很大的成功，比如说行为识别（action recognition），图像分类（image classification），目标检测（object detection），情感识别（emotion recognition）。Li等人把不同通道的微分熵（differential entropy）组织起来，作为二维特征（ two-dimensional maps）来训练层次卷积网络（ hierarchical convolutional neural network (HCNN)），用来进行情感三分类（positive，neutral，negative）。Feng等人提出了一种基于等级的多标签（ranking-based multi-label）卷积神经网络，他在处理情感检测时考虑了标签之间的顺序和相关性。CNNs在很多数据集上有相当好的表现（比如在ImageNet数据集上），甚至会超过人类的表现。但是在场景识别任务上CNN特征仍然停留在初步发展的阶段。比如Zhou等人简单的收集了以大规模场景为中心的数据集（Places）来训练AlexNet，然后提取整体的特征，再和ImageNet-CNN得到的特征进行结合得到融合特征（Hybrid features）。虽然发行版本的性能可以通过场景中心CNNS来实现，但是这也依赖于大量的训练数据和很深的网络。所以，场景分类还处在刚刚发展的时期。

室内场景通常包含许多不同的物体，这些物体可以为高级别的任务提供间接的线索。人识别位置的场景一般是基于物体级别的信息，比如说是当人们想到厕所，我们就能很快地想到镜子，马桶，洗手池等等。另外，当我们看到其他相似的场景的时候会更相信自己对场景的判断。所以，由物体信息表示的场景会减少场景图像带来的多样性，并且在不同的场景之间会有更大的区分度。那么很自然的，考虑物体的信息，要比直接考虑像素级别的信息效果会好一些。

最近的深度摄像头，比如说微软的Kinect，为RGB增加上了一个深度信息。相对于RGB图像提供的外观和纹理，深度信息能够提供物体形状的信息，这些信息对于颜色变化，光照不同，旋转角度，缩放比例都是鲁棒的。如下图所示：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

在真实世界的场景中，我们能得到的一些外观，纹理，形状等等信息可以增加人对物体判断和场景识别的准确度。尽管综合RGB和深度信息能够很大程度上提升分类的准确度，但是对于这两个模型，还有很大的进步空间来融合这两者的信息。毫无疑问，深度卷积神经网络，局部场景特征，RGB-D信息的融合能够帮助研究人员设计出更精细的场景分类算法。先前的方法有个共同点：利用RGB-D作为输入的图像，在不同的尺度和位置分开提取特征，接下来，把这些特征连接起来，然后用类似SVM的算法来进行分类。尽管这一类的方法因为利用了物体的信息，能够提高场景分类准确度，但是仍然有两个问题存在。

1，通过CNN的池化层来进行空间信息的聚合（spatial aggregation）过于简单，没有保留足够的局部特征分布的信息。CNN基本的架构不是最适合于场景分类任务的，因为，在CNN的全连接层中，聚合特征中的局部特征分布将会被忽略。

2，简单的把RGB和深度信息连接起来不能有效的探索两者之间的相关性。他们之间的互补性被忽视了，学习特征的过程也不能互相调整。

为了解决这个问题，我们提出了RGB-D局部多模态特征学习的方法（RGB-D local multi-modal feature learning method (LM-CNN)）进行场景分类。LM-CNN可以有效的从RGB-D场景图像中捕获到局部结构，并且可以自动学习物体级别识别步骤的融合策略，而不是简单地从两个模式中提取到的特征上训练一个分类器。我们首先在RGB-D数据集上利用候选区域提取的方法，再对这些区域进行筛选，找出由代表性的区域。接下来，我们对这些选定的候选区域进行聚集和编码。和人对场景的识别过程类似，我们再早期就利用CNN来理解物体。我们的微调多模态网络在融合的步骤中，由附加的一层网络中自动的学习融合前述的两个过程。最后，从候选区域分布中提取概率最大的区域建立多级别的场景图像表示。

这篇论文最大的贡献是提出了建立在CNN特征层的前几个特征和从数据集找出使用代表性的区域用来场景分类的微调多模态网络新颖的方法。

论文的剩下部分是这样组织的：首先是回顾有关深度特征学习和RGB-D融合的方法的工作，其次是详细介绍这个网络结构。然后介绍实验设置和验证的细节，还有实验结果分析。最后是总结和展望部分。

RGB-D局部多模态分类的流程

在这一部分，我们将详细的介绍LM-CNN。下面是流程图：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图片来自于论文）

像我们之前所说的那样，我们的流程进阿里与顶端的预训练网络。我们首先选择适合我们数据集的最先进的候选区域生成方法来从RGB-D数据集中提取候选区域，然后是候选区域的筛选。在获得了这些有区别特征的候选方案之后，我们把这些候选区域通过 Regularized Information Maximization (RIM)聚合起来。在上面这些分好组的候选区域中的多模态模型进行微调之前，先执行一个RGB到深度的编码。接下来，在候选区域的概率分布的顶端建立了多级别场景图象表示。

RGB-D候选区域提取

生成候选区域是用来获得小的相关的边界框集合，同时也可以包含图像中所有的物体。这有相当广泛的应用，比如有效的物体检测，弱监督学习，无监督表示学习等等。现在，有很多生成候选区域的方法，比如BING，MCN，Edge Boxes.BING对边界特征训练一个简单的线性分类器，然后这个分类器以滑窗的方式应用。然后可以得到一个agnostic检测器。MCG结合了gPbUCM和CPMC方法的优点。另外，MCG提出了一个改进的层次分割，这是一个新的生成候选区域和新的排序步骤的方法。Edge和BING相似，但是它把物体的边缘作为得分的特征。在我们的流程中，提取到的侯选区域是很重要的。有效的候选区域应该满足以下三个标准：

高召回率
候选区域数量少
tolerable evaluation speed

有一个论文评价了十个公开发表的候选区域提取方法，只有Edge Boxes方法满足上面这三个标准。所以，我们选择这个方法来生成高质量的RGB候选区域。同时，我们的方法也使用了从层次图像分割中提取候选区域。通过RGB候选区域的位置来把深度场景图裁剪到深度候选区域，然后再获得相应的深度候选区域。我们选择ImageNet数据集预训练模型得到的特征生成图像候选区域。下面是一些RGB-D候选区域的例子：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图像来自于论文）

候选区域筛选

在实践中，我们认为在每个场景类别中存在几个代表性的候选区域。其他不具有代表性候选区域也会出现，但是只有少数几个图片会包含这些候选区域。我们认为这些不具有代表性的区域是离群点。我们利用一类的SVM算法来去掉那些没有代表性的候选区域，并且评价每个候选区域对于类别的区别能力。一个类别的SVM算法可以把没有代表性的候选区域从原始的数据去除掉，用x1,x2,...xn代表一个类别的候选区域，kernel的映射X到H是把原始的区域特征变成其他的特征空间。决策函数的输出仅仅依赖于特征空间H的内积。所以，明确的用一个简单的核函数（满足 Mercers conditions <φ(xi), φ(xj )> = k(xi, xj )）来定义一个非线性映射是不必要的。高斯基函数是一个广泛应用的kernel，我们解下面的最优化问题：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

其中，v ∈ (0, 1] 代表离群率，u ∈ H，η ∈ R分别代表权重向量和偏移量，这可以参数化超平面。λ ∈ Rn,λi代表非零松弛变量。可以得到如下的决策函数：

f (x) = sign(u · ϕ(xi) − η)

这个函数当候选区域具有代表性的时候返回正，当输入值是一个离群点的时候返回值时一个负值。为了得到更好的表现，我们使用了三个级联的分类器。我们定义每个分类器把候选区域的15%认为时不具有代表性的，并且移除它们。基于我们的假设，每一个图片可以被表达为一些候选区域。在现实世界中，一个具有区分能力的候选区域应该出现在一个场景类别中，并且很少出现在其他场景中。基于此，我们为场景类别中的每个候选区域赋予了区分能力（0到1，可以认为是权重）。我们可以用下一个公式来代表Wij：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

其中，Ky代表类似的场景标签中的K最近邻点的候选区域的数量。我们假设K最近邻点和原先的基本一样。那么，Ky用来估计批次和标签之间的连接可能性。在所有的实验中我们设定K是100。下面的表中给出了经过筛选之后的候选区域权重的分布：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

有区分能力的候选区域的聚集

在获得了具有区分能力的候选区域之后，我们把它们聚集起来。这可以帮助我们发现场景类别和候选区域的标签之间的联系。Krause等人提出了一个可以同时聚集数据和训练区分能力分类器的RIM框架（Regularized Information Maximization）。这个算法包含了直观信息理论对象函数的最优化，它可以在类分离、类平衡和集群复杂度之间达到一个平衡。经过聚类的候选区域具有相似的外观和语义含义。直到现在，我们可以得到RGB图像的候选区域聚类。为了得到相对应的深度候选区域，我们把深度场景图像由候选区域在场景中的位置裁剪成深度候选区域。fig3展示了一些SUN数据集和NYU数据集的RGB-D候选区域对。

深度候选区域编码

当我们获得了深度候选区域之后，不像处理RGB图像那样，这些深度图像不能直接的由CNN来处理。为了解决这个问题，一个编码的方法叫做HHA。它把深度图三个通道每个像素编码成0到255之间值，并且强调图像中互补性的不连续性（深度，表面法向和高度）。在这个步骤，我们利用了有效的MATLAB jet colormap。Jet首先把深度值归一化到0到255之间的一个值，接下来归一化的图从一个通道利用jet color map转化成三个通道。对于深度图中的像素，颜色之间的距离被映射为从red(near)到green再到blue(far)。一些例子可以下图中见到，在我的实验中发现Jet编码方法要比HHA要好。

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图像来源于论文，第一行的图像是深度候选区域，第二行是经过Jet编码的深度候选区域。）

局部微调多模态架构

当我们得到RGB候选区域和他们相对应的深度候选区域之后，我们选择微调之前在RGB-D候选区域上预训练好的网络。在神经网络的训练阶段，所有的原始RGB或者有深度信息的图像都会剪裁成227*227大小的像素。这些剪裁之后的图像作为Caffe模型的输入。这个CNN模型包含5个全卷积层，3个全连接层，6亿个参数。架构前面的图中已经给出。它包含两个流：单独处理RGB和深度数据，然后它们在后续的融合步骤中结合起来。每个模型都是在ImageNet数据集上预训练好的。接下来，我们为了处理我们的候选区域类别微调CNN网络。

在每个单独的处理中，我们选择使用在ImageNet数据集预训练完成的AlexNet网络。所有的参数包括RGB候选区域的权重和偏执和深度候选区域中的由Caffe在ImageNet数据集训练好的权重和偏执。接下来我们通过随机初始化RGB和深度的顶层柔性最大值函数的训练两个网络，从RGB和深度候选区域中，我们最小化负对数似然函数。当这两个过程训练好之后，我们丢弃softmax层的权重，然后连接它们，在进行微调。最后一个融合的过程用来最后的层上。与RGB和深度单独的网络类似，RGB-D融合网络在softmax层终止。所有的权重训练的时候动量设置成0.9，dropout设置成0.5。为了避免过拟合的发生，我们学习率初始化为0.01，然后2万次训练之后学习率下降0.001，5万次训练之后训练过程终止。对于这个融合网络，我们通过最小化负对数似然函数来训练网络：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

注意我们在聚类的步骤中获得了N（这个值大概是几百）个候选区域类别，但是我们改变了ImageNet的分类，1000-way到（N+1）-way。与此同时，其他的层没有改变。多出来的way意味着在筛选步骤被移除的候选区域。所以这可以使候选区域分类器对于标签的噪声是鲁棒的。

候选区域的多级别表示

当我们得到N个RGB-D候选区域的聚类之后，接下来就是RGB-D图像对的识别了。我们首先使用EdgeBoxes方法作用域给定的图像对来生成候选区域，每个RGB-D候选区域可以被分成一对类别。因为Spatial Pyramid Matching (SPM)和modified Vector of Locally Aggregated Descriptors被证明是有效的，所以我们选择采用这两个方法。根据SPM方法，我们使用SPM的三个级别并且选择所有候选区域聚类的中心falling到SPM区域。接下来，我们获得了图像候选区域标签的层次直方图。这可以被用来对输入的图像进行分类。修改后的VLAD和原始版本的差别是修改之后的版本不会选择K均值聚类，而是选择具有区别能力的候选区域聚类方法。然后我们分别获得了RGB-D的n个聚类。每个测试图像的候选区域被分配到他的最近邻的类别中心，这生成了每个类别一个4096维度的向量，接下来通过主成分分析法降维到4096/2n维度的向量，最后通过连接这些向量得到4096维度VLAD描述子。

我们考虑使用hybrid Places特征，它从250万张带标签并且综合了局部和全局信息的场景图像中学到。在我们的实验中，可以分别得到RGB hybrid Places特征和深度hybrid Places特征。

最后，我们把归一化之后的VLAD/SPM特征和RGB-D hybrid Places特征拼接用两个隐藏层来训练网络。图片表示为所有特征向量的拼接。这两种特征之间的权重通过在训练集上交叉验证学得，我们的实验在预训练的Caffe网络上执行，这是RGB-D融合神经网络的基础。这个模型包含了5个卷积层（其中1，2，5之后有池化层），两个全连接层和一个softmax分类层。ReLu是全连接隐藏层的**函数，权重和偏执的初始化是从预训练网络中得到的。softmax层被丢弃。然后逐步训练我们的网络。

实验结果

我们的实验是用的最新的NYU深度v1数据集，和SUN RGB-D数据集。这两种数据集从公开可获得的RGB-D传感器数据库中获得。在我们的实验中，我们不仅和手工特征（比如GIST）进行比较，还和深度特征学习模型（比如Alexnet，VGG），一些其他的代表性的模型进行比较。Places-CNN场景特征通过Alexnet或者VGG使用Places数据集进行模型预训练。Places2-CNN场景特征使用Places2数据集，这个数据集有更多的场景照片。更多的关于数据集和实验设置的详细说明如下：

数据集

NYU Depth v1

为了评价我们的数据集，我们首先在由纽约大学的视觉学习图像实验室制作的NYU Depth v1数据集上进行了实验。它从很多领域收集得来（背景不断的改变），促进了许多的应用。对于室内场景分割任务，这个数据集包含7中不同的场景类型，2347个有标签的框架。因为标准的分类协议把咖啡馆的场景移除了，所以我们使用剩下的6种场景。因为一个场景种有很多物体，所以场景种不同图片之间的关联性就很小了，这就导致了这个数据集是很有挑战性的。如果直用RGB图片的话正确率只有55%。以下是这个数据集种一些图片的例子：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图片来自于论文）上面是RGB图像，下面是对应的深度图。

SUN RGB-D

我们也在SUN RGB-D数据集上测试了我们的方法。这个数据集用4个不同的传感器（Intel RealSense, Asus Xtion, Kinect v1, and Kinect v2）获得，包含10335个RGB-D个图片。这些图片被组织为19个场景类别，比如浴室，电脑间，剧场等等，每个类别最少有80个图像。下面是这个数据集种一些照片：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图片来自于论文）上面是RGB图像，下面是对应的深度图像。

然后把这个数据集按照传感器分开，确保每个传感器有一般的数据用来训练，一般的数据用来测试。这些从相似的建筑或者有相似家具风格的房间获取到的图像都要成为训练集或者测试集，但是测试集和训练集不会有交叉。据我们所知，SUN RGB-D是最大的和最具有挑战性的RGB-D数据集。当我们使用GIST和RBF kernel SVM的时候只有23%的准确率这么多。

实验设置

第一个实验是在NYU Depth v1数据集上进行的，在实验期间，我们采用了通过对于每个图片用Edge Boxes方法获得前131个排序了的RGB候选区域。与此同时，对每个图片的层次分割生成32个候选区域（上）,96(下)。在候选区域筛选步骤中，移除百分之15的不具有代表性的候选区域。接下来我们应用有区别能力的候选区域进行聚类，得到70（30）个类别。为了对噪声标签得到鲁棒的候选区域分类器，在筛选的步骤中，被丢弃的候选区域被认为是第71个类别。对应的深度候选区域可以通过裁剪RGB候选区域对应位置的深度候选区域获得。整个的局部微调融合步骤用著名了公共Caffe工具箱来实现。我们使用在ImageNet上得到的预训练模型。两个stream的网络都从预训练的8层预训练网络中获得。softmax层被移除了，然后连接这两个的网络的softmax层。在ImageNet上的1000-way分类变成了71way（31way）分类。在我们的多级别表示的步骤中，通过VLAD和Hybrid CNN，每个图片可以表示为把这两种方法得到的特征拼接起来的特征向量。最后，整个图像分类通过两个200个神经元的全连接层完成。

我们把我们的方法和最先进的方法进行对比。这些方法包括： R. Socher等人使用了CNN和RNN的结合，Le等人使用 robust soft reconstruction cost for ICA，Wang等人局部约束来选择局部图像描述符的相似基础。Bo等人使用以迁移学习为基础的方法。Jin等人使用自训练CNN网络和LLC，Zhou等人使用Places2数据集来进行预训练，然后在NYU depth v1数据集上进行微调，Zhou等人使用Places2和ImageNet数据集进行预训练，在NYU depth v1数据集上进行微调。对比的结果在下表种展示：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图片来自于论文）

可以看出我们的方法在RGB-D场景分类任务上取得了最好的表现，并且超过了已有的方法。我们的方法取得了79.3%的正确率，主要的原因是在数据量很大的情况下由深度学习得到的特征比手工设计的特征确实有效。然后，仅仅使用RGB或者深度信息很难证明我们的方法的有效性。这也就证明了我们的局部微调多模态融合框架的重要性。

下图展示了在NYU Depth v1数据集6个类别分类的混淆矩阵，其中对角线代表分类的准确度：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图片来自于论文）

接下来的实验在SUN RGB-D上进行。在实验中，和处理NYU Depth v1数据集类似，首先我们通过Edge Boxes获得每张图像的了前103个RGB候选区域，在top级别，生成32个候选区域，在低级别生成96个候选区域。在候选区域的筛选阶段，移除15%的候选区域，把他们作为没有代表性的候选区域。接下来对筛选之后的候选区域做聚类。被丢弃的这些没有区分性的候选区域被作为一类候选类别。然后按照类似的方法获得深度候选区域。之后的处理过程也是类似的。

为我们的LM-CNN和以下最先进的方法进行对比：R. Socher等人使用CNN和RNN的结合，Oliva等人使用GIST特征和RBF kernel SVM，Zhou等人使用Places-CNN和线性SVM，Zhou等人使用Places-CNN和RBF kernel SVM，Liao等人使用SUN RGB-D训练Alexnet，Liao等人使用Places-CNN和物体级别的信息，Wang等人使用从RGB,HHA还有修正的表面法向获得的高维Fisher 向量特征。另外，也和以下两个经典的模型进行对比：Places2-CNNs + softmax + Alexnet和Places2-CNNs + softmax +VGG。然而，根据成对的RGB-D图像，我们简单的连接RGB特征和深度特征。比较的结果如下图：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

（图片来自于论文）

可以看出我们的方法在RGB-D数据上获得了最好的效果，超过了两个流行的微调模型（Alexnet和VGG，在Place2场景数据集上进行训练），下图是混淆矩阵：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

全局和局部微调的讨论

为了展示我们的局部微调方法的好处，我们在NYU v1和SUN RGB-D数据集上为了图像分类做了一些附加的全局微调实验。这些实验使用的是预训练网络，并且聚焦于全局微调，把所有的图像作为输入并且依赖于网络本身来学习新数据集中的所有信息。我们在Alexnnet上面执行这些实验，不同的预训练模型，不同的分类器。在CNN上进行学习的网络，比如说是GoogLeNet，表明使用深度模型相对于浅层模型会大幅度的提高分类的表现，因为我们的方法基于Alexnet，我们忽略了其他的更深的网络，比如VGG，GooLeNet。使用ImageNet，Places，Places2分别对Alexnet进行训练，在最后的步骤，我们选择CNN特征和SVM或者softmax来进行图像分类。最终会有6种不同的类型： ImageNet-CNNs features+ Alexnet + SVM, ImageNet-CNNs + Alexnet + softmax，Places-CNNs features + Alexnet + SVM，Places-CNNs+ Alexnet + softmax，Places2-CNNs features + Alexnet+ SVM，Places2-CNNs + Alexnet + softmax。下面是对比的结果：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

从表中可以看出，我们的方法在SUN RGB-D数据集上至少要好4.9%。这表明了我们的局部微调网络流程的优点。和其他6个全局实验进行对比，在相似的数据集下预训练的Alexnet，不同的分类器的选择导致了在分类的效果的稍微不同。所以数据集的选择很大程度上决定了分类的精度。和Learningdeep features for scene recognition using places database中类似的架构，ImageNet数据集包含120万个大范围高分辨率的图像，其中由1000个不同的类别。相比于ImageNet数据集，Places是一个以场景为中心的数据集，它包含了205个场景类别和250张带标签的场景照片，Places2也是一个以场景为中心的数据集但是有800万张照片，401个场景类别。从上个表中的结果看，我们可以看出来Places-CNN和Places2-CNN表现更好。这证明了使用以场景为中心的数据集能够比以物体为中心的数据集更好的性能。

对照试验

在这一部分，我们分析了我们流程中的单独的模块的有效性。我们去掉流程的某一部分（比如说哦是候选区域筛选，聚类，深度编码，局部微调），然后同时其他部分保持不变。下面的表展示了在 NYU Depth v1数据集和SUNRGB-D数据集上的实验结果：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

去掉后续按区域的筛选

我们不经过筛选，直接把所有的候选区域送进接下来的步骤（聚类，深度编码和局部微调）。在我们的筛选步骤中，我们舍弃低权重的候选区域。在这个情况下，我们设定筛选比为在筛选步骤中舍弃的候选区域所占全部候选区域的比例。下图中可以看到不同的筛选比的情况下的实验结果：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

可以看出来，所有的没有经过筛选的识别率比筛选之后的都要低。这是因为尽管我们已经通过Edge Boxes方法获得了合理的候选区域，但是仍然存在着一些假阳性和一些没有代表性的由很多场景类别共享的物体。与此相反，筛选比太高的话，会导致低的识别表现，因为会舍弃掉一些具有区分性的候选区域。一个最优的筛选率可以让过训练数据的交叉验证获得。

去掉区分性候选区域聚类

我们直接把筛选后的候选区域做一个大的codebook，把每个候选区域当成不经过聚类的visual word，接下来我们使用LSAQ（1000个最近邻点）编码和SMP池化来建立图像级别的RGB和深度图像表示。在上面两个数据集中的表现要比完整的流程低，这证明了聚类步骤是很关键的。在这个步骤中，在相似的候选区域中的公共的语义含义被加强了，不重要的区别也可以容忍。所以，区别性的候选区域可以提高已发现的候选区域的代表性和普遍性。下图展示了不同的聚类数量下的识别准确度：

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

可以看出太小的聚类类比数会对相同的区别性候选区域分配不同的区域，另一方面，太多的类别会导致低识别精度，因为区别性候选区域的语义信息难以泛化。

去掉深度候选区域编码

在获得深度候选区域之后，我们直接把深度图像作为多模态局部微调网络的输入。实验结果是没有深度编码之后识别率降低了。另外，我们比较了两种深度编码的方式：HHA和Jet。这两种编码方式都会产生彩色的图像。相比于HHA编码方式（需要附加的图像预处理操作），Jet方法需要很少计算量，实验结果表明，Jet方法会稍微好一些。

没有局部微调

我们直接利用RIM聚类模型来进行池化，而没有进行局部微调。从实验结果中可以看出来，没有局部微调的网络比由局部微调的网络在NYU Depth v1数据集上低2.4%，类似的，在SUN RGB-D上低7.1%。这证明了在我们的流程中，局部微调和常识是一致的，它可以更好的在类别之间定有不同的边界。

结论

在这篇文章中，我们提出了基于CNN的多模态特征学习框架（LM-CNN）来进行RGB-D场景分类。LM-CNN是建立在预训练的CNN模型上的。我们首先使用一个候选区域提取的方法，然后对提取到的候选区域进行筛选，得到具有代表性的候选区域，再把这些候选区域使用RIM方法进行聚类。旨在利用ImageNet数据集进行候选识别的大型CNN网络，我们使用了有效的编码方法从深度编码成为图像数据。我们的局部微调多模态模型包含了两个流的卷积神经网络，他们可以在分类之前从RGB和深度候选区域中学习到融合信息。最后，一个多级别的场景图片表示从候选区域的概率分布的前几个中学得。我们在NYU v1 深度数据集和SUN RGB-D数据集上进行了实验，实验说明了我们的方法可以超过之前最先进的方法。

我们相信我们的工作有很大的潜力来提高RGB-D场景的理解。扩展的验证展示出了我们的局部微调多方法比全局微调方法更有效。实验也说明了使用以场景为中新的数据集来训练CNN可以得到比在以物体为中心的数据集上训练得到的效果要好。我们的工作给从原始RGB-D数据中学到丰富的，具有表达能力的局部特征提供了很多可能性。探索其他的局部微调方法和RGB-D融合架构将会是未来流行的研究方向。

RGB-D Scene Classification via Multi-modal Feature Learning论文翻译

摘要

关键词

简介

相关工作

RGB-D局部多模态分类的流程

RGB-D候选区域提取

候选区域筛选

有区分能力的候选区域的聚集

深度候选区域编码

局部微调多模态架构

候选区域的多级别表示

实验结果

数据集

NYU Depth v1

SUN RGB-D

实验设置

全局和局部微调的讨论

对照试验

去掉后续按区域的筛选

去掉区分性候选区域聚类

去掉深度候选区域编码

没有局部微调

结论

相关推荐