深度补全（二）-论文阅读-翻译（）

Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture（用通用的多尺度卷积体系结构预测深度、表面法线和语义标签）2015

概述

本文实验一个单一的多尺度卷积网络架构来处理三种不同的计算机视觉任务：深度预测、表面正太估计、语义标记。本文的网络使用一系列的尺度逐步细化预测，并且在没有任何超像素或低层次分割的情况下捕获许多图像细节。

（一）介绍

场景理解是视觉中的一个核心问题，有很多不同的方面。包括描述不同场景部分标识大的语义标签；描述物理几何的表面法线或深度估计；单个对象范围的实例标签；并提供捕捉人们与环境的可能交互的功能。其中许多元素通常用像素映射表示，像素映射包含每个像素的值或标签，例如，包含每个像素可见对象的语义标签的映射，或表面法线方向的向量坐标的映射。

在本文中，我们将使用一个通用架构来处理这三个任务:深度预估、表面法向估计和语义分段。我们的多尺度方法直接从输入图像生成像素映射，而不需要低级的超像素或等高线。并且能够使用一系列用于提高分辨率的卷积网络堆栈来对齐许多图像细节。在测试时，这三个输出都可以实时生成(~30Hz)。

（二）相关工作

ConvNets近来被应用到其他许多任务中，包括姿态估计[36,27]、立体深度[39,25]和实例分割[14]。这些系统中的大多数都使用ConvNets来查找本地特性，或者生成离散提案区域的描述符；相比之下，我们的网络使用本地和全局视图来预测各种输出类型。此外，虽然这些方法最多只能处理一到两个任务，但我们能够将我们的网络应用于三个不同的任务。

本文的方法建立在Eigen等人采用的方法上，将两个卷积网络分阶段应用于单图像深度图的预测。此文开发了一个更通用的网络，它使用一个三个尺度的序列来生成特征，并将预测细化到更高的分辨率，这适用于多个任务，包括表面法线估计和逐像素语义标记。此外，我们还在深度预测方面改进了性能，说明了我们的改进如何帮助改进所有任务。

以前的语义分割工作包括许多不同的方法，既使用rgb数据[35,4,9]，也使用RGB-D[31,29,26,6,15,17,13]。其中大多数都使用局部特性来分类过度分割的区域，然后进行全局一致性优化，例如CRF。相比之下，我们的方法基本上是反向的:**我们首先进行一致的全局预测，然后进行迭代的局部细化。**这样，本地网络就能意识到自己在全球舞台上的位置，并能利用这些信息进行精确的预测。

Gupta等人[13,14]首先通过生成轮廓来创建语义分段，然后使用手工生成的特征和SVM[13]对区域进行分类，或者使用卷积网络来检测对象[14]。值得注意的是，[13]还执行非模态补全，即通过从深度比较平面来在不同区域之间传输标签。

与我们的语义分割方法最相关的是使用卷积网络的其他方法。Farabet et al.[9]和Couprie et al.[6]都使用一个卷积网络应用于多个尺度的并行生成特性，然后使用superpixels聚合预测。我们的方法在几个重要方面是不同的。首先，我们的模型在最粗的尺度上有一个大的全像视场；正如我们所演示的，这非常重要，尤其是对于深度和法线任务。此外，我们不使用超像素或后处理平滑，本文网络产生相当平滑的输出，允许我们采取简单的像素级最大值。

Pinheiro等人[28]使用一个循环卷积网络，在这个网络中，每一次迭代都逐步合并更多的上下文，通过将一个更粗采样的图像输入与前一次迭代的本地预测相结合。这个方向与我们的方法正好相反，我们的方法是先进行全局预测，然后再迭代地进行改进。此外，尽管它们在所有尺度上应用了相同的网络参数，但我们学习了不同的网络，这些网络可以专门针对它们所处的阶段进行编辑。

最近，Long et al.[24]在并发工作中对最近的VGG ImageNet模型[32]进行了语义分割，在不同层次的特征映射上应用1x1卷积标签分类器，对应不同的尺度，并对输出进行平均。相比之下，我们将网络应用到不同的尺度上，这使得他们可以从完整的图像视域开始进行更复杂的编辑和细化。因此，我们的体系结构很容易适应许多任务，而通过考虑相对较小的上下文和总结预测，他们的体系结构是专门针对语义标记的。
深度补全（二）-论文阅读-翻译（）

（三）模型架构

本文的模型是一个多尺度深度网络，它首先预测基于整个图像区域的粗略全局输出，然后使用更细尺度的局部网络对其进行细化。该方案如图1所示。虽然我们的模型最初基于[8]提出的体系结构，但它提供了一些体系结构改进。
第一，我们使模型更深(更复杂的层)。
第二，我们在更高的分辨率上增加了第三个尺度，使最终的输出分辨率达到输入的一半，即NYUDepth的147×109。
第三，我们没有将输出预测从1级传递到2级，而是通过了多通道特征图;通过这样做，我们发现我们还可以从一开始就联合训练网络的前两个规模，在一定程度上简化了训练过程，并获得了性能收益。

Scale 1：Full-Image View
网络的第一个尺度预测整个图像区域的粗糙但空间变化的特征集，基于一个大的，完整的视野，我们通过使用两个完全连接层来实现这一点。最后一个完整层的输出在其空间维度上由64个特征重新塑造成1/16尺度，然后由4到1/4尺度的因子向上采样。注意，由于特征向上采样是线性的，这对应于一个大的完全连通层从1.6层分解到更大的74×55映射；由于这样的矩阵会大得让人望而却步，而且只有在输入特征更受限的情况下才能产生模糊的输出，所以我们对分辨率和上采样进行了约束。但是，请注意，1/16的大小输出仍然足够大，可以捕获相当大的空间变化，实际上是粗堆栈的1/32大小最终卷积特性的两倍。

由于顶层完全连接，输出中的每个空间位置都连接到所有的图像特征，合并了一个非常大的视场。这与[6,9]的多尺度方法形成了对比，[6,9]的多尺度方法生成的地图中，每个输出位置的视场是一个以输出像素为中心的更局部区域。这种全视图连接对于深度和法线任务特别重要，我们将在第7.1节对此进行研究。

如图1所示，我们训练了模型的两种不同大小:一种是基于imagenet训练的的AlexNet[19]，另一种是使用Oxford VGG网络[32]进行初始化。我们报告了所有任务中模型之间的性能差异，以度量每个任务中模型大小的影响。

Scale 2：Predictions
第二种比例尺的工作是产生中等分辨率的预测，通过结合更详细但更窄的图像视图以及粗网络提供的全图像信息。我们通过将粗糙网络的特征映射与以更精细的步幅执行的单个卷积和池层的特征映射连接起来(见图1)来实现这一点。第二个结构的输出尺度是一个55×74的预测（对于NYUDepth）通道的多少依赖于任务。我们联合训练模型的量表1和量表2，使用SGD对第4节描述的损失进行训练。

Scale 3：Higher Resolution
我们的模型的最终尺度将预测细化到更高的分辨率。我们将Scale-2输出与从原始输入生成的特征图连接在一起，以更精细的步长合并了一个更详细的图像视图。进一步的细化将输出对齐到更高分辨率的细节，生成空间上一致但非常详细的输出。最终的输出分辨率是网络输入的一半。

（四）任务

我们将相同的体系结构结构应用到我们研究的三个任务中:深度、法线和语义标记。每个都使用不同的损失函数和定义任务的目标数据。