论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）

论文：Image Segmentation Using Deep Learning:A Survey

作者：Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza

1、Abstract

图像分割是图像处理和计算机视觉中的关键主题，其应用包括场景理解，医学图像分析，机器人感知，视频监控，增强现实和图像压缩等。在文献中已经开发了用于图像分割的各种算法。最近，由于深度学习模型在各种视觉应用中的成功，已经有大量旨在利用深度学习模型开发图像分割方法的工作。在本次调查中，我们在撰写本文时提供了对文献的全面回顾，涵盖了语义和实例级分割的各种开创性作品，包括全卷积像素标记网络，编码器-解码器体系结构，多尺度以及基于金字塔的方法，递归网络，视觉注意模型以及对抗环境中的生成模型。我们研究了这些深度学习模型的相似性，优势和挑战，研究了使用最广泛的数据集，报告了性能，并讨论了该领域有希望的未来研究方向。

2、Introduction

在许多视觉理解系统中，图像分割是必不可少的组成部分。它涉及将图像（或视频帧）划分为多个片段或对象[1]。分割在广泛的应用[2]中起着中心作用，包括医学图像分析（例如肿瘤边界提取和组织体积测量），自动驾驶车辆（例如可导航的地面和行人检测），视频监控和增强现实数数。从最早的方法，例如阈值[3]，基于直方图的捆绑，区域增长[4]，k均值聚类[5]，分水岭[6]，到更高级的算法，文献中已经开发了多种图像分割算法。例如活动轮廓[7]，图割[8]，条件和Markov随机字段[9]以及基于稀疏性的[10]-[11]方法。然而，在过去的几年中，深度学习（DL）网络产生了新一代的图像分割模型，其性能得到了显着提高-通常在常用基准上达到最高的准确率-导致许多人将其视为该领域的范式转变。例如，图1展示了一个杰出的深度学习模型DeepLabv3 [12]的样本图像分割输出。论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）

图像分割可被表述为具有语义标签的像素分类问题（语义分割）或单个对象的划分（实例分割）。语义分割对所有图像像素使用一组对象类别（例如，人，汽车，树木，天空）执行像素级标记，因此通常比图像分类要困难得多，后者要为整个图像预测一个标签。实例分割通过检测并描绘图像中的每个感兴趣的对象（例如，各个人的分割）进一步扩展了语义分割的范围。

我们的调查涵盖图像分割的最新文献，并讨论了直到2019年提出的一百多种基于深度学习的分割方法。我们对这些方法的不同方面提供了全面的回顾和见解，包括训练数据，网络结构的选择，损失函数，训练策略及其主要贡献。并且对每种方法的性能进行了比较，并讨论了基于深度学习的图像分割模型的一些挑战和潜在的未来方向。我们根据深度学习的主要技术贡献将其分为以下几类：
1）全卷积网络
2）带图形模型的卷积模型
3）基于编解码器的模型
4）基于多尺度和金字塔网络的模型
5）基于R-CNN的模型（例如细分）
6）扩展的卷积模型和DeepLab系列
7）基于递归神经网络的模型
8）基于注意力的模型
9）生成模型和对抗训练
10）具有活动轮廓模型的卷积模型
11）其他模型

该综述主要贡献总结如下：

1、调研了截止2019年提出的100多种分割算法，分为10类。我们使用深度学习对细分算法的各个方面进行全面的回顾和深入的分析，包括训练数据，网络架构的选择，损失函数，训练策略及其主要贡献。
2、概述了约20种流行的图像分割数据集，分为2D，2.5D（RGB-D）和3D图像。
3、提供了在同一基准下不同分割算法的性能比较。
4、我们为基于深度学习的图像分割提供了一些挑战和潜在的未来方向。

3、OVERVIEW OF DEEP NEURAL NETWORKS

3.1 Convolutional Neural Networks (CNNs)

论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
CNN主要由三种类型的层组成：i）卷积层，用来提取特征； ii）非线性层，它们在特征图上（通常是逐元素地）应用**函数，以便能够通过网络对非线性函数进行建模； iii）池化层，降低空间分辨率。CNN的主要计算优势在于，每层感受野的参数共享，因此与完全连接的神经网络相比，参数数量明显减少。一些最著名的CNN架构包括：AlexNet [19]，VGGNet [20]，ResNet [21]，GoogLeNet [22]，MobileNet [23]和DenseNet [24]。

3.2 Recurrent Neural Networks (RNNs) and the LSTM

RNN [25]被广泛用于处理顺序数据，例如语音，文本，视频和时间序列，其中任何给定时间/位置的数据都取决于先前遇到的数据。在每个时间点上，模型都会收集当前时间Xi的输入和上一步hi-1的隐藏状态，并输出目标值和新的隐藏状态。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
RNN通常在长序列方面存在问题，因为它们无法捕获许多实际应用中的长期依赖关系（尽管它们在这方面没有任何理论上的限制）并且经常遭受梯度消失或爆炸问题的困扰。然而，一种称为长短期记忆（LSTM）[14]的RNN旨在避免这些问题。 LSTM体系结构（图4）包括三个门（输入门，输出门，遗忘门），它们调节信息进出存储单元的信息流，该存储单元在任意时间间隔内存储值。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
各个门之间的关系如下：

3.3 Encoder-Decoder and Auto-Encoder Models

编码器-解码器模型是一类模型，可以学习通过两级网络将数据点从输入域映射到输出域：由编码函数z =f(x)表示的编码器将输入压缩为潜在空间表示；解码器y=g(z)旨在预测潜在空间表示的输出。这里的潜在表示本质上是指特征表示，它能够捕获基础输入的语义信息，可用于预测输出。这些模型在图像到图像转换问题以及NLP中的序列模型中非常流行。图5示出了简单的编码器-解码器模型的框图。通常通过最小化重建损失L(y,y’)来训练这些模型，重建损失L(y,y’)真实输出y和后续重建y’之间的差异。此处的输出可以是图像的增强版本（例如，在图像去模糊或超分辨率中），也可以是分割图。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
自动编码器是编码器-解码器模型的特例，其中输入和输出相同。已经提出了自动编码器的几种变型。最受欢迎的一种是堆叠式降噪自动编码器（SDAE）[26]，它可以堆叠多个自动编码器并将其用于图像降噪。另一个流行的变体是变分自动编码器（VAE）[27]，它在潜在表示上施加了先验分布。 VAE能够根据给定的数据分布生成实际样本。对抗性自动编码器是另一种变体，它在潜在表示上引入对抗性损失，以鼓励它们近似先验分布。

3.4 Generative Adversarial Networks (GANs)

GAN是较新的深度学习模型家族[16]。它们由两个网络组成：一个生成器和一个鉴别器（图6）。生成网络G = z！常规GAN中的y学习从噪声z（具有先验分布）到目标分布y的映射，这类似于“真实”样本。鉴别器网络D尝试将生成的样本（“假货”）与“真实”样本区分开。论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）

4、 DL-BASED IMAGE SEGMENTATION MODELS

本节详细介绍了直至2019年提出的一百多种基于深度学习的细分方法，分为10类。值得一提的是，在许多这些作品中有一些共同点，例如具有编码器和解码器部分，跳过连接，多尺度分析以及最近使用的扩展卷积。因此，很难提到每件作品的独特贡献，但是更容易根据它们对先前作品的基础架构贡献来将它们分组。

4.1 Fully Convolutional Networks

Long等 [32]提出了使用全卷积网络（FCN）进行语义图像分割的首批深度学习作品之一。 FCN（图7）仅包含卷积层，这使它能够拍摄任意大小的图像并生成相同大小的分段图。作者修改了现有的CNN架构，例如VGG16和GoogLeNet，以通过将所有全连接的层替换为全卷积的层来管理大小不固定的输入和输出。最终模型输出是空间分割图而不是类别分数。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）

通过使用跳过连接，其中对模型最后层的特征图进行了上采样并与早期层的特征图（图8）融合，该模型将语义信息（来自较深，较粗糙的层）和外观信息（从浅层，细层开始）以生成准确且详细的细分。该模型在PASCAL VOC，NYUDv2和SIFT Flow上进行了测试，并实现了最新的分割性能。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
这项工作被认为是图像分割的一个里程碑，表明可以对端到端的可变图像进行语义分割的深度网络训练。但是，尽管传统的FCN模型广受欢迎和有效，但它还是有一些局限性——它不够快，无法进行实时推理，它没有有效地考虑全局上下文信息，并且不容易转换为3D图片。 为了克服FCN的某些局限性，已经进行了一些努力。

例如刘等 [33]提出了一个名为ParseNet的模型来解决FCN的一个问题，即忽略全局上下文信息。 ParseNet通过使用每层特征图的平均值来增强特征，从而将全局上下文添加到FCN。不同层的特征图被合并到整个图像上，从而产生上下文向量。对该上下文向量进行规范化和解池化，以生成与初始大小相同的新特征图。然后将这些特征图连接起来。简而言之，ParseNet是FCN，其中所描述的模块代替了卷积层（图9）。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
FCN已应用于各种分割问题，例如脑肿瘤分割[34]，实例感知语义分割[35]，皮肤病变分割[36]和虹膜分割[37]。

4.2 Convolutional Models With Graphical Models

如所讨论的，FCN忽略了可能有用的场景级语义上下文。为了集成更多上下文，几种方法将概率图形模型（例如条件随机场（CRF）和马尔可夫随机场（MRF））纳入DL结构。

Chen等 [38]提出了一种基于CNN和全连接的CRF语义分割算法（图10）。他们表明，来自深层CNN的最后一层的响应未充分定位以进行准确的对象分割（由于不变性使CNN可以很好地用于高级任务，例如分类）。为了克服深层CNN的不良定位特性，他们将最终CNN层的响应与完全连接的CRF相结合。他们表明，与以前的方法相比，他们的模型能够以更高的准确率定位分割边界。
论文阅读—图像分割方法综述(一)（arXiv:[cs:cv]20200410）
Schwing和Urtasun [39]提出了一种全连接的深度结构化网络，用于图像分割。 他们提出了一种联合训练CNN和完全连接的CRF进行语义图像分割的方法，并在具有挑战性的PASCAL VOC 2012数据集上取得了令人鼓舞的结果。在[40]中，Zheng等。提出了一种类似的将CRF与CNN集成的语义分割方法。
在另一项相关工作中，Lin等人。 [41]提出了一种基于上下文深度CRF的高效语义分割算法。他们探索了“补丁-补丁”上下文（图像区域之间）和“补丁-背景”上下文，以通过使用上下文信息来改善语义分割。

篇幅过大，下章待续…