A Survey on Deep Learning in Medical Image Analysis(2)

A Survey on Deep Learning in Medical Image Analysis(2)

4. Anatomical application areas

这部分介绍深度学习在医疗图像上的各种应用场景,我们强调一些重要的贡献并且讨论系统在大数据集或者公共挑战数据集上的性能,这些表现在网址 http:\\www.grand-challenge.org

4.1 Brain

A Survey on Deep Learning in Medical Image Analysis(2)
A Survey on Deep Learning in Medical Image Analysis(2)
DNN已被广泛用于几个不同应用领域的脑图像分析(表1)。 大量研究涉及阿尔茨海默病的分类和脑组织和解剖结构(例如海马体)的分割。 其他重要的领域是病变的检测和分割(例如肿瘤,白质病变,腔隙,微出血)。
除了针对扫描级别分类的方法(例如阿茨海默病诊断),大多数方法学习从局部补丁到表示(representations)的映射,然后从表示到标签的映射。然而,局部补片可能缺乏解剖信息最重要的任务所需的上下文信息(如白质病变分割)。为了解决这一问题,Ghafoorian等人(2016b)使用了非均匀采样的贴片,通过逐渐降低贴片侧的采样率来跨越更大的范围。许多组使用的另一种策略是多尺度分析和全连接层中表示的融合。
尽管在所有调查研究中,大脑图像都是三维体积,但大多数方法都是二维的,即逐片分析三维体积,这通常是由于减少的计算需求或一些数据集中相对于平面内分辨率的厚切片(原始文章:the thick slices relative to in-plane resolution in some data sets)引起的。最近的出版物也采用了3D网络。
DNNs已经赢得了许多脑图像分析挑战。在2014和2015脑肿瘤分割挑战赛(BRATS),2015年纵向多发性硬化病变分割挑战赛,2015年缺血性中风病变分割挑战赛,2013年MR脑图像分割挑战赛(MRBrains)中,顶尖的战队都使用CNNs。几乎所有上述方法都集中在脑部核磁共振成像上。我们期望其他的脑成像方式,如CT和US(超声波成像),也能从基于深度学习的分析中获益。

4.2 Eye

A Survey on Deep Learning in Medical Image Analysis(2)
眼科成像在过去几年中发展迅速,但直到最近才将深度学习算法应用于眼睛图像理解。 如表2所示,大多数工作采用简单的CNN来分析彩色眼底成像(CFI)。 解决了各种各样的应用:解剖结构的分割,视网膜异常的分割和检测,眼部疾病的诊断以及图像质量评估。
2015年,Kaggle组织了糖尿病视网膜病变检测竞赛:提供了超过35,000个彩色眼底图像,用于训练算法,以预测53,000个测试图像中疾病的严重程度。 参加比赛的661支队伍中的大多数都采用深度学习,四支队伍的表现均高于人类,均采用端到端的CNN。 最近,Gulshan等(2016)对谷歌Inception v3网络的糖尿病视网膜病变检测结果进行了全面分析,结果显示其性能与七位认证眼科医生相当。

4.3 Chest

A Survey on Deep Learning in Medical Image Analysis(2)
A Survey on Deep Learning in Medical Image Analysis(2)
在射线照相和计算机断层扫描的胸部图像分析中,结节的检测,表征和分类是最常见的应用。 许多作品将从深度网络派生的特征添加到现有特征集中,或者将CNN与使用手工特征的经典机器学习方法进行比较。 在胸部X光检查中,有几组用单一系统检测多种疾病。 在CT中,检测指示间质性肺病的纹理模式也是一个受欢迎的研究课题。
胸部X线摄影是最常见的放射学检查; 一些作品使用大量图像和文本报告来训练组合CNN用于图像分析的系统和用于文本分析的RNN。 这是我们期望在不久的将来看到的更多研究。
在最近对CT中的结节检测的挑战中,LUNA16,CNN架构被所有表现最佳的系统使用。 这与先前的肺结节检测挑战ANODE09形成对比,其中使用手工制作的特征来对结节候选进行分类。 LUNA16中的最佳系统仍然依赖于基于规则的图像处理计算的结节候选,但是使用深度网络进行候选检测的系统也表现得非常好(例如U-net)。 通过CT扫描估计患者患肺癌的可能性是一个重要的主题:它是2017年Kaggle数据科学碗的目标,有100万美元的奖金和超过一千个参赛队伍。

4.4 Digital pathology and microscopy

A Survey on Deep Learning in Medical Image Analysis(2)
A Survey on Deep Learning in Medical Image Analysis(2)组织样本的大规模千兆像素全幻灯片图像(WSI)的日益普及使得数字病理学和显微镜成为深度学习技术的一个非常流行的应用领域。 应用于该领域的开发技术集中于三个广泛的挑战:(1)核的检测,分割或分类,(2)大器官的分割,以及(3)在病变者WSI水平上检测和分类感兴趣的疾病。 表5列出了每个类别的概述。
深度学习技术也已应用于组织病理学图像的标准化。 颜色归一化是组织病理学图像分析的重要研究领域。 在Janowczyk等人的文章(2016a)中,基于深度稀疏自动编码器,提出了苏木精和伊红(H&E)染色的组织病理学图像的染色标准化方法。 最近,Sethi等人(2016)在H&E染色图像中基于CNN的组织分类证明了颜色标准化的重要性。
数字病理学的巨大挑战的引入促进了计算机数字病理学技术的发展。评估现有和新的数字病理图像分析方法的挑战包括:神经过程二维分割的EM分割挑战2012、ICPR 2012和AMIDA 2013的有丝分裂检测挑战、腺体分割的GLAS以及处理乳腺癌组织样本的CAMELYON16和TUPAC。
在ICPR 2012和AMIDA13对有丝分裂检测的挑战中,IDSIA团队通过基于CNN的方法优于其他算法(Ciresan等,2013)。 同一团队在EM 2012(Ciresan等,2012)中具有表现最高的系统,用于神经元过程的2D分割。 在他们的方法中,通过对CNN的输出进行温和平滑和阈值处理来执行分割神经元膜的任务,CNN计算像素概率。
GLAS解决了结肠直肠癌组织样本中腺体实例分割的问题。 Xu等人(2016d)使用三种CNN模型获得了最高排名。 第一个CNN分类像素是腺体与非腺体。 从第一CNN的每个特征图,使用整体嵌套边缘技术提取边缘信息,该边缘技术使用侧面卷积来产生边缘图。 最后,第三个CNN合并腺体和边缘图以产生最终分割。
CAMELYON16是为参与者提供WSI的第一个挑战。相比于其他医疗图像应用,在挑战中大规模标注数据的使用可以训练如22-layer GoogLeNet、16-layer VGGNET及101-layer ResNet这样的深层模型,表现最好(TOP5)的系统使用这些架构中的一个。Wang等人(2016)提出了Camelyon16挑战中性能最佳的解决方案,该方法基于两个GoogLeNet体系结构的集合,一个受过训练,一个没有硬负面挖掘来应对挑战(原文: one trained with and one without hard-negative mining to tackle the challenge)。通过使用Ehteshami Bejnordi等人(2016)的WSI标准化算法,该团队的最新提交方案实现了任务2的AUC为0.9935,其优于独立评分完整测试集的病理学家的AUC(AUC = 0.966)。
最近举行的TUPAC挑战涉及检测乳腺癌组织中的有丝分裂,以及预测WSI水平的肿瘤分级。 Paeng等人(2016年)的系统在所有任务中都取得了最高性能。 该方法有三个主要组成部分:(1)寻找高细胞密度区域,(2)使用CNN检测感兴趣区域中的有丝分裂,(3)将有丝分裂检测结果转换为每个WSI的特征向量并使用 SVM分类器用于计算肿瘤增殖和分子数据分数。

4.5 Breast

A Survey on Deep Learning in Medical Image Analysis(2)
乳房成像也是最早的DNN应用之一,出自Sahiner等人(1996),最近,兴趣又回来了,这导致了对现有技术水平的巨大进步,实现了人类读片者在感兴趣区域一样的表现。由于大多数乳房成像技术是二维的,能够使用在自然图像中很成功的方法,除了一个例外,乳腺癌的检测,这包含三个子任务:(1)大量疑似病变(mass-like lesions)的检测和分类,(2)微钙化的检测和分类,(3)乳腺癌风险评分。乳房X光检查是迄今为止最常见的方式,因此最受关注。关于断层合成、超声成像和剪切波弹性成像(shear wave slastograph)的工作仍然很少,我们只有一篇论文用深度学习分析乳房MRI.这些其他方式在未来几年内可能会受到更多关注。 表6总结了文献和主要信息。
由于许多国家有乳腺癌筛选措施,所以将有大量可以利用的数据,特别是乳房X光,因此,深层模型有足够的机会来实现。遗憾的是,大型公共数字数据库不可用,因此旧的扫描屏幕电影数据集仍在使用中。最近推出的DREAM挑战等挑战尚未取得预期的成功。
结果,许多论文使用小数据集导致混合性能,通过研究半监督式学习、弱监督学习和迁移学习已经解决了这个问题。另一种方法是将深度模型与手工制作的特征结合起来,即使对于非常大的数据集,这些特征仍被证明是互补的 (Kooi et al., 2016)。用于肿块样病变检测和分类的现有技术趋向于遵循具有候选检测器的两阶段管道; 这种设计将图像缩小为一组潜在的恶性病变,这些病变被送入深度CNN (Fotin et al., 2016; Kooi et al., 2016)。替代方案使用绕过级联方法的区域提议网络(region proposal network)(R-CNN) (Akselrod-Ballin et al., 2016; Kisilev et al., 2016)。
当大数据集可用时,可以得到良好的结果。在2016年的SPIE医学成像会议上,一位来自乳腺X射线照相领域的领先公司的研究员告诉与会人员,在一个标准体系结构(Alexnet)上进行了几周的实验,在该公司的专有数据库上进行了培训,其结果优于多年工程手工制作特征系统所取得的成就 (Fotin et al., 2016)。

4.6 Cardiac

A Survey on Deep Learning in Medical Image Analysis(2)深度学习已经应用到心脏图像分析的许多方面,如表7所示。MRI是研究最多的模式,左心室分割是最常见的任务,但应用的数量高度多样化:分割,跟踪,切片分类,图像质量评估,自动钙评分和冠状动脉中心线跟踪,以及超分辨率。
大部分论文使用简单的2D CNNs去逐片分析3D甚至4D数据,Wolterink et al. (2016)等人则是例外,他们使用了3D CNNs。有四篇论文使用了DBNs,但是他们来自同一个团队,DBNs仅仅被用来做特征提取并且被集成在复合分割框架中。还有两篇论文将CNNs和RNNS结合起来使用: Poudeletal. (2016)在U-net架构中引入了一个循环连接,以逐片分割左心室,并在分割下一个切片时学习从前一个切片中记住的信息。 Kong et al. (2016)使用具有标准2D CNN和LSTM的架构来执行时间回归以识别特定帧和心脏序列。 许多论文使用公开数据,这个领域最大的挑战是2015年Kaggle数据科学碗,其目标是自动测量心脏MRI中的收缩末期和舒张末期容量。192支队伍参加了这个200,000美元奖金的竞赛,排名最高的队伍都使用了深度学习,尤其是fCNN或U-net细分方案。

4.7 Abdomen

A Survey on Deep Learning in Medical Image Analysis(2)
关于腹部的大多数论文旨在定位和分割器官,主要是肝脏,肾脏,膀胱和胰腺(表8),两篇论文讨论了肝脏肿瘤的分割。主要形式是前列腺MRI分析和所有其他器官的CT,结肠是解决各种应用的唯一区域,但是总是使用直接的方式:CNN被用来进行特征提取,这些特征被用来分类。
值得注意的是,直到2016年在两个分割挑战中 — 肝脏SLIVER07和前列腺PROMISE12—更传统的图像分析方法占主导地位。在PROMISE12中,目前排名第二和第三的自动方法采用主动外观模型(active appearance models),来自IMorphics的算法在几乎五年中排名第一(现在排名第二)。然而最近一个类似于U-net的3D fCNN成了第一,本文有一个有趣的方法,使用求和操作代替U-net中使用的串联操作,使其成为ResNet和U-net架构之间的混合体。同样在SLIVER07–一个有10年历史的肝脏分割挑战 - CNN已经开始在2016年出现在排行榜的顶端,取代以前主要关注形状和外观建模的主导方法。

4.8 Musculoskeletal

A Survey on Deep Learning in Medical Image Analysis(2)
肌肉骨骼图像也已通过深度学习算法进行分析,用于分割和识别不同成像模式中的骨,关节和相关软组织异常,如表9所示。
令人惊讶的是,有大量的完整应用程序可供使用,其结果非常有希望;其中一个突出的应用程序是Jamaludin等人(2016年)的,他们用12K光盘对系统进行了培训,并声称在四个不同的放射学评分任务中,其接近人类的表现。

4.9 Other

A Survey on Deep Learning in Medical Image Analysis(2)
A Survey on Deep Learning in Medical Image Analysis(2)
最后一节列出了解决多种用途(表10)和各种其他用途(表11)的论文。
值得注意的是,基于深度学习的单一架构或方法可以在没有修改的情况下应用于不同的任务; 这说明了深度学习的多功能性及其普遍适用性。 在一些作品中,使用预训练的架构,有时使用来自完全不同的域的图像进行训练。 一些作者通过使用来自预期应用领域的图像小数据集对其进行训练来分析网络微调的效果。 将CNN提取的特征与“传统”特征相结合也是常见的。
从表11可以看出,大量针对产科应用的论文脱颖而出。 大多数论文都涉及基础工作,例如从超声流中选择合适的框架。 在这些超声序列中进行深度学习的自动化测量的更多工作可能会随之而来。
CNN快速改进现有技术的第二个领域是皮肤镜图像分析。 很长一段时间,从照片中诊断皮肤癌被认为是非常困难的,并且无法用于计算机。许多研究只关注用专业相机获得的图像,最近基于深度网络的系统产生了有希望的结果。 Estevaetal最近的一项工作(2017)通过在皮肤镜和标准摄影图像的数据集上训练标准架构(Google的Inception v3),展示了出色的结果。 该数据集比以前的文献中使用的数据集大两个数量级。 在一次彻底的评估中,该系统可以与30名认证的皮肤科医生相提并论。

5. Discussion

Overview

从本次调查中回顾的308篇论文中可以看出,深度学习已渗透到医学图像分析的各个方面。 这种情况发生得非常迅速:绝大多数贡献,242篇论文,发表于2016年或2017年的第一个月,涵盖了各种各样的深层体系结构。 最早的研究使用预先训练的CNN作为特征提取器。 这些预先训练的网络可以简单地下载并直接应用于任何医学图像的事实促进了它们的使用。 此外,在这种方法中,可以简单地扩展基于手工特征的现有系统。 然而,在过去的两年中,我们已经看到端到端训练的CNN已成为医学成像解释的首选方法(见图1)。 这种CNN通常被集成到现有的图像分析管道中,并取代传统的手工机器学习方法。 这是本调查中最大的一组论文所遵循的方法,我们可以明确地说这是目前的标准做法。

Key aspects of successful deep learning methods

在审阅了这么多论文后,我们可以期望能够为每个单独的任务和应用领域提炼出完美的深度学习方法和架构。 尽管卷积神经网络(和衍生物)现在显然是大多数医学图像分析竞赛中的最佳表现者,但我们可以得出的一个显着结论是,确切的结构并不是获得良好解决方案的最重要的决定因素。 我们已经看到,例如像Kaggle糖尿病视网膜病变挑战这样的挑战,许多研究人员使用完全相同的架构,相同类型的网络,但结果差异很大。经常被忽视的一个关键方面是,关于要解决的任务的专家知识可以提供除了向CNN添加更多层之外的优点。 在应用深度学习算法时获得良好性能的小组和研究人员通常会在深度网络之外的方面进行自我分析,例如新颖的数据预处理或增强技术。一个例子是CAMELYON16挑战中表现最佳的方法通过添加染色归一化预处理步骤(AUC从0.92到0.99),以改善泛化能力而不改变CNN。 其他论文侧重于数据增强策略,以使网络更加健壮,他们报告说这些策略对于获得良好的性能至关重要, 一个例子是在原始U-Net论文中应用的弹性变形。
当然,增强和预处理并不是获得良好解决方案的唯一关键因素。 一些研究人员已经表明,设计包含独特任务特定属性的体系结构可以获得比直接使用CNN更好的结果,我们多次遇到的两个例子是多视图和多尺度网络。 网络设计的其他常常被低估的部分是网络输入大小和接收场(即输入空间中有助于单个输出单元的区域)。应该考虑例如所需的分辨率和上下文来选择输入尺寸以解决问题。 有人可能会增加补丁的大小以获得更多的上下文,但是如果不改变网络的接收领域,这可能不是有益的。作为标准的健全检查,研究人员可以通过对网络输入的视觉评估来自己执行相同的任务。 如果他们(或领域专家)无法获得良好的性能,那么您需要修改网络输入或架构的可能性很高。
我们要触及的最后一个方面是模型超参数优化(例如学习速率,退出率),这可以帮助从网络中挤出额外的性能。我们认为这对于先前讨论的主题和训练数据质量的性能而言是次要的。 令人失望的是,没有明确的方法可以获得最佳的超参数集,因为它是一个高度经验的练习。 大多数研究人员都回归到基于直觉的随机搜索(Bergstra和Bengio,2012),这种搜索通常似乎运作良好。 Bengio(2012)之前已经介绍了一些基本技巧。 研究人员还研究了用于超参数优化的贝叶斯方法(Snoek等,2012),但据我们所知,这尚未应用于医学图像分析。

Unique challenges in medical image analysis

很明显,将深度学习算法应用于医学图像分析提出了几个独特的挑战。 缺乏大型训练数据集通常被认为是一个障碍。 但是,这个概念只是部分正确。 在大多数西方医院中,PACS系统在放射学中的使用已经成为至少十年的常规,并且这些系统已经填充了数百万张图像。很少有其他领域可以在结构良好的档案中以数字方式获得为特定目的而获得的这种大小的成像数据。 类似PACS的系统并未广泛用于医学领域的其他专业,如眼科和病理学,但随着成像在各学科中变得越来越普遍,这种情况正在发生变化。很少有其他领域可以在结构良好的档案中以数字方式获得为特定目的而获得的这种大小的成像数据。 类似PACS的系统并未广泛用于医学领域的其他专业,如眼科和病理学,但随着成像在各学科中变得越来越普遍,这种情况正在发生变化。我们还看到越来越多的公共数据集可供使用:Esteva等(2017)使用了18个公共数据集和超过105个训练图像; 在Kaggle糖尿病视网膜病变比赛中,发布了相似数量的视网膜图像; 几项胸部X光研究使用超过10000张图像。
因此,主要的挑战不是图像数据本身的可用性,而是获取这些图像的相关注释/标签。传统的PACS系统存储放射科医生描述其结果的免费文本报告。将这些报告以自动方式转换为准确的注释或结构化标签需要复杂的文本挖掘方法,这是一个重要的研究领域,其中深度学习现在也被广泛使用。 通过在几个医学领域引入结构化报告,预计将来可以更轻松地提取数据标签。例如,已经出现的论文直接利用放射学家的BI-RADS分类来训练深度网络(Kisilev等,2016)或分析光学相干断层扫描图像的语义描述(Schlegl等,2015)。 我们预计,在不久的将来,对于网络训练在最佳利用(医生)免费文本和结构化报告方面的研究数量将会增加。
鉴于利用PACS或类似系统的免费文本报告来训练算法的复杂性,一般研究人员要求领域专家(例如放射科医师,病理学家)为图像数据制作特定任务的标注。 标记一个足够大的数据集可能需要花费大量的时间,这是一个问题。例如,为了训练用于放射学中的分割的深度学习系统,通常需要3D数据,逐片注释并且这非常耗时。 因此,从有限的数据中有效地学习是医学图像分析研究的重要领域。最近的一篇论文侧重于仅使用稀疏的2D分割来训练用于3D分割的深度学习分割系统(Cicek等,2016)。 在某些情况下,多实例或主动学习方法也可能带来好处,并且最近在深度学习的背景下也有了进展( Yan et al, 2016)。人们还可以考虑通过crowd-sourcing来利用非专家标签(Rajchl等,2016b)。 其他潜在的解决方案可以在医疗领域内找到; 在组织病理学中,有时可以使用特异性免疫组化染色来突出感兴趣的区域,减少对专家经验的需求 (Turkki et al, 2016).
即使数据由领域专家注释,标签噪声也可能是开发算法的一个重要限制因素,而在计算机视觉中,图像标记中的噪声通常相对较低。 举一个例子,一个广泛使用的数据集——LIDC-IDRI数据集 (Armato et al, 2011),用于评估图像分析算法,以检测肺CT中的结节,在该数据集中,肺结节由四名放射科医师独立注释。 随后,读者审查了彼此的注释,但没有达成共识。 事实证明,他们没有一致同意结节的结节数量是他们完全同意的数量的三倍。 培训这种数据的深度学习系统需要仔细考虑如何处理参考标准中的噪声和不确定性。 人们可以想到将标签不确定性直接纳入损失函数的解决方案,但这仍然是一个开放的挑战。
在医学成像中,通常将分类或分割呈现为二元任务:正常与异常,对象与背景。 然而,这通常是一个简单的简化,因为这两个类都可以是高度异构的。 例如,正常类别通常由完全正常的组织组成,但也包括几类良性发现,这可能是罕见的,并且可能偶尔包括各种各样的成像伪像。这通常会导致系统极其擅长排除最常见的普通子类,但在几个罕见的子类中却惨遭失败。 一个简单的解决方案是通过为深度学习系统提供所有可能子类的详细注释来将其转变为多类系统。显然,这再次加剧了注释专家时间有限的问题,因此通常根本不可行。 一些研究人员通过在训练过程中应用选择性抽样(selective sampling)(van Grinsven等,2016)或硬负挖掘(hard negative mining)(Wang等,2016b)来解决这种不平衡问题。然而,当参考标准中存在大量噪声时,这种策略通常会失败。 处理类内异质性的其他方法将受到高度欢迎。
另一个与数据相关的挑战是类不平衡。 在医学成像中,根据手头的任务,异常类别的图像可能难以找到。 例如,乳腺癌筛查计划的实施已经产生了庞大的乳房X线照片数据库,这些数据库已在全球许多地方建立。然而,这些图像中的大多数是正常的,并且不包含任何可疑的病变。 当乳房X线照片确实包含可疑病变时,这通常不会发生癌变,甚至大多数癌性病变也不会导致患者死亡。设计擅长处理这种类不平衡的深度学习系统是另一个重要的研究领域。 我们在当前文献中遇到的典型策略是将特定数据增强算法应用于未充分表示的类,例如缩放和旋转变换以生成新的病变。Pereira et al(2016)对脑损伤分割的数据增强策略进行了全面评估,以解决类不平衡问题。
在医学图像分析中,有用的信息不仅包含在图像本身中。 医生通常会利用大量有关患者病史,年龄,人口统计数据等数据来做出更好的决策。一些作者已经研究过以直接的方式将这些信息结合到深度学习网络中(Kooi et al., 2017),但是,正如这些作者所指出的那样,所获得的改进并不像预期的那么大。 其中一个挑战是平衡深度学习网络中的成像特征数量(通常为数千个)与临床特征(通常只有少数)的数量,以防止临床特征被淹没。医生通常还需要使用解剖信息来进行准确的诊断。 然而,医学成像中的许多深度学习系统仍然基于补丁分类,其中补丁的解剖位置通常是网络未知的。一种解决方案是将整个图像馈送到深层网络并使用不同类型的评估来推动学习,例如Milletari等人(2016b)所做的那样,他们根据Dice系数设计了一个损失函数。这也利用了这样的事实,即医学图像通常使用相对静态的方案获得,其中解剖结构总是大致处于相同的位置并且具有相同的比例。然而,如上所述,如果网络的接收场在整个图像中是小的馈送,则没有益处。 此外,由于例如存储器限制,将完整图像馈送到网络并不总是可行的。 在某些情况下,由于GPU技术的进步,这可能在不久的将来得到解决,但在其他情况下,例如具有千兆像素大小的图像的数字病理学,必须发明其他策略。

outlook

尽管上述大多数挑战尚未得到充分解决,但已经报道了医学成像中深度学习的几个比较好的案例,例如Esteva等(2017)和Gulshan等(2016)在皮肤病学和眼科领域的工作,两篇论文都表明,使用深度学习进行图像分类可以在某些任务中胜过医学专家。 然而,我们认为将这些论文放在与医学图像分析相关的背景中是很重要的,因为大多数任务决不能被认为是“已解决”。需要考虑的一个方面是Estevaetal(2017)和Gulshanetal(2016)都专注于小型2D彩色图像分类,这与计算机视觉中已经解决的任务(例如ImageNet)相似。这使他们能够利用经过充分发掘的网络架构,如ResNet和VGG-Net,这些架构在这些任务中表现出色。 但是,无法保证这些体系结构在例如回归/检测任务中是最佳的。它还允许作者使用经过预先训练的网络,这些网络是在数百万个自然图像的标记很好的数据集上被训练,这有助于解决缺乏类似大型标记的医学数据集的问题。 不同的是,在大多数医学成像任务中,使用3D灰度级或多通道图像,其中不存在预训练的网络或架构。此外,该数据通常具有非常特殊的挑战,例如各向异性体素尺寸,变化通道之间的小配准误差(例如,在多参数MRI中)或变化的强度范围。 虽然医学图像分析中的许多任务可以被假定为分类问题,但这可能并不总是最佳策略,因为它通常需要使用非深度学习方法(例如计数,分割或回归任务)的某种形式的后处理。一个有趣的例子是Sirinukunwattana等人(2016)的论文,该论文详细介绍了一种直接预测原子核中心位置的方法,并表明它优于基于分类的中心定位。 尽管如此,Esteva等人(2017年)和Gulshan等人(2016年)的论文确实展示了深度学习方法的理想可行性,这些方法针对特定的医学图像分析任务进行了精心设计。
回顾机器学习社区在深度学习方面的当前趋势,我们确定了一个与医学成像高度相关并且正在接受(更新)兴趣的关键领域:无监督学习。 神经网络的复兴始于2006年左右,随着神经网络的贪婪分层预训练以无人监督的方式普及。 这很快被完全监督的方法所取代,这些方法成为AlexNet在2012年ImageNet竞赛中取得成功后的标准,本次调查中的大多数论文都遵循监督方法。 然而,对无监督培训策略的兴趣仍然存在,并且最近已经重新获得了关注。
无监督方法很有吸引力,因为它们允许(初始)网络训练,使用世界上可用的大量未标记数据。 无监督方法仍然具有重要作用的另一个原因是人类学习的类比,这似乎是更有效的数据,并且在某种程度上也是以无人监督的方式发生的; 我们可以在不知道特定标签的情况下学会识别物体和结构。我们只需要非常有限的监督就可以将这些已识别的对象分类为类。 我们期望在医学成像中产生影响的两种新的无监督策略是由Kingma和Welling(2013)引入的变分自动编码器(VAE)和由Goodfellow等人(2014)引入的生成对抗网络(GAN)。前者将变分贝叶斯图形模型与神经网络合并为编码器/解码器。 后者使用两个竞争卷积神经网络,其中一个是生成人工数据样本,另一个是从真实样本中区分人工样本。 两者都具有随机成分并且是生成网络。 最重要的是,它们可以端到端地进行训练,并以完全无人监督的方式学习代表性特征。正如我们在前面的段落中所讨论的那样,获取大量未标记的医学数据通常比标记数据容易得多,而像VAE和GAN这样的无监督方法可以最佳地利用这些丰富的信息。
最后,深度学习方法经常被描述为“黑匣子”。 特别是在医学中,问责制很重要并且可能产生严重的法律后果,因此通常不足以建立良好的预测系统,该系统还必须能够以某种方式表达自己。已经开发了几种策略来理解卷积网络的中间层正在响应什么,例如反卷积网络(Zeiler和Fergus,2014),引导反向传播(Springenberg等,2014)或深泰勒组合(Montavonetal,2017)。 其他研究人员将预测与图像的文本表示(即字幕)联系起来(Karpathy和FeiFei,2015),这是了解网络感知的另一种有用途径。最后,一些团体试图将贝叶斯统计与深度网络相结合,以获得真正的网络不确定性估计(Kendall和Gal(2017))。 这将允许医生评估网络何时给出不可靠的预测。 利用这些技术将深度学习方法应用于医学图像分析可以加速临床医生和患者之间对深度学习应用的接受。 我们还预见深度学习方法将用于医学成像中的相关任务,大多数尚未探索,例如图像重建(Wang,2016)。 因此,深度学习不仅会对医学图像分析产生巨大影响,而且会对整个医学影像产生巨大影响。