MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

 

摘要

动机:确定癌症亚型可以帮助选择合适的治疗方案,确定良性病变的亚型可以有利于估计患者将来患癌症的风险。病理学家对病变亚型的评估被认为是黄金标准,但是,有时病理学家之间对于病变亚型的区分存在强烈分歧。

目的:提出一个将苏木精-伊红染色的乳腺数字玻片分类为良性或癌症的框架,然后将癌症和良性病例分别分为四个不同的亚型。

资料和方法:我们使用来自81位患者的公共数据库(BreakHis)的数据,其中每位患者都有可用的四个放大倍数(×40,×100,×200和×400)的图像,共有7786张图像。提议的框架称为MuDeRN(使用DEep残差网络对乳腺组织病理学图像进行多分类),该框架包括两个阶段。在第一阶段,对于每个放大倍数,已经训练了具有152层的深层残留网络(ResNet),用于将图像中的斑块分类为良性或恶性。在下一阶段,将被分类为恶性的图像分为四个癌症子类别,将被分类为良性的图像分为四个子类型。最后,通过使用元决策树将ResNets处理后的图像在不同放大倍数下的输出结合起来,对每位患者进行诊断。

结果:对于图像的恶性/良性分类,MuDeRN的第一阶段在×40,×100,×200和×400放大倍数下分别达到98.52%,97.90%,98.33%和97.66%的正确分类率(CCR)。对于根据MuDeRN两个阶段的输出进行的八类图像分类,四个放大系数的CCR分别为95.40%,94.90%,95.70%和94.60%。最后,在进行患者级别的诊断时,MuDeRN在八类分类中的CCR为96.25%。

结论:MuDeRN有助于乳腺病变的分类。

 

1 引言

乳腺癌(BCa)是全球女性中最常见的非皮肤癌。 尽管最近几十年来BCa的发病率有所增加,但由于治疗方法的改进和通过乳腺X线摄影术的早期发现,发达国家的BCa死亡率已降低[1]。 每1000名参与乳房X线摄影筛查的女性中,有15.6至17.5名需要进行穿刺活检[2],但只有四分之一的人被诊断为BCa [3]。 因此,每年,病理学家都会评估大量的乳房组织病理学切片,其中仅约25%包含恶性肿瘤,而良性病变则更为普遍。

病理学家对病例的诊断通常被认为是进一步治疗患者的黄金标准。但是,最近的研究表明,病理学家在区分良性病例与癌症时可能会不同意专家共识得出的参考诊断[4-6]。在[5]中,将115位病理学家做出的6900例个人诊断与专家共识得出的地面事实进行了比较,将17%的非典型性良性病例和3%的非典型性良性病例误诊为导管原位癌或浸润性癌,而10%的浸润性癌或导管原位癌被误诊为有或没有异型的良性病例。此外,研究还表明,每周解释较少病例的病理学家和从事一般病理学家工作的病理学家比专家更多的诊断错误[3-5]。艾莉森等。 [4]将病理学家之间存在分歧的根本原因分为三类,即病理学家相关,诊断编码/研究方法学相关以及标本相关。在病理学家相关因素中,“符合诊断标准的特征的专业意见分歧”排名第一。通过提供客观的分类,计算机辅助分析可以帮助减少良性/恶性分类的差异。

最近,随着整个玻片成像的出现和数字组织病理学玻片的出现,许多研究人员已开始开发计算机辅助检测工具,以将乳房玻片分类为良性或恶性[7]。例如,Weyn等。 [8]使用从小节核及其周围提取的基于小波,基于Haralick,基于强度和形态特征对乳腺病理切片进行了良性或恶性分类,对于病例-正确分类率(CCR)为79%基于分类。在[9]中,从孤立的细胞核中提取的84个特征(形态,基于强度和纹理)用于将图像分类为良性或恶性。灵敏度为97%,特异性为94%。但是,由于首先将上皮细胞核分割,因此这两种方法的计算量都很大。与这些方法不同,Yang等。 [10]使用基于纹理的方法提取了纹理特征,而没有分割幻灯片中的结构。使用此方法,正确分类了89%的图像。

病理学家不仅要负责确定病变是恶性还是良性的,而且还要确定良性或恶性的亚型,因为良性和恶性乳腺病变均包含不同的亚类。 对于BCa患者有不同的治疗选择,确定BCa亚型可能有助于预测患者对治疗的反应; 例如,与浸润性导管癌相比,浸润性小叶癌明显受益于全身治疗[11]。 正确识别良性病变类型也很重要,因为患者在不同类型的良性病变中发生随后的BCa的风险会有所不同[12]。

Cserni等。 [13]表明病理学家之间在确定良性病变亚型方面存在差异。 该研究要求六位病理学家将良性病变分为三类,即纤维腺瘤,叶状肿瘤和其他任何这些亚型。 科恩用于分类的总体kappa为0.48,这表明比较适中[14]。 劳顿等。 [15]研究了十个病理学家之间从叶状体肿瘤中区分出纤维腺瘤的协议,发现只有53%的案例有100%的协议。 在[16]中,研究者对浸润性乳腺癌的分类进行了观察者间一致性研究,在粘液性,小叶性和肾小管性亚型的13位病理学家中,一致性最高,分别为96.0%,78.7%和78.0%。

与恶性/良性分类相似,计算机辅助分析可以帮助病理学家增加病变多类分类的诊断一致性。 尽管确定病变亚型的重要性,但只有少数先前的研究旨在将乳腺病变自动分类为不同的亚型。 在[10]中,BCa的六种亚型被分为两个亚组:I类癌,包含原位导管癌和小叶原位癌; II类癌,包含浸润性导管癌,浸润性小叶癌,淋巴结阴性 转移和软组织转移。 使用基于texton的方法,将图像分为三类,即良性,I型和II型癌症,CCR达到80%。

近年来,有关深度学习(DL)在医学图像分割和分类中的应用的研究越来越多[17]。 DL在过去几年中彻底改变了机器学习。常规地,在有监督的机器学习技术中,基于特定领域的知识来选择判别特征,并且计算机算法确定特征空间中的最佳决策边界。但是,在DL中,计算机从数据中学习最佳特征表示。尽管深度神经网络起源于先前存在的人工神经网络[18],但由于高性能GPU计算的出现,训练深度体系结构近来已变得切实可行,这使得在合理的时间内训练具有许多隐藏层的网络变得可行。 AlexNet是最早的卷积神经网络之一,它在2012年12月赢得了ImageNet挑战[19]。从那时起,网络和学习算法的体系结构有了进一步的发展[17]。类似于其他机器学习领域,DL算法已被广泛用于分析医学图像,尤其是在分割任务中,例如视网膜图像中的解剖结构分割[20]或腹部CT图像中的器官分割[21,22]。 DL也已用于分类任务,例如在乳房X线照片[23]或断层合成[24]上将乳腺病变分类为良性或恶性。在肌肉骨骼图像分析中,DL被用于不同的应用,例如在X射线和MRI图像上进行年龄评估或在CT和MRI图像上进行椎骨定位和识别。在其他领域,例如大脑[25]或心脏[26]图像上也取得了可喜的结果。

在数字病理学领域,DL已用于细胞核检测,分割和分类[27]。 例如,Xu和Huang [28]利用分布式深度神经网络架构来检测全幻灯片高分辨率组织病理学图像中的细胞。 在[29]中,多尺度卷积网络被用于宫颈细胞质和细胞核的精确分割。 DL还被用于大的组织病理学图像中的器官分割,例如结肠腺的分割[30]或神经元结构[31]。 此外,已将其用于分类目的。 例如,结肠癌分类[32],甲状腺细胞病理学分类[33]或前列腺癌图像的Gleason分级[34]。

DL算法还用于分析乳房组织病理学幻灯片。 在[35]中,它被用来检测乳房滑片内的有丝分裂图。 在[27]中提供的有关DL的教程中,AlexNet网络模式用于解决细胞核,上皮和小管的分割以及浸润性导管癌,淋巴细胞和有丝分裂的检测。 Spanhol等。 [36]使用AlexNet将乳房组织病理学图像分类为良性或恶性。 在[34]中,通过在卷积神经网络内部合并小波特征来检测乳腺癌区域。 Cruz-Roa等。 [37]使用DL方法自动检测浸润性导管癌组织。 在[38]中,使用上下文感知的堆叠卷积神经网络体系结构将整个幻灯片图像分类为良性,原位导管癌或浸润性导管癌。

 

本文着重于三个任务:(i)将乳腺组织病理学图像分类为良性或恶性;(ii)将恶性图像分类为导管癌,小叶癌,粘液癌或乳头状癌; (iii)将良性图像分类为腺瘤,纤维腺瘤,叶状肿瘤或肾小管腺瘤。以前,Han等。 [39]使用GoogLeNet [40]将乳房组织病理学图像分为八类,并使用多数投票进行患者分类。尽管这旨在解决几乎相似的问题,但我们改善了图像级别(即,在不合并患者信息的情况下单独考虑每个图像以供决策)和患者级别(即,通过汇总类别为每个患者指定单个标签)分配给该患者所有图像的标签)分类CCR。这是通过首先将污渍归一化作为预处理步骤来实现的。第二,我们使用更深的网络和两阶段分类器,第三,我们使用元决策树(MDT)[41]基于四个放大系数进行患者级别的诊断。

在这项研究中,我们提出了一个名为MuDeRN(使用DEep残差网络对乳房组织病理学图像进行多分类分类)的框架,用于基于苏木精-伊红染色的乳腺数字玻片将患者分类为良性还是癌症,然后将癌症和良性病例分类分为四个不同的子类型。 MuDeRN使用非常深的残留神经网络[42],即具有152层的深残留网络(ResNet-152),将乳腺组织病理学图像分类为良性或恶性。在四个不同的放大倍数下获取图像,并且对于每个倍数,已经训练了一个单独的网络。然后将恶性图像分为四个子类别,而将良性图像分为四个良性亚型。最终,通过使用MDT组合不同放大倍数的网络输出来对患者进行最终诊断[41]。它考虑了网络为每个放大倍数指定的标签的置信度,并考虑了分配标签的CCR,以选择最佳放大倍数进行患者水平的诊断。这项研究的主要贡献是:(i)首次使用ResNet区分乳腺组织病理学玻片的多类分类以及良性和恶性亚型; (ii)提出了一种新颖的框架,该框架可根据不同的放大倍数组合输出,从而使用可训练的方法(即MDT)对患者进行最终诊断; (iii)研究是否可以用颜色增强或对比度增强代替色斑归一化步骤。先前的研究使用不可训练的方法(例如多数投票)来汇总图像级诊断以产生患者级诊断。我们假设将MDT作为一种可训练的方法优于多数表决,这是最常见的不可训练的方法。

 

2 材料和方法

在本节中,将讨论我们使用的数据集和MuDeRN的步骤。 这项研究不受悉尼大学人类研究伦理委员会批准的要求,因为该数据是从可公开获得的数据集中获得的,所有图像均已被识别。

 

MuDeRN对病变亚型进行分类的步骤如图1所示。简而言之,对于每位患者,都有来自四个放大倍数(x40,x100,x200和x400)的一组图像。为了减轻颜色变化,通过两种不同的方法对图像进行了归一化,在2-3中对此进行了说明。从每个归一化图像中,提取方形图像块并将其输入ResNet进行分类。对于每个放大倍数,都要训练一个单独的网络。分类分两个阶段进行。在第一阶段(S1),补丁被分类为良性或恶性,并通过加权多数投票做出图像级决策。每个患者每个放大倍数平均可获得24张图像。为了进行患者级别的诊断,使用MDT [41]组合了赋予患者不同图像的恶性概率。第二阶段由M和B两个模块组成。在第一阶段被分类为恶性的图像被馈送到模块M中,在其中它们被细分为四种癌症亚型,而被分类为良性的图像则被输入到模块B中,在其中分为四类。第二阶段的模块架构与第一阶段的架构几乎相同,但分为四个类别。

 

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

 

2.1。 数据集

 

为了评估MuDeRN的性能,我们使用了BreakHis数据库[43],该数据库是由苏木精(HE)染色的乳腺病理切片的公开数据集。 以四个视觉放大倍数(即×40,×100,×200和×400)采集图像,有效像素大小分别为0.49 um,0.20 um,0.10 um和0.05 um。 图像以三通道红绿蓝(RGB)TrueColor(24位色深,每个颜色通道8位)的色彩空间格式存储。 对于每位患者,病理学家都会确定一些与诊断相关的感兴趣区域(ROI)。 删除了不需要的区域,例如文本注释或黑色边框,并将图像裁切为700×460像素的尺寸。 最后,焦外图像也被丢弃。

 

每位患者平均可获得分别为×40,×100,×200和×400的24.23、25.28、24.46和22.15张图像。 BreakHis数据库由对应于82位患者的82个文件夹组成,但是,其中一位患者(患者ID:13,412)是临界病例(具有导管和小叶癌的特征),因此被分为导管和小叶组。 该患者被纳入良性/恶性分类,但因肿瘤亚型识别而被排除在外。 图2显示了不同子类型的图像分布。

2.2。 深层残差网络

 

深度神经网络是非线性处理单元层的级联,它们形成与数据表示的多个级别相对应的层次结构,首先是学习低级特征(例如边和线)到高级特征(结合了低级特征) 与组织元素)。 当可获得大量标签数据时,它们将成为在医学图像分析中自动分类和分段的日益流行的模型。

AlexNet [19]是最早的深度神经网络之一,它包含五个卷积层,然后是全连接层。 AlexNet旨在将图像分类为1000个对象类别。 与使用双曲正切作为**函数的常规神经网络不同,AlexNet使用整流线性单位(ReLU),因为它们的速度要快几倍。

 

最近的证据表明,更深的网络(具有更多层的网络),例如GoogLeNet(22层)[40],在ImageNet数据集上取得了更好的结果。但是,简单地堆叠更多的卷积层将不会导致较低的分类误差,并且“浅层网络”与浅层网络相比,具有较高的训练误差[42]。这种现象称为降级问题,可能是由于在网络过深时,在可行的时间内难以找到所有隐藏层的权重的优化困难。为了解决这个问题,在[42]中提出了ResNet。在图3中,将ResNet的构建块与普通网络进行了比较。在普通网络中(图3(a)),从输入到输出的映射可以用非线性H(x)函数表示。假设使用F(x)= H(x)-x代替H(x)。如图3(b)所示,在第二权重层x的输出处将x加到F(x),然后将它们的和传递给ReLU。他等。 [42]表明,将这种从输入的快捷方式添加到堆叠层的输出中可以解决更深层网络的优化难题,因为梯度可以直接从后面的层流到前面的层。因为在ResNet中,快捷方式连接仅执行身份映射,所以不会在优化任务中添加额外的参数(因此会增加计算复杂性)。

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

 

在ImageNet数据集上训练并测试了具有50、101和152层的ResNet模型[42]。 正如预期的那样,对于具有152层的ResNet,该错误是最小的。 先前,ResNet-152用于分析组织病理学玻片[44]。 对于将大肠滑坡图像分为六类(五种大肠息肉和正常类)的分类,它的总体准确度达到93.0%,并且与ResNet的50和101层相比表现更好。 因此,在本研究中,我们使用ResNet-152进行分类。

2.3。 染色归一化

 

颜色的不一致是组织病理学切片分析中的主要问题。 不一致的原因可能是由于不同的原因,例如使用不同的化学试剂进行染色,颜色浓度变化或来自不同供应商的扫描仪存在差异。 已经提出了用于污渍归一化的不同算法。 每种算法都有其自身的优点和局限性,并且对于一组图像而言效果更好,但是在应用于其他图像时存在一些缺陷。 因此,这里我们使用了两种不同的染色归一化方法,并为每个图像生成了两个染色归一化图像,IN1和IN2。

IN1是使用基于直方图规范[45]的染色归一化算法生成的,其中将来自患者的图像转换为一组新图像,以使不同颜色通道中的输出图像的直方图与目标图像直方图大致匹配。对应的频道。图4指示了本研究中使用的目标图像。该图像是根据病理学家的意见从有丝分裂型非典型数据库中选择的,病理学家被要求选择具有适当染色的图像,其中包括管腔,基质和上皮细胞,并且没有任何伪影或组织折叠。我们在每个放大倍数上对给定患者的图像堆栈进行直方图匹配,而不是逐个图像进行归一化。这样做是为了减轻图像中的视觉伪像,这是由于直方图规范的假设,即每种颜色的像素比例在源图像和目标图像中几乎相同。如果每次仅考虑单个图像,则可能违反了该假设,因为仅具有有限的组织元素的非常小的组织区域,因此将考虑到有限数量的颜色。在[46]中首次提出了用于色斑归一化的第二种方法,其中通过使用La * b *颜色空间中的一组线性变换,将图像每个通道的均值和标准差与参考图像的均值和标准差进行匹配。

2.4。 阶段1:良性/恶性分类

 

如图1所示,在第一阶段进行了二进制分类以检测恶性和良性病例。 在本节中,我们首先说明MuDeRN将患者图像分类为恶性或良性的步骤。 然后,我们详细解释如何使用BreakHis数据库训练和测试MuDeRN。

第一阶段由四个ResNet组成,每个网络都经过训练以对特定放大倍数的乳房组织病理学图像进行分类。 ResNets的输入大小为224×224,而BreakHis数据库中的图像为700×460像素。 因此,将IN1和IN2的大小都调整为341×224。然后,通过使用滑动窗口从每个染色的归一化图像中提取五个大小为224×224的重叠色块。 因此,对于每个图像,提取了十个补丁(来自IN1的五个补丁和来自IN2的五个补丁)。 对于每个放大倍数中的每个图像,使用(1)可以找到该图像属于第j类的概率。

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

 

M和B表示恶性和良性类别,而sj,p表示图像的第p个色块属于第j个类别的概率。 具有最高可能性的标签被分配给图像。 因此,分配给图像的标签为J = arg max Sj。 图像级CCR计算为每个放大倍数中的图像数,这些图像已根据该放大倍数中的图像总数正确分类。

为了对患者进行最终诊断,已使用MDT对四个放大系数进行了图像级诊断。 如前所述,平均每个患者每个放大倍数大约有24张图像。 对于具有N个图像的每个放大倍率,使用(2)可以找到一个案例属于第j类的概率。

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

在(2)中,Sj,i表示该特定放大倍数的第i个图像属于第j类的概率。 对于所有放大倍数,我们都按(2)中的建议计算了CLj。 假定CLx j表示为第x放大倍数计算的CLj。

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

 

 

然后将其送入MDT(S1)中以对患者做出最终诊断。 我们按照[41]中的建议使用了MDT来组合多个分类器。 MDT基于在不同放大倍数中分配的标签的置信度,以及在用于对验证集进行分类时,每个放大倍数的判别力,对患者进行了分类。 因此,MDT为特定的测试患者指定了最佳放大倍数。 例如,如果测试数据的ResNet在放大倍数200的置信度中为100%(与所有其他放大倍数相比最高),而验证集的ResNet在放大倍数200的CCR也为100% ,则MDT会将ResNet输出的测试数据标签分配为×200的放大倍数。

为了评估MuDeRN,使用了27倍交叉验证。 我们使用交叉验证而不是将数据分为训练,验证和测试集的主要原因是,没有足够的数据可用于训练ResNets和元数据,而又不会失去大量的测试功能。

 

将81位患者随机分为27个子集,其中24位包含1位良性患者和2位癌症患者,3位包含3位癌症患者。 此外,我们确保所有子集至少包含一名导管癌患者。 辅助材料中的excel文件提供了每折患者的清单。 这样做是因为对于某些类别,我们只有少数患者,并且我们想确保所有这些患者均未分组为一个子集。 每次将其中一组作为测试集,其余患者分为70名患者的训练组和8名患者的验证组。 ResNets的参数是根据训练数据估算的,而验证数据则用于训练用于患者水平诊断的MDT。

由于良性图像的数量约为恶性图像的一半,因此我们通过从训练和验证集中提取两倍的补丁来对良性类别进行上采样。 因此,对于每个良性图像,从IN1和IN2提取了20个补丁,而从每个恶性图像中提取了10个补丁。

从头训练ResNet(即网络权重的随机初始化和模型训练)需要非常大规模的数据集,因为网络具有大量参数。因此,我们对ResNet(以前在ImageNet上进行了训练(120万个标签图像)进行了微调),方法是继续使用随机梯度下降(SGD)在反向传播下以较小的学习率(0.0001)对它进行训练,以进行训练50时代。尽管在ImageNet数据集上完成的分类任务与乳房组织病理学图像分类完全不同,但是由于缺乏训练数据,从头开始建立模型是不可行的。在[39]中,表明,与从头开始训练相比,GoogLeNet对乳腺组织病理学切片进行八类分类的准确性更高。在开始训练之前,预先训练好的ResNet模型的最后一个分类层已被删除,并被仅包含两个类的分类层所替代,因为ResNet已被训练为将图像分类为1000个类别。

图像增强通过不同的处理方式或多次处理的组合来人为地创建训练图像,通常需要提高深度网络的性能并避免网络过度适应训练集。 在这里,训练数据通过将图像旋转随机组合90°,180°或270°,围绕水平或垂直轴翻转以及在±10像素之间随机地水平和垂直移动来增强。 在每个时期中,完成了一次遍历训练斑块,并且在每一遍中,图像斑块被随机增大。

验证集只有八个成员,这使得对MDT的训练变得困难。因此,需要一种上采样策略。假设Pj | j∈M,B表示从图像中提取的色块总数。在这里,我们将PM和PB分别设置为10和20,因为良性图像的数量大约是恶性图像的一半。对于上采样,我们将来自单个患者的不同图像的补丁随机分组在一起,使得每组仅包含来自特定图像的一个补丁;因此,对于每个患者,都会生成Pj样本。例如,当验证集包含2名良性和6名恶性患者时,总共有100个样本,即2(良性患者数)×20(PB)+ 6(恶性患者数)×10(PM)。因此,每组补丁的置信度是通过平均该类中所有补丁的得分来确定的。与(2)相似,对于第x个放大系数和第p个色块集,找到了具有最大值的类,即Jx,p = argmax j CL ˆ xj,p。因此,我们为每个患者提供了Pj个样本,用于训练MDT的数据的格式为ˆJx,p,max j CL ˆ x j,p |。 x∈x40,x100,x200,x400,j∈M,B,p∈1,。 。 。,Pj。

在用四个放大系数估计ResNets的参数以及MDT的参数后,对于每个测试图像,从IN1和IN2中随机选择十个色块。 将每个放大倍数中的色块输入到相应的ResNet中,该输出输出cli,x j,p。 使用(1)和(2),为每个图像计算CLx j的值。 最后,对于测试子集Jx40中的每个患者,生成最大j CLx j 40,Jx100,最大j CLx j 100,Jx200,最大j CLx j 200,Jx400,最大j CLx j 400并将其输入到经过训练的MDT中 对每位患者做出最终诊断。

 

2.5。 第二阶段:病变亚型的分化

根据第一阶段的决策,如图1所示,恶性图像被输入到模块M中,并被分为四种癌症亚型,而良性图像被输入到模块B中,并被分为四类。

这两个模块的架构几乎与第一阶段中使用的架构相同。 但是,它们之间有两个区别。 首先,在S1中,我们使用在ImageNet数据集上预先训练的模型作为微调的起点。 在这里,我们以在S1培训的ResNet为起点。 我们假设ResNet的前几层已经学习了用于描述乳房组织病理学图像的低级功能,因此它可能是一个更好的起点。

其次,这个阶段的类数是每个模块四个,因此我们有j∈1,2,3,4。在用于处理良性图像的模块中,从训练和验证集中每个类别Pj的图像中提取的补丁总数对于腺病和叶状肿瘤为24个,对于纤维腺瘤为10个,对于管状腺瘤为16个。类似地,少数类在模M进行上采样,从而导致至10,70,40,和每图像60个补丁分别导管癌,小叶癌,粘液癌和乳头状癌。每次从IN1提取一半补丁,而从IN2提取另一补丁。在S1中,使用滑动窗口提取重叠的图像块;在这里,我们使用了滑动窗口,但是我们也随机旋转(0°,90°或180°)并翻转(无,水平或垂直)图像块。这样做的原因是,对于少数类,我们每个归一化图像提取了20-35个色块,而不同的色块几乎相同,但变化很小。

 

3. 结果

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

3.1。 图像级性能

ResNets处理第一阶段不同放大倍数图像的CCR值如图5所示。对于所有放大倍数,良性类别的CCR均低于恶性类别的CCR。 对于所有放大倍数,良性和恶性类别的CCR之间的差异都很大(×40:z = -2.32,p值= 0.020;×200:z = −2.48,p = 0.013;×200:z = − 2.88, p值= 0.004;×400:z = -3.07,p值= 0.002)。

总体CCR在不同放大倍数之间变化,范围从97.9%到98.3%,但是在不同放大倍数下,总体CCR之间的差异在统计学上并不显着。

表1和表2分别列出了在各种放大倍数下识别不同良性和恶性亚型的CCR值。在表1中,我们包括了所有良性图像,无论它们是否被恶性/良性分类模块正确检测到。同样,所有恶性图像,无论其来自第一阶段的标签如何,均包含在表2中。表3列出了将两个阶段的输出合并后的总体CCR。因此,当在第一阶段为图像分配适当的标签,然后在下一阶段中,该图像被正确分类。在这里,我们分别介绍了四类分类(表1和2)和八类分类(表3)的结果,因为我们想显示独立模块在区分良性亚型和区分癌症亚型方面的性能,如下所示:一些病理学家可能更愿意将图像分类为良性和恶性,并使用MuDeRN来帮助区分亚型,以使第一阶段的错误不会在第二阶段进行的分类中传播。

如表1所示,×200放大倍数的总CCR值最高,但是,不同放大倍数的CCR值之间的差异并不显着。 对于腺瘤和纤维腺瘤,×200放大倍数达到了最高的CCR值,而对于Phyllodes肿瘤类别,对来自最低放大倍数的图像进行分类时,则获得了最高的CCR。 对于管状腺瘤,放大倍数×100的CCR值最高。

如表2所示,对于恶性亚型,×200放大倍数的总CCR值最高,这与表1所示的识别不同良性亚型的结果相似。 在这里,对于每个类别,不同的放大倍数导致每个类别的最高CCR。

表3列出了每种放大倍率和每个类别的图像级MuDeRN的CCR。 如图所示,对于两个良性亚型和两个癌症亚型,×100放大倍数表现最佳,而对于其余亚型,×200放大倍数则优于其他。

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

3.2。 患者水平的表现

最后,如第2.5节所述,MDT用于通过组合不同放大倍数的输出来进行患者级别的诊断。在将患者分类为良性或恶性的第一阶段,CCR达到了98.77%,而用于患者水平诊断的总体CCR为96.25%。训练MDT会给算法增加额外的计算负担,因此人们可能会质疑MDT相对于不可训练的聚合策略的优势。汇总图像级别分类并产生患者级别诊断的最常见的不可训练方法是对图像级别结果进行多数表决。我们将MDT的性能与多数投票的性能进行了比较,以探索使用MDT汇总图像级结果的附加好处。图6显示了两种聚合方法的比较。如图所示,MDT方法总体上比非训练方法好约4%。可以看出,两种方法之间的差异因疾病而异。对于不同类型的良性疾病,MDT的优势更为突出。

 

3.3。 预处理的影响

MuDeRN的主要预处理阶段是染色归一化和图像增强。为了探索使污渍归一化的好处,我们训练并测试了未进行污渍归一化的MuDeRN。污点归一化的启发式替代方法可以是增强有关颜色和/或对比度的图像。类似于色斑归一化,这种类型的增强的主要目的是提供针对颜色或亮度变化的鲁棒性。因此,我们探讨了不同增强器及其组合的影响。我们应用的第一个考虑的增强器是从0.5到1.5之间的随机对比度调整,该调整是从均匀分布中采样的。对比度增强器可以按通道处理图像,也可以将其相同地应用于所有三个通道。我们研究了这两种策略。我们还通过向HSV表示的色相和饱和度通道添加噪声(在-0.1和0.1之间随机选择一个值)来研究色彩增强的影响。第三增强器将每个图像随机乘以0.75到1.25之间的一个随机选择的值。这导致图像变暗或变亮。最后一个增强器将-25至25之间的随机选择值添加到图像的通道。我们还考虑了所有这些增强器的组合。

在我们使用的两种染色剂归一化技术之间,第一个更常用于标准化组织病理学图像。 因此,当使用第一种方法对图像进行归一化并且不包括第二组归一化图像时,我们还通过使用所有增强器来评估ResNets的性能。 最初,我们使用旋转,翻转和平移来进行图像增强。 在这里,我们还研究了颜色增强剂和对比增强剂(先前描述的所有增强剂)对MuDeRN性能的额外好处(均考虑了污点归一化图像)。 图7显示了采用不同的预处理策略时,不同类别和放大倍数的CCR值。

如图所示,不同的数据增强器的效果在不同的放大倍率和类别下会有所不同。当在所有类别和放大率水平上取平均值时,如果省略了污渍归一化步骤而未采用额外的数据增幅器,则CCR的百分比下降幅度最高,即(CCRNew-CCRMuDeRN)/ CCRMuDeRN(13.01%)。使用乘以和增加的增幅器,将该百分比下降分别从13.01%减少到10.94%和9.36%。与这两个增强器相比,采用对比增强器减少的百分比下降略有增加。当对比增强剂相同地应用于不同的通道时,平均百分比下降为8.40%,而当对比增强剂不同地应用于每个通道时,平均百分比下降为8.90%。如图所示,对于几乎所有类别和放大倍数,用于替代颜色归一化的最有效的增强器是颜色增强器。其相应的平均百分比下降仅为4.08%。最后,当所有的扩增子都被采用并且消除了染色归一化步骤时,所有类别和放大率水平的平均百分比下降仅为3.06%。在不同类别中,由于采用了不同的预处理策略,CCR的变化在叶状肿瘤和小叶癌中更为突出。

MuDeRN:使用深度残差网络对乳腺组织病理学图像进行多类别分类

 

如图7所示,当还使用对比度和色彩数据增强器时,MuDeRN的性能与其原始性能相比仅提高了0.43%。 对于不同的放大倍率级别和类别,始终可以观察到这一点。 结果还表明,当采用所有增强器时,无论是使用两个标准化图像还是仅使用一个标准化图像,CCR都没有显着变化。

 

4。讨论

在本文中,建议使用MuDeRN根据HE染色的乳腺组织病理学图像将患者分类为良性或恶性,并将它们分为八类,分别代表良性病变和癌的不同亚型。 MuDeRN包括两个阶段。第一阶段只有一个由四个ResNet组成的模块,每个模块处理一个特定的放大倍数和一个MDT,以结合图像水平的预测将患者分为良性或恶性。第二阶段由两个模块组成,一个模块用于将恶性图像分类为四个子类型,另一个模块用于将良性图像分类为四个子类型。 MuDeRN在包含来自81位患者的四个放大倍数的7786张图像的数据库中进行了测试。在将图像分类为良性或恶性的所有放大倍数上,它均达到98.10%的平均CCR,而将图像分为八类则达到了95.15%。在患者一级,MuDeRN的恶性/良性分类的CCR为98.77%,八类分类的CCR为96.25%。

如表3所示,CCR值在不同的亚型之间有所不同。 这可能是由于不同亚型的患者数量不相似。 例如,获得最高CCR的导管癌患者人数也最多。 通过提供更多的案例,ResNets可以更好地了解病变的特征。 对于腺病亚型,CCR最低。 那可能是因为腺病具有不同的亚型(即硬化,肾小管,顶分泌,微腺),并且需要更多的病例,以便网络了解该疾病的不同变异特征。

对于二进制分类,ResNet从最低放大倍数(即×40)处理图像获得了最高的总体CCR。这与[43]中获得的结果一致,在传统的分类器和纹理特征被用于BreakHis数据库的二进制分类中。病理学家还从评估最低放大倍数的玻片开始,然后放大到较高放大倍数的几个区域以进行最终诊断。此行为可以解释以下事实:与其他放大倍数相比,数据库最低放大倍数(即×40放大倍数)中的图像具有更高的判别力。对于八类分类,ResNet分析图像的放大倍数为200倍,获得了最高的CCR值。这可能意味着×40放大倍数在决定是否存在恶性肿瘤方面更具参考价值,但是,更高的放大倍数,尤其是细胞学特征,需要进一步的信息来鉴定病变亚型。

我们调查了污渍归一化对所提出框架性能的影响。我们的结果表明,缺乏染色归一化预处理会导致CCR下降,这在最高放大倍数(×400)时更为明显。为了训练MuDeRN,使用随机旋转,翻转和平移将图像增强。我们还研究了通过随机颜色和对比度变换进行的进一步图像增强是否可以代替色斑归一化预处理并提高MuDeRN性能。结果表明,由于消除了染色归一化步骤,不同类型的扩增能够减轻CCR的下降。由于色彩增加,CCR的改善最高。而且,当采用进一步增强时,MuDeRN的性能与其原始性能相比没有显着提高。然而,当从多个染色方案变化更大的中心收集组织病理学图像时,应进一步研究这些增强策略的益处。

最近的一些研究使用AlexNet和GoogleNet对来自同一数据库的图像进行二进制分类[36,39,43,47]。 在[43]中,使用了传统的机器学习流水线,其中提取了手工制作的特征,并且在所有放大倍数下的平均CCR为82.23%。 在[36,39,47]中,一旦采用AlexNet,平均CCR值将在83.25%和84.85%之间。 Han等。 [39]使用GoogLeNet并在所有放大倍数下均达到了96.08%的平均CCR。 这些值表明,与以前的研究相比,MuDeRN改善了CCR。 但是,结果并不完全可比,因为我们研究的验证方案不同于那些研究。

[39]提出了有关图像多类分类的先前研究。[39]提出的框架与MuDeRN的主要区别在于使用不同的神经网络架构,涉及染色归一化预处理,使用不同的图像调整大小策略,并采用可训练的方法来组合不同分类器的结果。在这项研究中,我们使用了ResNet,它比[39]中采用的网络更深(即GoogLeNet和AlexNet)。同样,在[39]中,图像缩小为256×256。由于BreakHis中原始图像的长宽比约为1.52,因此调整其大小可能会改变组织内结构的长宽比,并导致更改图像的某些信息特征。在这里,我们从图像中提取正方形补丁,然后使用加权多数投票进行图像级分类。最后,我们使用MDT(一种可训练的方法)来汇总来自不同放大倍数的分类器的输出。

据观察,在具有两种或多种疾病的某些混合特征的情况下,分类器在一个特定的放大倍数中可以正确识别出真实的分类,而在其他放大倍数下,分类器可能会误识别该病例。通常在鉴别诊断过程中,病理学家会针对病例进行一些候选诊断。他们利用特定放大倍数的证据(其中候选诊断之间的差异更加明显)来排除候选诊断。例如,与纤维腺瘤相比,叶状肿瘤的特征在于其叶状结构。对于人类观察者而言,这两种良性亚型之间的差异在×40放大倍数下更为明显。由于它们都是良性纤维上皮肿瘤,因此×200和×400的上皮细胞的外观具有一些相似之处。在高放大倍数中,与纤维腺瘤相比,基质细胞的轻度增加提示叶状肿瘤。但是,在某些情况下可能不会出现基质过度生长。即使在这些情况下,在40倍的放大倍数下也可以看到细长的,分支状的和类似裂痕的导管以及类似叶片的结构,这为叶状肿瘤的诊断提供了线索,而不是纤维腺瘤的诊断。与此相应,在我们的研究中,ResNets在200倍和400倍中将一些叶状肿瘤图像误分类为纤维腺瘤,而在40倍内将同一患者的图像正确分类。我们假设MDT模仿病理学家的逐步决策过程。我们将常见的不可训练(即多数投票)与MDT(可训练模型)的效果进行了比较。 MDT的总体准确性比不可训练的模型高约4%,并且使用MDT的附加好处因类别不同而异。通过在数据库中包含更具挑战性的原地案例,MDT的性能与不可训练方法之间的差异将变得更加明显。

这项研究有许多局限性。首先,BreakHis数据库未包括无创性BCa(原位导管癌和小叶原位癌)的病例。这些类型的BCa是浸润前的,并表现出良性和浸润性癌症之间的特征,使这些病例的诊断更加困难。尽管在这项研究中获得的结果是有希望的,但这在一定程度上可能是由于数据库中缺乏临界情况。因此,包括原地案件可能是今后工作的可能途径。其次,病理学家在BreakHis数据库中手动选择了感兴趣的区域,这使MuDeRN成为半自​​动的。因此,一项潜在的未来工作可能是增加一个预处理阶段,该阶段将自动选择整个幻灯片图像的诊断相关区域。另外,基于病理学家的意见手动选择用于污渍归一化的目标图像。选择其他图像作为目标图像可能会影响归一化归一化图像的外观,并且此选择中存在一些可变性,这些可变性会通过框架传播。第三,在BreakHis数据库中,仅考虑了四种良性亚型和四种癌症亚型,但是,良性病变和浸润性癌症都应包括其他亚型。此外,对于某些亚型,仅包括少数病例,应在更大的数据库中对MuDeRN的性能进行研究,其中包括来自这些亚型的更多患者。另外,应评估MuDeRN作为第二阅读器的性能。当一般或经验不足的病理学家对载玻片进行评估时,提供独立的第二意见可能特别有用。

References

[1] Erlay J, Ervik M, Dikshit R, Eser S, Mathers C. Cancer incidence and mortality

worldwide: IARC cancer base no. 11. In: GLOBOCAN 2012; 2012, v1. 0, ed.

[2] Calonge N, Petitti DB, DeWitt TG, Dietrich AJ, Gregory KD, Grossman D, et al.

Screening for breast cancer: US preventive services task force

recommendation statement. Ann Intern Med 2009;151:716–26.

[3] Weaver DL, Rosenberg RD, Barlow WE, Ichikawa L, Carney PA, Kerlikowske K,

et al. Pathologic findings from the breast cancer surveillance consortium:

population-based outcomes in women undergoing biopsy after screening

mammography. Cancer 2006;106:732–42. Feb 15.

[4] Allison KH, Reisch LM, Carney PA, Weaver DL, Schnitt SJ, O’malley FP, et al.

Understanding diagnostic variability in breast pathology: lessons learned

from an expert consensus review panel. Histopathology 2014;65:240–51.

[5] Elmore JG, Longton GM, Carney PA, Geller BM, Onega T, Tosteson AN, et al.

Diagnostic concordance among pathologists interpreting breast biopsy

specimens. Jama 2015;313:1122–32.

[6] Khazai L, Middleton LP, Goktepe N, Liu BT, Sahin AA. Breast pathology second

review identifies clinically significant discrepancies in over 10% of patients. J

Surg Oncol 2015;111:192–7.

[7] Gandomkar Z, Brennan PC, Mello-Thoms C. Computer-based image analysis in

breast pathology. J Pathol Inf 2016;7.

[8] Weyn B, van de Wouwer G, van Daele A, Scheunders P, van Dyck D, van Marck

E, et al. Automated breast tumor diagnosis and grading based on wavelet

chromatin texture description. Cytometry 1998;33:32–40.

[9] Filipczuk P, Kowal M, Obuchowicz A. Multi-label fast marching and seeded

watershed segmentation methods for diagnosis of breast cancer cytology. In:

Engineering in medicine and biology society (EMBC), 2013 35th Annual

international conference of the IEEE; 2013. p. 7368–71.

[10] Yang L, Chen W, Meer P, Salaru G, Goodell LA, Berstis V, et al. Virtual

microscopy and grid-enabled decision support for large-scale analysis of

imaged pathology specimens. IEEE Trans Inf Technol Biomed 2009;13:636–44.

[11] Barroso-Sousa R, Metzger-Filho O. Differences between invasive lobular and

invasive ductal carcinoma of the breast: results and therapeutic implications.

Ther Adv Med Oncol 2016;8:261–6.

[12] Guray M, Sahin AA. Benign breast diseases: classification, diagnosis, and

management. The Oncologist 2006;11:435–49.

[13] Cserni G, Orosz Z, Kulka J, Sápi Z, Kálmán E, Bori R. Divergences in diagnosing

nodular breast lesions of noncarcinomatous nature. Pathol Oncol Res

2006;12:216–21.

[14] Landis JR, Koch GG. The measurement of observer agreement for categorical

data. BIometrics 1977:159–74.

24 Z. Gandomkar et al. / Artificial Intelligence in Medicine 88 (2018) 14–24

[15] Lawton TJ, Acs G, Argani P, Farshid G, Gilcrease M, Goldstein N, et al.

Interobserver variability by pathologists in the distinction between cellular

fibroadenomas and phyllodes tumors. Int J Surg Pathol 2014;22:695–8, 08/26.

[16] Longacre TA, Ennis M, Quenneville LA, Bane AL, Bleiweiss IJ, Carter BA, et al.

Interobserver agreement and reproducibility in classification of invasive

breast carcinoma: an NCI breast cancer family registry study. Mod Pathol

2006;19:195.

[17] Litjens G, Kooi T, Bejnordi BE, Setio AAA, Ciompi F, Ghafoorian M, et al. A

survey on deep learning in medical image analysis. Med Image Anal

2017;42:60–88.

[18] Lo S-C, Lou S-L, Lin J-S, Freedman MT, Chien MV, Mun SK. Artificial

convolution neural network techniques and applications for lung nodule

detection. IEEE Trans Med Imaging 1995;14:711–8.

[19] Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep

convolutional neural networks. In: Advances in neural information processing

systems; 2012. p. 1097–105.

[20] Zilly J, Buhmann JM, Mahapatra D. Glaucoma detection using entropy

sampling and ensemble learning for automatic optic cup and disc

segmentation. Comput Med Imag Graph 2017;55:28–41.

[21] Lu F, Wu F, Hu P, Peng Z, Kong D. Automatic 3D liver location and

segmentation via convolutional neural network and graph cut. Int J Comput

Assisted Radiol Surg 2017;12:171–82.

[22] Yu L, Yang X, Chen H, Qin J, Heng P-A. Volumetric ConvNets with mixed

residual connections for automated prostate segmentation from 3D MR

images. In: AAAI; 2017. p. 66–72.

[23] Zhang Q, Xiao Y, Dai W, Suo J, Wang C, Shi J, et al. Deep learning based

classification of breast tumors with shear-wave elastography. Ultrasonics

2016;72:150–7.

[24] Samala RK, Chan HP, Hadjiiski L, Helvie MA, Wei J, Cha K. Mass detection in

digital breast tomosynthesis: deep convolutional neural network with

transfer learning from mammography. Med Phys 2016;43:6654–66.

[25] Zhang W, Li R, Deng H, Wang L, Lin W, Ji S, et al. Deep convolutional neural

networks for multi-modality isointense infant brain image segmentation.

NeuroImage 2015;108:214–24.

[26] Ngo TA, Lu Z, Carneiro G. Combining deep learning and level set for the

automated segmentation of the left ventricle of the heart from cardiac cine

magnetic resonance. Med Image Anal 2017;35:159–71.

[27] Janowczyk A, Madabhushi A. Deep learning for digital pathology image

analysis: a comprehensive tutorial with selected use cases. Journal Pathology

Informatics 2016;7.

[28] Xu Z, Huang J. Detecting 10,000 cells in one second. In: International

conference on medical image computing and computer-assisted intervention;

2016. p. 676–84.

[29] Song Y, Zhang L, Chen S, Ni D, Lei B, Wang T. Accurate segmentation of

cervical cytoplasm and nuclei based on multiscale convolutional network and

graph partitioning. IEEE Trans Biomed Eng 2015;62:2421–33.

[30] Sirinukunwattana K, Pluim JP, Chen H, Qi X, Heng P-A, Guo YB, et al. Gland

segmentation in colon histology images: the glass challenge contest. Med

Image Anal 2017;35:489–502.

[31] Drozdzal M, Chartrand G, Vorontsov E, Shakeri M, Di Jorio L, Tang A, et al.

Learning normalized inputs for iterative estimation in medical image

segmentation. Med Image Anal 2018;44:1–13.

[32] Sirinukunwattana K, Raza SEA, Tsang Y-W, Snead DR, Cree IA, Rajpoot NM.

Locality sensitive deep learning for detection and classification of nuclei in

routine colon cancer histology images. IEEE Trans Med Imaging

2016;35:1196–206.

[33] Kim E, Corte-Real M, Baloch Z. A deep semantic mobile application for thyroid

cytopathology. In: Medical imaging 2016: PACS and imaging informatics:

next generation and innovations; 2016. p. 97890A.

[34] Rezaeilouyeh H, Mollahosseini A, Mahoor MH. Microscopic medical image

classification framework via deep learning and shearlet transform. J Med

Imaging 2016;3. p. 044501.

[35] Cires¸ an DC, Giusti A, Gambardella LM, Schmidhuber J. Mitosis detection in

breast cancer histology images with deep neural networks. In: International

conference on medical image computing and computer-assisted intervention;

2013. p. 411–8.

[36] Spanhol FA, Oliveira LS, Petitjean C, Heutte L. Breast cancer histopathological

image classification using convolutional neural networks, in neural networks

(IJCNN). In: International joint conference on, 2016; 2016. p. 2560–7.

[37] Cruz-Roa A, Basavanhally A, González F, Gilmore H, Feldman M, Ganesan S,

et al. Automatic detection of invasive ductal carcinoma in whole slide images

with convolutional neural networks. In: Medical imaging 2014: digital

pathology; 2014. p. 904103.

[38] Bejnordi BE, Zuidhof G, Balkenhol M, Hermsen M, Bult P, van Ginneken B,

et al. Context-aware stacked convolutional neural networks for classification

of breast carcinomas in whole-slide histopathology images. J Med Imaging

(Bellingham) 2017;4. p. 044504, Oct.

[39] Han Z, Wei B, Zheng Y, Yin Y, Li K, Li S. Breast cancer multi-classification from

histopathological images with structured deep learning model. Sci Rep

2017;7.

[40] Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, et al. Going deeper

with convolutions. In: Proceedings of the IEEE conference on computer vision

and pattern recognition; 2015. p. 1–9.

[41] Todorovski L, Dzeroski ˇ S. Combining classifiers with meta decision trees.

Machine Learning 2003;50:223–49.

[42] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In:

Proceedings of the IEEE conference on computer vision and pattern

recognition; 2016. p. 770–8.

[43] Spanhol FA, Oliveira LS, Petitjean C, Heutte L. A dataset for breast cancer

histopathological image classification. IEEE Trans Biomed Eng

2016;63:1455–62.

[44] Korbar B, Olofson AM, Miraflor AP, Nicka CM, Suriawinata MA, Torresani L,

et al. Deep learning for classification of colorectal polyps on whole-slide

images. J Pathol Inf 2017;8.

[45] Kothari S, Phan JH, Moffitt RA, Stokes TH, Hassberger SE, Chaudry Q, et al.

Automatic batch-invariant color segmentation of histological cancer

images,biomedical imaging: from nano to macro. In: IEEE International

Symposium on, 2011; 2011. p. 657–60.

[46] Reinhard E, Adhikhmin M, Gooch B, Shirley P. Color transfer between images.

IEEE Comput Graph Appl 2001;21:34–41.

[47] Spanhol FA, Cavalin PR, Oliveira LS, Petitjean C, Heutte L. Deep features for

breast cancer histopathological image classification. In: Proceedings of the

IEEE conference on Systems, Man, and Cybernetics (SMC); 2017. p. 1868–73.