(翻译)Fully Automated Deep Learning System for Bone Age Assessment

                                   完全自动化的骨龄评估深度学习系统

摘要:骨骼成熟度通过不连续的阶段进行,这是常规用于儿科的事实,其中将骨龄评估(BAAs)与评估内分泌和代谢紊乱的年龄年龄进行比较。自1950年推出以来,虽然它是许多疾病评估的核心,但它们并没有改变,以改善繁琐的过程。在这项研究中,我们提出了一个全自动深度学习管道来分割感兴趣的区域,标准化和预处理输入射线照片,并执行BAA。我们的模型使用ImageNet预培训的微调卷积神经网络(CNN),以便在我们提供的测试图像上为女性和男性队列实现57.32和61.40%的准确性。女性测试X线片在1年内获得90.39%的BAA和98.11%的2年内获得BAA。男性测试X线片在1年内分配94.18%,2年内分配99.00%。使用输入遮挡方法,创建了注意力图,显示训练模型用于执行BAA的特征。这些与人工专家在手动执行BAA时看到的内容相对应。最后,完全自动化的BAA系统作为决策支持系统部署在临床环境中,以比传统方法更快速的解释时间(<2s)更精确和有效的BAAs。

 

介绍:骨骼成熟度通过一系列不连续的阶段进行,特别是在手腕和手中。 因此,儿科医学使用这种正常的生长进程来确定骨龄并将其与儿童的年龄相关联。 如果存在差异,这些有助于进一步诊断评估可能的内分泌或代谢紊乱。 或者,这些检查可用于最佳时间干预肢体长度差异。 虽然骨龄评估(BAA)是许多疾病状态评估的核心,但自从1950年由Greulich和Pyle [1]发表的开创性地图集以来,BAA的实际过程并没有明显改变 从1931年到1942年在俄亥俄州学习儿童。

可以使用Greulich和派尔(GP)[1]或Tanner Whitehouse(TW2)[2]方法进行BAA。 GP方法将患者的X线片与代表性年龄图谱进行比较,并确定骨龄。 TW2系统基于检查20个特定骨骼的评分系统。 在这两种情况下,BAA都需要相当长的时间,并且包含显着的评估者间差异性,当根据患者BAA的变化做出治疗决策时,导致临床挑战。 已经尝试通过定义速记方法来更有效地执行BAA来缩短评估过程; 然而,这些仍然依赖于人的解释和参考图谱[3]

BAA是自动图像评估的理想目标,因为在一项研究中(左手和腕部的图像)数量较少,报告结果相对标准化(所有报告均包含具有相对标准化关键字的年代和骨骼年龄,如Bbone年龄^ 或Byear旧^)。 这种组合对机器学习来说是一个吸引人的目标,因为它避免了许多劳动密集型预处理步骤,例如使用自然语言处理(NLP)处理相关结果的放射学报告

深度学习已被证明是一种广泛的计算机视觉图像任务的强大方法[4],导致人们越来越关注使用该技术来替代使用手动制作的特征的传统算法。通过使用深度CNN来检测胸部CT上二维斑块的间质性肺病模式[5]以分割眼底照片上的人眼血管网[6],深CNN已被证明是非常成功的,因为它们使得学习具有高度代表性,分层,图像数据的分层抽象[7]。除了分割和检测任务之外,许多基于深度学习的方法非常适合医学成像中的识别和分类任务[8,9]。然而,据我们所知,大型的,全自动的,数据驱动的深度学习方法并未被引入,以减少人类专家的观察者间变异性并提高BAA在任何已出版作品中的工作流程效率。我们提出了一个完全自动化的深度学习平台,使用深度CNN进行BAA检测和分类,部署系统能够自动生成如图1所示的结构化放射报告。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

方法

数据准备

数据选择

该回顾性研究获得了IRB批准。 使用内部报告搜索引擎(Render),从2005年到2015年,使用考试代码BXRBAGE ^查询所有射线照片和放射学报告。将登录号,年龄,性别和放射学报告收集到数据库中。 使用开源软件OsiriX,导出与登录号相对应的DICOM图像。 我们医院的放射学报告包括病人的年龄和骨龄,参照Greulich和Pyle的标准,第二版[1]。

 

数据分类

数据集包括年龄为5-18岁和骨骼成熟(18岁及以上)患者的X线片。在这项研究中,由于两个原因,0-4岁被排除在外。首先,在0-4岁的患者中,仅有少量的X光片(女性298例,男性292例),这显着减少了可用于训练的图像数量。其次,我们机构骨龄评估的绝大部分指标是青春期延迟,身材矮小或性早熟的问题。对于5岁以下的患者,这些检查很少进行。所报告的骨龄是通过确定与骨龄相关的关键词(如Bbone年龄和骨骼)从放射科医师报告中提取出来的。提取的骨龄用年,月,年计算,年龄范围为5至18岁。骨骼成熟的病例被认为是18年[10]。对于报告的骨龄在一定范围内的情况,我们将该范围的算术平均值指定为实际骨龄。最初检索的研究总数为女性队列5208人和男性队列5317人。在排除0-4岁和畸形病例(右手,变形图像和不可解释的报告)之后,女性的4278和男性的4047幅X射线照片被标记为骨骼年龄,如图2所示。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

 

我们随机选择15%的数据作为验证数据集,15%用作测试数据集。 余下的(70%)被用作女性和男性队列的训练数据集。 利用验证数据集来调整超参数以在每个时期期间从多个训练模型中找出最佳模型。 使用测试数据集对最佳网络进行评估,以确定最高1级预测是否符合实际情况,是否在1年或2年内。 为了进行公平比较,我们对每个测试使用了相同的分割数据集,因为新的随机数据集可能会妨碍公平比较。

 

预处理引擎

输入DICOM图像在强度,对比度和灰度基础(白色背景和黑色骨骼或黑色背景和白色骨骼)方面差异很大,如图3所示。训练射线照片的这种差异可防止算法学习显着特征。 因此,通过消除尽可能多的不必要的噪音,对图像进行标准化的预处理流程对于模型的准确性至关重要。 对于这个应用程序来说,骨骼是最重要的特征,因为它们是BAA的核心,所以它们得到了保留和增强。 因此,我们提出了一种新颖的预处理引擎,它由检测CNN组成,以识别/分割手部/腕部,并创建相应的掩模,然后是视觉管线,以标准化和最大化图像的不变特征。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

标准化

预处理引擎的第一步是在将它们馈送到检测CNN之前,对基于灰度级和图像大小的射线照片进行归一化。一些图像具有白色背景的黑色骨骼,而另一些具有黑色背景的白色骨骼(图3)。图像大小从几千到几百像素大不相同。为了归一化不同的灰度基数,我们计算了每幅图像四个角的10×10图像块的像素均值,并将它们与给定图像分辨率的最大值的一半值进行比较(例如,对于8位解析度)。这有效地确定图像是否具有白色或黑色背景,使我们可以将它们全部归一化为黑色背景。下一步将规格化输入图像的大小。几乎所有的手部X光片都是高度方形的矩形。因此,我们将所有图像的高度调整为512像素,然后通过保留纵横比和使用零填充的组合;宽度均为512像素,最终创建标准化的512×512图像。我们选择这个尺寸有两个原因:它需要大于神经网络所需的输入尺寸(224×224),这个尺寸是检测CNN性能和预处理速度的最佳平衡。较大的方块以较慢的部署时间为代价提高了检测CNN性能,而较小的方块则加快了测试时间,但它们导致更糟糕的图像预处理。

 

检测CNN

手部X光片上有五种不同类型的物体:骨骼,组织,背景,准直和注释标记(图3)。为了从X光片上分割手部和手腕,我们利用CNN来检测骨骼和组织,构建手部/腕部面罩,并应用视觉管道来标准化图像。如图4所示,通过使用ROI在归一化图像中对五个类别的图像块进行采样。采样的补丁是一个平衡的数据集,每个类别有1 M个样本。我们使用1000个独特的X光片,从训练数据集中随机选择,以生成不同的对象斑块。我们使用LeNet-5 [11]作为检测CNN的网络拓扑结构,因为这个网络模型是一种有效的粗粒度识别明显不同数据集的模型(对显著不同的数据有很好的识别效果),并用于MNIST数字识别[12]等应用。另外,网络在部署时需要少量的计算和微不足道的内存空间用于可训练参数。我们使用随机梯度下降(SGD)算法,以0.01个基础学习率的基础学习率为基础,通过基于收敛到功能损失的三个步骤降低10个因子,使用一组采样补丁对100个时期的采样补丁训练模型。每班有25%的训练图像作为验证数据集提供,以选择出时期的最佳模型。

 

重建

下一步是构建一个包含手和非手区域的标签图。 对于每个输入射线照片,检测系统在整个图像上滑动,采样补丁,并使用训练过的检测CNN记录每个像素的所有分数。 根据得分记录,将最高得分类别标记为每个像素。 之后,通过将标记为骨和组织类的像素分配给手标签并将其他像素分配给非手标签来构建标签图。

 

蒙版生成

大多数标签地图都有明显的手部和非手部类别的分割区域,但是像图4中的例子那样,假阳性区域有时被分配到手部类别。 结果,我们提取了最大的连续轮廓,填充它,然后为图4所示的手和手腕创建了一个干净的面罩。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

 

视觉管道

在创建蒙版后,系统将其传递给视觉管线。 第一阶段使用蒙版从图像中去除无关的伪像。 接下来,分割区域以新图像为中心以消除平移方差。 随后,应用对比度增强,去噪和锐化滤波器的直方图均衡来增强骨骼。 最终的预处理图像如图4所示。

 

图像样本补丁大小和步幅选择

预处理性能取决于图像样本补丁的大小和检测系统移动的步幅。 我们进行了回归测试,通过比较不同步幅(2,4,8,16)和图像斑点尺寸(16×16,24×24,32×32,40×40,48× 48,56×56,64×64),如图5a所示。 对于这个实验,280个图像代表每个类别10个图像

从测试数据集中随机选择女性和男性,通过计算预测和实际二进制图之间的交叉点相交值(mIoU)的算术平均值来评估预处理引擎的性能。 基于图5的结果,32×32图像块大小和4的跨度是具有0.92的mIoU的最优配置。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

分类CNN

深CNN由交替的卷积层和池层组成,以从输入图像学习分层的分层和代表性抽象,然后是完全连接的分类层,然后可以利用从较早层提取的特征向量进行训练。 他们在许多计算机视觉任务中取得了相当的成功,包括对象分类,检测和语义分割。 许多创新的深度神经网络和新颖的训练方法已经为图像分类任务展现了令人印象深刻的性能,其中最值得注意的是在ImageNet竞赛中[13-15]。

自然图像分类的快速推进是由于大规模和全面注释的数据集如ImageNet [16]的可用性。然而,像ImageNet一样在这样的规模和相同的质量注释下获取医学数据集仍然是一个挑战。由于患者隐私法规的限制,医疗数据无法轻易访问,图像注释需要经过高级培训的人力专家进行艰巨且费时的工作。医学成像领域中的大多数分类问题都是细粒度识别任务,它们使用局部区分特征对同一类中高度相似的出现物体进行分类。例如,骨骼年龄通过相对于骺宽度的进展来评估

到不同指骨处的干骺端,腕骨外观和桡骨或尺骨骺融合,但不依靠手和手腕的形状。与基本水平识别相比,子类别识别任务更具挑战性,因为更少的数据和更少的区分特征[17]。细粒度识别的一种方法是迁移学习。它使用来自大规模数据集的训练有素的低级知识,然后对权重进行微调以使网络专用于目标应用程序。这种方法已被应用于与大规模ImageNet相似的数据集,如牛津花[18],加州理工大学鸟类[19]和狗品种[20]。虽然医学图像与自然图像有很大不同,但通过使用在大型数据集上训练的通用滤波器组和调整参数以呈现专用于医疗应用的高级特征,迁移学习可能是一种可行的解决方案。最近的研究[21,22]已经证明了通过使用新数据集对几个(或所有)网络层进行微调,从普通图片向医学成像领域迁移学习的有效性。

 

迁移学习的最优网络选择

我们考虑了三个高性能CNN,包括AlexNet [13],GoogLeNet [14]和VGG-16 [15],作为我们系统的候选人,因为他们在ImageNet大规模视觉识别竞赛(ILSVRC)[23]中得到验证。 幸运的是,Canziani等人。 进行了候选网络之间的比较研究。 表1中列出了它们之间差异的总结[24]。 如果准确性是唯一的决定因素,VGG-16是最好的选择,AlexNet是最差的。 然而,GoogLeNet利用少25倍的可训练参数来实现与VGG-16相媲美的性能,同时具有更快的推理时间。 另外,GoogLeNet是最高效的神经网络[24],特别是因为图1和2中描述的初始模块。 如图5和图6所示,通过最小化完全连接层的数量,使得网络具有更大的能力来学习分层代表性特征而没有很多可训练参数。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

 

训练详情

我们从Caffe动物园中检索了一个预训练的GoogLeNet模型[25],并将网络细化为医学图像。 ImageNet由彩色图像组成,GoogLeNet的第一层过滤器相应地包含三个RGB通道。然而,手部X光片是灰度的,只需要一个通道。因此,我们通过采用预先存在的RGB值的算术方法将滤波器转换为单个通道。我们确认转换的灰度滤波器匹配相同的一般滤波器模式,主要由边缘,角落和斑点提取器组成。在使用预训练模型初始化网络之后,我们的网络进一步使用SGD对100个时期进行训练,最小批量为96,使用9种不同的超参数组合,包括基础学习率(0.001,0.005,0.01)和伽马值( 0.1,0.5,0.75),结合动量项0.9和0.005的重量衰减。学习率是一个控制神经网络训练过程中的权重和偏差变化率的超参数,它被伽玛值减少了三个步骤,以确保稳定收敛到损失函数。确定最佳学习率是具有挑战性的,因为它随着数据集和神经网络拓扑的内在因素而变化。为了解决这个问题,我们使用NVIDIA Devbox [26]对广泛的网格搜索优化超参数组合,以找到最优的学习速率时间表。

 

防止过度拟合(数据增强)

深度神经网络需要大量的标记训练数据才能实现稳定的收敛和高分类精度。如果训练数据有限,则深层神经网络将会过度拟合,并且不能针对目标应用进行推广。这对于医学成像来说是一个特殊的挑战,因为汇编高质量和注释清晰的图像是一项费时费力的过程。因此,使用了几种方法来降低过度拟合的风险。数据增强是一种技术,我们通过几何变换,光度变换,噪声注入和颜色抖动来合成增加训练数据集的大小[13],同时保留相同的图像标签。表2详细介绍了用于实时数据增强的几何,对比度和亮度变换以及每种可能的合成图像的数量。利用仿射变换(包括旋转,缩放,剪切和光度变化)来提高网络对几何变体的弹性以及对比度或强度的变化。旋转范围从-30到+30,增量为5°。缩放操作通过以0.01增量乘以0.85-1.0的宽度和以0.01增量乘以0.9-1.0的高度来执行。剪切是通过施加一个范围从-5到+5的x和y角来进行的1°的增量。通过将所有像素乘以从0.9到1.0的范围内的因子并以0.01的增量并添加范围从0到10的整数来调整亮度。对于每次转换,这些转换被随机切换增强。通过使用实时数据增强,可以将单个图像转换为1,107,150,000个图像(= 61 * 150 * 121 * 100)之一,从而防止每个时期的图像重复。这种方法不会增加计算时间或存储量,因为下一次迭代的图像会在CPU上增强,而前一次迭代正在通过GPU进行训练。我们排除了随机横向反转,经常用于自然图像,因为BAA只按照惯例使用左侧X光片。我们也没有进行随机平移因为这些都在图像预处理阶段进行。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

结果

预处理引擎

图7演示了执行图像标准化的预处理引擎的有效性。输入图像之间存在广泛的变化,其中一半图像在黑色背景上具有白色骨骼,可变准直配置以及存在或不存在侧标记。标准化灰度基准和图像大小会在第二行生成图像。第三行给出了用于由第二训练的CNN使用的自动手/手腕分割的构造的标签图。但是,标签贴图不能用作分段遮罩,因为频繁出现假正像素,例如在第三行的第二个图像中。这些像素可以通过提取最大轮廓并填充生成的多边形来创建第四行所示的统一遮罩。视觉管线然后可以使用生成的面具分割手和手腕,增强骨骼边缘并对图像进行去噪。该流水线采用来自不同供应商的DICOM对象,外观差异很大,然后在训练和部署之前自动分段,居中并增强图像。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

分类CNN

精调的最佳

Tajbakhsh等人[22]发现,层次式微调模式可以在医学成像领域中为有限数量的训练数据的给定应用找到最佳性能。早期的图层学习像边缘和角落这样的低级图像特征,而后面的图层学习适用于目标应用的更高级特征[22,27]。迁移学习通常需要将后面的图层微调到特定的数据集,但它可能需要对早期图层进行微调,具体取决于源应用程序和目标应用程序的不同[22]。为了找到需要调整BAA的最佳层数,我们通过逐步微调从最后一层到第一层的预训练CNN进行了回归测试。另外,CNN从零开始受到随机权重的初始化训练,以确定微调方法是否优于从头开始的训练。为了实现损失函数的稳定收敛,重要的是随着时间的推移退化学习速率。与分类CNN节类似,进行网格搜索以找到超参数的最佳组合,以确保最佳训练参数。图8显示了针对从全连接(fc)到所有层的层进行微调的预训练CNN的correct情况下的测试精度,以及实时数据增强。在微调测试中确定最佳性能模型的基础学习率为0.005,并且从零开始训练为0.01。如果使用大的学习率训练预训练模型,则训练有素的通用特征将被覆盖,导致模型过度拟合。我们发现所有图层的微调权重是BAA的最佳方案。由于医学图像与自然图像明显不同,因此必须对所有图层进行微调以生成BAA的低级和高级特征。当从头开始训练网络时,很多情况下丢失函数未能收敛,这意味着在数据量较小的情况下,随机加权初始化不是稳定的训练方法。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

 

测试精度

女性和男性BAA的四种不同方法的测试准确性详见图9.第一个模型(M1)是经过训练的CNN,原始手部放射线照片调整为224×224。女性队列的测试准确率为39.06%,而女性队列的测试准确率为39.6% %为男性队列。女性和男性X线片的骨龄分别为1年内75.59%和75.54%的时间,2年内分别为90.08%和92.35%。第二个模型(M2)是用预处理图像进行的,第三个模型(M3)是通过开启实时数据增强来实现的,同时从头开始训练网络。随着预处理和增量数据的使用,神经网络泛化得到改善,女性队列的测试准确性提高了33.85%,男性队列的测试准确性提高了34.83%。最后一个模型(M4)是通过打开实时增强功能对经过预处理的图像进行微调的CNN。女性队列的测试准确率为57.32%,男性队列的测试准确率为61.40%。女性X线片的BAA被分配了一年内的基础真相,90.39%的时间和两年内的98.11%。男性X线片的BAA被分配了一年内的实际时间(94.18%)和两年内99.00%的时间。均方根误差(RMSE)女性为0.93年,男性为0.82年,女性为62%,男性为57%,而M1为RMSE。此外,女性队列的平均平均精确度(mAP)为53.3%,男性队列的平均平均精确度(mAP)为55.8%,与女性M1的mAP相比,女性的平均平均精确度(mAP)提高了57.69%,男性提高了72.22%。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

可视化

关注图

尽管在自然图像分类方面他们的表现令人印象深刻,但深层神经网络并不十分清楚。已经提出了几种调查神经网络用于执行分类的方法[27,28]。我们利用遮挡方法[27]生成关注图,以发现图像的哪个部分对于细粒度分类具有局部重要性。遮挡方法在图像上迭代地滑动小块,将遮挡的输入图像传递到前向网络,并基于作为遮挡物位置的函数的分类概率的变化来生成二维关注图。只有正确分类的输入图像被选择来确定输入图像的重要区域。在图10中,针对四个主要骨骼发育阶段(青春期前,青春期早中期,青春期后期和青春期后期)产生了代表性的关注图[10] - 强调图像的重要部分,使神经网络能够正常工作分级分类。婴儿和幼儿类别被排除在外。有趣的是,每个分类的重要区域部分与[10]中描述的每个类别的目标特征相一致。青春前期注意图(a)侧重于腕骨中远端指骨。早中期和晚期青春期关注图(b和c)不重视腕骨,更重视指骨,这意味着这些是比腕骨更重要的BAA预测因子。对于青春期后关注地图(d),重要性重新返回到手腕,其中桡骨和尺骨运动是最后关闭的。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

 

讨论

与先前的工作比较

多年来,完全自动化的BAA一直是计算机视觉和放射学研究的一个目标。大多数先前的方法包括使用从感兴趣区域(ROI)提取的手工特征对用计算机算法分割的特定骨骼进行分类或回归。表3总结了BAA与我们的方法相比的四次尝试。 Seok等人[29]利用尺度不变特征变换(SIFT)来提取图像描述符和奇异值分解(SVD)来创建固定尺寸的特征向量,将它们馈送到完全连接的神经网络中。由于他们仅使用少量图像,因此他们的模型对于与其内部数据集完全不同的图像不够健壮。他们也没有提供任何可量化的绩效指标。 Somkantha等人[30]使用水平和垂直轴上的投影选择腕骨区域,提取腕骨的边界。他们从分割的腕骨上提取了五种形态特征,并用支持向量机(SVM)进行回归。这种方法类似于Zhang等人的方法[32],其中手工设计的特征是从腕骨中提取的,并且这些特征被用作模糊逻辑分类器的输入。然而,这种方法不适用于5〜7岁以上的儿童,因为腕骨在这个年龄时通常已经完全成熟,并且不再允许超过这一点的有意义的歧视[10]。

(翻译)Fully Automated Deep Learning System for Bone Age Assessment

 

迄今为止最成功的尝试是BoneXpert [33],这是一种被批准用于欧洲的唯一一款软件医疗设备,也是自动化BAA的首次商业实施。 BoneXpert利用生成模型 - 活动外观模型(AAM)自动分割手部和腕部的15根骨骼,然后根据形状,强度和纹理特征确定GP或TW2骨龄。 尽管BoneXpert报告了自动BAA的相当准确性,但它有几个关键限制。 BoneXpert不直接确定骨龄,因为预测取决于年龄和骨龄之间的关系[29]。 该系统非常脆弱,并且会在噪音过大时拒收X光片。 之前的研究报告称,BoneXpert拒绝了5161人中的235人(4.5%)[34]。 最后,BoneXpert不利用腕骨,尽管它们含有幼儿的区别特征。

总之,以前所有的自动化BAA都是基于手工制作的功能,降低了算法从泛化到目标应用程序的能力。 我们的方法利用预先训练的深度CNN的传输学习,自动从ROI上的所有骨骼中提取重要特征,ROI通过检测CNN自动分割。 不幸的是,所有先前的方法使用不同的数据集并提供其实施和参数选择的有限细节,因此不可能与先前的常规方法进行公平比较。

 

何如改善系统

分类的精度

本研究中的训练模型在女性和男性队列的2年内(> 98%)和1年内(> 90%)取得了令人印象深刻的分类准确性。 未来的改进领域比比皆是。 我们计划使用注意力分析图和迭代放射学家反馈的见解来指导进一步的学习并提高预测的准确性。 关注地图揭示了与领域专家用来执行传统BAA相似的关键区域; 但是,该算法是否使用与领域专家完全相同的特征还不确定。 相反,这种可视化方法仅揭示图像的重要区域是相似的。 CNN可以使用尚未知的功能来执行恰好在相同区域中的精确细粒度分类。 需要进一步调查以确定骨形态学是否是CNN用于BAA的。

然而,该算法仍有改进的余地,能够以更快的解释时间提供更准确的BAA。 我们将原生DICOM图像下采样为8位分辨率jpegs(224×224),以提供更小的矩阵尺寸并使用基于GPU的并行计算。 未来,使用具有更大矩阵大小的原生14位或16位分辨率图像可能会提高算法的性能。

另一种方法可能是开发一种针对BAA优化的新型神经网络架构。 最近的高级网络,如GoogLeNet [14],VGGNet [15]和ResNet [35],包含很多层次 - 16到152,并且由于我们的训练图像数量相对较少,所以会出现过度拟合的风险。 创建一个新的网络拓扑可能是一个更好的BAA方法,比使用传输学习更有效。 这需要未来的系统研究来确定BAA的最佳算法,超出了本文的范围。

最后,我们需要重新考虑从报告中获得的骨骼年龄可能不一定反映实际情况,因为BAA本质上是基于人类专家的主观分析。 在一些放射学报告中,骨龄被记录为单个数字,数字范围,甚至不在原始GP图谱中的时间点。 另外,Greulich和Pyle的原始地图集[36]提供了一个给定年龄范围从8到11个月的标准偏差,反映了研究人群的固有差异。 因此,并非所有的基本事实都可以被认为是正确的。 为了解决这个问题,可以通过迭代训练来增强算法,方法是根据报告中的置信度对训练图像应用不同的权重。

 

启动时间

拟议的BAA深度学习系统将用于临床环境,以更高效和更准确地执行BAA。执行预处理图像的单个BAA大约需要10 ms。然而,平均需要1.71秒才能在分类前对图像进行裁剪,分割和预处理。在分割之前,大部分时间都是由标签地图的构建所消耗的。通过利用有选择性的搜索来处理只有合理的感兴趣区域的时间可以减少[37]。此外,不是保留宽高比并创建512×512像素图像,而是将图像变形为更小的矩阵大小,以最终输出图像质量为代价减少分割所需的计算时间。最佳平衡需要系统研究,超出了这项工作的范围。虽然预处理和BAA的所有阶段都不能实时进行(<30 ms),但与传统的BAA相比,净解释时间(<2 s)仍然更快,范围从1.4到7.9 min [38]。

 

临床应用

图1详细介绍了放射科医师对传统BAA的处理过程以及提出的自动生成报告的全自动BAA系统。 放射科医师通常将患者的X光片与G&P图谱中的参考图像进行比较,这是一项重复且耗时的任务。 由于骨龄是根据主观比较来评估的,因此间隔符J数字成像变异性可能相当大。 因此,我们的系统具有另一个主要优势:它可以减少特定检查的观察者间差异。 重复向CNN呈现相同的X光照片总是会导致相同的BAA。

 

我们的工作流程向放射科医师展示了G&P地图集中相关的一系列图像,并提供了算法认为最佳匹配的概率估计。 放射科医师然后选择他或她认为哪个图像是最准确的BAA,从而触发系统创建标准化报告。 该系统可以无缝嵌入到报告环境中,从而提供结构化数据,从而提高报告给EMR的健康数据的质量。

 

局限性

尽管我们的系统在改善工作流程,提高质量和速度解释方面具有很大的潜力,但还有一些重要的限制。 排除0-4岁的人略微限制了该系统对所有年龄段的广泛适用性。 鉴于10年的加入仅包括590名0-4岁的患者(占总查询的5.6%),考虑到该年龄段患者的相对稀少性,这种限制被认为是可以接受的。 最后,通过向数据集添加更多的射线照片,我们希望扩大我们的系统以包括所有年龄段

另一个限制是我们使用基于整数的BAA,而不是每6个月提供一次时间点。 这不幸是GP方法固有的。 原始地图集没有提供一致的时间分配年龄,而不是在快速增长期间,还有额外的时间点。 鉴于年龄范围的不断变化,这也使得训练和临床评估变得困难。 这是多个其他人试图纠正的问题,例如Gilsanz和Ratib在这方面的工作与数字骨骼成熟图,它使用来自高加索儿童的理想化图像提供从8个月到18岁的29个年龄组[10]。 虽然他们的地图集比GP地图集更加一致,但由于没有广泛的临床应用而存在严重的局限性,因此限制了我们随后可用于机器学习的可用培训数据。

由于我们的队列的年龄测定结果低于年龄测定结果,因此我们选择在年龄报告为BX年6个月的情况下确定年龄,以保持处理所有中间时间点的一致方法,以及年龄年龄 自然计数与地板。 但是,这可能会引入错误。 为了解决这个问题,通过使用选择性圆整的案例来解决这个问题,大量案例,更高分辨率的图像或更高功率的计算机系统可以找到最佳设置组合,这超出了本工作的范围,但是未来重要方向。

最后,一个重要的考虑因素是观察者间变异性的程度。 有限的直接可比数据可以在关于BAA中观察者间变异性的文献中获得。英国注册服务机构使用Greulich和Pyle评估了50幅图像,以及Tanner自己的出版物估计这些估计值为0.96年,这表明使用TW2系统手动解释导致差异大于1阶段,时间范围为17%到33%[38-40]。 20世纪90年代后期,由南加州大学的图像处理和信息学实验室编制的数字手册[31]提供了手部X光片最全面的开放数据集,并由两名评估者进行评估。该系列中的所有射线照片均由两名评估员评分,总体RMSE为0.59岁-0.54岁,女性为0.57岁,所有5至18岁儿童为0.66岁。韩国最近发表的一项研究报道,GP方法[41]的观察者间变异为0.51±0.44年。这些值为人类观察者间变异性提供了基线;然而,他们可能低估了观察者间变异的真实程度。我们的女性0.93年和男性0.82年的数值可以与这些报告数值的上限相提并论,因为我们的系统不会拒绝畸形图像。尽管我们的数据集确实提供了一个丰富的资源,可以对多位评估者和经验水平进行观察者间变异性的严格评估,但执行此类分析超出了本工作的范围,并且将作为未来检查的一部分来执行,以帮助指导系统性能。

 

结论

 

我们创建了一个全自动化的深度学习系统,可以自动检测和分割手部和手腕,使用预处理引擎对图像进行标准化,使用微调的CNN执行自动化BAA,并生成结构化放射学报告,并由放射科医生做出最终决定。 该系统自动标准化所有不同格式,供应商和质量的手部X光片,作为未来模型增强的训练数据集,并在女性和男性队列中获得2年内98.56%和1年内92.29%的良好平均BAA准确性。 我们确定训练好的算法评估BAA的手部和腕部的相似区域,就像人类专家通过注意力图所做的那样。 最后,我们的BAA系统可以部署在临床环境中,通过显示G&P地图集的三到五个参考图像,显示我们的放射科医生的自动化BAA,通过一键结构化报告生成来确定最终年龄。