基于深度学习的医学图像配准学习笔记1

基于深度学习的医学图像配准学习笔记

简介

在对同一物体进行医学成像时,由于设备差异、成像角度差异等因素,所以图像可能只能反应物体某个方面的特征。比如,MRI 对软组织成像效果较好,而 CT 对骨骼等成像效果较好。如果想结合两张不同的医学图像的信息进行诊断,就需要丰富的经验。也可以让其中一张图片做变换,使其与另一张图像对齐,然后在得到一张融合了两张图像特征的融合图像。图像对齐的过程就是配准,在配准中保持不变的图像被称为参考图像(fixed image/reference image),而做变换的图像被称为浮动图像(moving image)。图像配准常为图像融合的一个预处理步骤。

具体地说,通过寻找一种空间变换把浮动图像映射到参考图像上,使得两图中对应于空间同一位置的点一一对应起来,从而达到信息融合的目的

配准是医学图像处理中常用的基本技术,大量使用在医疗影像领域的各个方面,比如病灶检测,疾病诊断,手术规划,手术导航,疗效评估等。相较于检测、分类与分割任务,医学图像配准任务更加复杂,无论是数学原理、处理步骤,还是结果评价等方面,都存在很多难题。由于其任务本身的特性,将深度学习技术在自然图像上取得的进展迁移到配准任务上也更难一些,但随着深度学习的学习与研究热潮的高涨,配准领域的研究也因此受益,目前也有一定量的工作发表。虽然现在也有很多传统的配准方法取得了很好的效果,但是由于传统方法本身的局限性,导致其仍然存在很多问题,比如:

  1. 普遍适用性差,一种方法或一组参数只适用于某一特定模态或者是特定的数据集上
  2. 处理速度慢,由于传统的配准方法采用迭代优化的方式搜寻最优参数,这导致处理速度相当慢,很难应用在对实时性要求较高的场景中,比如引导穿刺针进行穿刺;
  3. 配准效果评估的难题在于没有一个金标准,目前利用深度学习配准的方法大多采用分割标记的重合度(DICE)评价配准,但这具有一定的局限性;
  4. 有标注的数据极其有限,深度学习极其依赖数据,而利用监督学习方法就需要大量的带标注的数据,带标注的数据有两个获取的途径,一种方法是通过专家标注,这种方法成本过高;另一种方法是利用传统方法进行标注,这种方法的问题在于采用这种方法的话,学习出来的模型效果肯定低于传统方法。

医学图像配准是医学图像分析中常用的技术,它是将一幅图像(移动图像,Moving)的坐标转换到另一幅图像(固定图像,Fixed),使得两幅图像相应位置匹配,得到配准图像(Moved)。传统的配准方法是一个迭代优化的过程,首先定义一个相似性指标(例如,L2范数),通过对参数化转换或非参数化转换进行不断迭代优化,使得配准后的移动图像与固定图像相似性最高。

本文调查了近两年来的基于深度学习的医学图像配准的文章,首先根据其中使用的深度学习方法进行分类,分别阐述;然后针对不同问题、从不同角度进行分析,比如分块、输入输出、刚体配准、评价指标、与传统方法比较、时间成本比较等。

配准分类

大体上,近几年的文章可以分为两大类 :(1)利用深度学习网络估计两幅图像的相似性度量,驱动迭代优化;(2)直接利用深度回归网络预测转换参数。前者只利用了深度学习进行相似性度量,仍然需要传统配准方法进行迭代优化,没有充分发挥深度学习的优势,花费时间长,难以实现实时配准。本文只针对后者进行研究与讨论。

根据使用的深度学习的种类划分,可以划分为基于监督学习的配准与基于非监督学习的配准两大类。

当前用于配准的深度学习模型主要有四类:

  1. 卷积神经网络:最常见,最普遍;
  2. 循环神经网络:目前的研究较少;
  3. 强化学习:不懂,略;
  4. 生成对抗网络:目前已有一定数量的论文出现,可能是下一步的研究热点。

监督学习

基于监督学习的配准,也就是在训练学习网络时,需要提供与配准对相对应的真实变形场(Ground Truth)。以二维图像配准为例,监督学习架构如图所示。通常,先以两幅图像对应坐标为中心点进行切块,将图像块输入深度学习网络(通常为卷积神经网络),网络输出为图像块中心点对应的变形向量(Deformation Vector)。在训练监督学习网络时,需要提供训练样本相应的标签,也即是真实的变形场。获取标签有两种方式,(1)是利用传统的经典配准方法进行配准,得到的变形场作为标签;(2)是对原始图像进行模拟变形,将原始图像作为固定图像,变形图像作为移动图像,模拟变形场作为标签 。

在测试阶段,对待配准图像对进行采样,输入网络,把预测的变形向量综合成变形场,再利用预测的变形场对移动图像进行插值,即得配准图像。三维图像与之类似。
基于深度学习的医学图像配准学习笔记1

非监督学习

相较于监督学习,基于非监督学习的配准方法就是在训练学习网络时,只需要提供配准对,不需要标签(即真实的变形场)。因此,该方法在训练与测试阶段,均不依靠传统的配准方法。以二维图像配准为例,非监督学习框架如图2所示。
基于深度学习的医学图像配准学习笔记1
通常,基于非监督学习的配准 ,将配准对输入网络,获得变形场,对移动图像进行变形插值,即得配准图像。三维图像与之类似,将三维图像输入网络,获得变形场(dx,dy,dz),再插值得到配准图像。由于空间转换层(Spatial Transformation Networks,STN)的提出,首次成功地将其应用到医学图像领域,使得在训练阶段能够实现非监督学习的配准。空间转换层直接连在深度学习网络之后,利用获得的变形场对移动图像进行变形,得到变形后的图像。训练时,利用变形后的图像与固定图像求损失函数值(Loss function),对其进行反向传播,不断优化,使得损失函数值最小

相关问题

为了从不同角度、不同部分对基于深度学习的配准方法进行简要分析与比较,对参考文献从以下六个方面进行了总结,得到如下结论。

  1. 分块
    分块是指对移动图像与固定图像进行采样,以采样点为块中心点,从图像中截取出来,输入到深度学习网络中。通常基于监督学习的配准方法需要对图像进行分块,输入网络,获得块中心点对应的变形向量,而基于非监督学习的方法往往不需要分块。

  2. 输入输出
    大部分的配准网络均将移动图像与固定图像作为两通道图像作为输入,而基于监督学习的配准网络将其进行分块后输入。[6] 做了进一步的工作,除了输入移动图像块与固定图像块之外,还输入了两图像块卷积得到的相似性图像。[8] 在输入层输入固定图像,而在网络的中间层输入移动图像,这与其设计的独特配准网络有关。[9] 输入网络的是待学习的向量(Latent vector),预测变形场,对移动图像进行变形插值,而只在训练阶段利用固定图像求损失函数值。[4] 将固定图像,移动图像与固定图像的差分图像(Difference map)以及固定图像的梯度图像(Gradient map)作为三通道输入网络。
    关于输出,基于监督学习的配准方法往往输出的是变形向量,而基于非监督学习的方法输出的为变形后的移动图像。

  3. 刚体配准
    [10] 利用卷积神经网络来学习2D-3D刚体配准的参数。该文章使用人工合成图像作为训练样本,截取图像块,分别输入分支网络,然后整合到主干网络,以监督学习的方式学习转换参数(Transformation parameters)。得到的转换参数为tx、ty、tz、tθ、tα、tβ,分别为x方向平移量、y方向平移量、z方向平移量以及三个旋转量。

  4. 评价指标
    配准效果的评价指标(Evaluation metrics)与使用的数据集有关。大多数文章中使用的数据集,如心脏与脑部图像数据集,均有对应图像的分割标签,因此,大多数使用Dice作为评价指标。而使用胸部CT数据集时用TRE(Target Registration Error)来评价配准效果。

  5. 与传统方法比较
    多数文章使用的作为对比的传统配准方法为SyN、Demons或其变体,如ANTs,LCC-Demons。[2] 使用的是Elastix(一种基于ITK的开源配准工具包),[7] 使用的是SimpleElastix。

  6. 时间成本比较
    [3] [4] 中对比了传统配准方法与基于深度学习的配准方法的时间成本,以[4] 数据为例,如图所示,其中D.Demons(Diffeomorphic Demons),SyN与FNIRT为传统方法,BIRNet为文中提出的基于深度学习的方法。从图中可以看出,基于深度学习的配准方法BIRNet处理速度最快,在GPU上运行D.Demons次之,耗时1.1分钟,SyN最慢,耗时9.7分钟。BIRNet为监督学习方法,输入网络的是采样得到的图像块,而非完整图像。
    基于深度学习的医学图像配准学习笔记1研究在逐渐从部分依靠深度学习(如利用深度学习网络结果,初始化传统方法优化策略)到完全依靠深度学习(即基于非监督学习的配准方法,学习网络直接获得配准图像)实现配准任务的方向转变,深度学习在配准任务上发挥越来越大的作用与潜能,配准效果与传统经典方法相近,甚至更好。