【论文笔记】AIR-Net:基于GAN的配准模型

本文是论文《Adversarial Image Registration with Application for MR and TRUS Image Fusion》的阅读笔记。

文章提出了一个基于GAN的对MRI和经直肠超声(TRUS)图像进行多模态配准的有监督网络模型AIR-Net,其中MRI被当作固定图像,而经直肠超声图像被当作浮动图像。

【论文笔记】AIR-Net:基于GAN的配准模型

模型由生成器 GG 和判别器 DD 两部分组成,其中生成器直接估计一个从浮动图像到固定图像的转换参数 TestT_{est};然后通过一个图像采样器分别使用估计的转换参数 TestT_{est} 和真实(ground-truth)的转换参数 TgtT_{gt} 对浮动图像进行配准处理;并通过判别器来判断图像对是通过 TestT_{est} 还是 TgtT_{gt} 来进行对齐的。

文章将三维图像看作是多通道的二维图像,

生成器的详细结构如下:

一个空洞卷积层(128通道, dilation rate为2)用来扩大感受野,两个卷积层(128通道,步长为2)用来降低分辨率,一个包含具有残差连接的三个卷积层的残差模块(128通道),一个卷积层(卷积核大小为1×11\times1,通道数为8)用来降低参数数量,两个全连接层用来得到最终的输出,第一个全连接层的输出为256维的,第二个全连接层的输出的维度和转换参数的个数相同(如果是三维刚性配准则有6个参数,如果是三维仿射配准则有12个参数)。以上卷积层如果没有特殊声明,卷积核大小都为3×33\times3,并且后面紧跟一个ReLU**函数。

判别器的详细结构和生成器几乎相同,唯一不同的地方在于最后一个全连接层的输出维度为1,并且后面跟着一个Sigmoid**函数。


判别器的损失为:
L(D)=ETpgt(T)[D(If,Im)]+ETpz(T)[D(If,T(Im)] \mathcal{L}(D)=-\mathbb{E}_{T \sim p_{g t}(T)}\left[D\left(I_{f}, I_{m}\right)\right]+\mathbb{E}_{T \sim p_{z}(T)}\left[D\left(I_{f}, T\left(I_{m}\right)\right]\right.
其中 $ I_f $ 和 $ I_m$ 分别是固定图像和浮动图像,ETpgt(T)[D(If,Im)]\mathbb{E}_{T \sim p_{g t}(T)}\left[D\left(I_{f}, I_{m}\right)\right] 表示已经对齐的MR-TRUS的图像对的判别器损失的期望,而 ETpz(T)[D(If,T(Im)]\mathbb{E}_{T \sim p_{z}(T)}[D(I_{f}, T(I_{m})] 表示随机对齐的图像对的判别器损失的期望。

生成器的损失为:
L(G)=ETpz(T)[1D(If,Test(T(Im)))+αTestT12] \mathcal{L}(G)=\mathbb{E}_{T \sim p_{z}(T)}\left[1-D\left(I_{f}, T_{e s t}\left(T\left(I_{m}\right)\right)\right)+\alpha\left\|T_{e s t}-T^{-1}\right\|^{2}\right]
其中 TesetT12||T_{eset}-T^{-1}||^2 是估计的转换和随机生成的转换之间的欧几里得距离。

在训练时采用了和WGAN(Wasserstein GAN)类似的方法,为了保证训练的稳定性,在每次更新判别器网络的参数即后,需要将其参数clip到某个范围内,clipping 参数值设置为0.1。并且没训练一次生成器网络,判别器网络会更新两次。