Recursive Cascaded Networks for Unsupervised Medical Image Registration论文阅读
用于无监督医学图像配准的递归级联网络
abstract
该系统采用了递归级联网络用于形变图像配准。该架构基于任意底层模型构建,并允许各个层级依次作用于运动图像序列的不同阶段。最终实现与固定参考图的一致性,并在整个过程中体现出反馈特性。整体架构采用端到端设计模式,并借助多层级反馈机制使得各阶段输出能够不断优化其变换参数。整个训练过程采用无监督学习策略进行参数优化,在3D医学图象上进行评估证明了所提出方法较现有最先进的方法能持续带来显著性能提升
introduction
在研究变形图形配准的过程中发现了一个相关领域:光流估计。其本质是二维图像配准问题,在物体之间运动时出现不连续现象,并主要用于跟踪运动及其细微的变化。值得注意的是,在光流估计中不可避免地需要猜测遮挡或折叠区域的存在(这与变形图像配准的方法不同)。一些研究尝试通过多级网络来处理这一问题,并为每个级联阶段分配不同的任务和输入进行训练;然而,在级联深度较浅时其性能仍接近现有水平。这表明简单的级联架构在处理非连续信息时可能无法发挥显著作用
基于机器学习的方法也被应用于解决形变图像配准问题。不同于光流估计这类方法,在形变图像配准过程中通常需要实现主体间的模糊度匹配。早期研究主要依赖传统算法或通过模拟物体内部变形来推导出较为精确的真实形变场。然而,在训练数据质量有限的情况下,这种方法仍存在性能上的瓶颈。(此外,在监督学习方法中对标记数据的需求量较大)
随后提出了无监督算法的概念。研究者们计算变形后的运动图像与固定图像之间的相似性度量,并利用可微变形操作实现了反向传播过程。然而,在现有的网络架构中,默认仅关注直接预测结果这一局限性使得它们难以应对复杂变形场景下的数据处理需求。尽管深度学习中的级联架构(如DLIR)与虚拟时间网络(VTN)算法在设计上都采用了多级学习策略以提升模型性能,但它们在具体实现上仍存在显著差异:DLIR通过逐级确定各层权重参数并逐步训练模型结构来实现目标;而VTN则采取联合训练多级的方式,在每一轮训练中都统一考虑所有可能的变形情况并更新模型参数。值得注意的是,在这些非协作式的级联学习机制下,各层级的学习过程无法实现对同一对原始图像的一体化配准效果——即在不考虑其他层级特征的情况下单独优化每一对特征关系时会限制整体性能提升的效果
本文所提出的级联架构与现有级联方法存在主要差异:它采用当前被扭曲的图像与基准图像作为输入数据,并且其中相似性度量仅应用于最终所得的变形图像。这种设计使得各个层级协同作用于渐进式的配准过程。
从概念上来看
Recursive Cascaded Networks
Im_m和If_f分别代表移动图像与固定图像,并被嵌入在d维空间中进行建模。在变形图像配准过程中,合理的流场应呈现连续性特征,不允许出现折叠现象。为了实现目标,我们需要设计一个流场预测模型F,通过该模型能够推导出一个密集型位移向量场以实现两幅图像的对齐
通过递归地针对变形图像实施配准操作来依次进行这个过程。变形后的图像结果将由流场和运动图像进行合成处理完成。即:
Im′'_m=ϕ\phi⋅\cdotIm_m
在递归过程中,在线处理后会依次对运动图像施加扭曲变换,并通过逐级细化的方式实现预测结果的逐步优化。这种优化过程能够将具有较大位移的初始预测结果分解为多个小位移的细化阶段。每个级联阶段都涉及一个流场预测模型fk_k,并根据当前迭代结果不断更新其输出;该模型负责将当前时刻的状态信息映射到下一时间点的空间变化关系中,并通过迭代更新最终确定最终状态估计值u_{k+1|k};而f_{k|k}则表示第k个级联阶段所对应的最优局部空间变换模型。
ϕk\phi_k = fkf_k(Imk−1,IfI_m^{k-1}, I_f)
ImI_m代表被第k个级联扭曲的运动图像。
F(Im,IfIm, I_f) = ϕn⋅⋅⋅ϕ1\phi_n\cdot\cdot\cdot\phi_1
最后的扭曲图像如下式建立:
Im(n)_m^{(n)} = F(Im,If)(I_m, I_f)⋅Im\cdot I_m
3.1 子网
每一个fkf_k都被具体化为一种卷积神经网络结构,并被设计成能够基于输入的变形图像与固定参考图像预测自身的变形场分布。其中,函数集合f₁,f₂,…,fₙ在架构设计上可以有所差异性安排。值得注意的是,在这些级联结构中能够学习不同网络的具体参数设置,因为这种级联架构允许对部分测量数据或特定校准任务进行优化。
采用U-Net架构的设计方案已被广泛应用于变形配准任务中, 其中包含VTN(Voxel Transformer Network)与VoxelMorph等方法. 该网络体系主要包含编码器模块与带有跳跃连接的解码器模块两部分组成: 其中编码器负责提取目标区域的关键特征信息; 而解码器则通过跳跃连接进行上采样, 并细化预测区域至最终密度较高的目标定位结果.
医学图像通常采用两次扫描,并通过初始刚性变换(仿射变换)实现大致对齐;Voxelmorph假设输入图像需外部预处理完成初步校准;而VTN集成了一种高效仿射配准网络,在校准效果上超越传统方法;因此,在高级级联中我们嵌入了仿射配准网络;该网络仅预测仿射变换而无需预测通用流场;其余部分与常规级联一致。
3.2 无监督端到端学习
我们提出了一种基于学习的方法来实现所有级联组件在Im(n)I_m^{(n)}和IfI_f空间中的相似度联合训练策略。通过引入可微复合操作符(即扭曲操作),递归级联架构能够有效地协同执行渐进式校准过程。值得注意的是,在叠加超过三次变形配准网络时仍难以取得理想效果的主要原因在于现有的逐次训练机制(该方式难以显著提升性能),以及对每一个扭曲图像进行直接相似性测量所带来的局限性(这使得网络难以掌握渐进式的配准关系)。
3.3 共享权级联
递归运算可以通过重用同一个连接来实现多个串接操作,并赋予它们相同的参数值。这称为共享权级联
通过训练一个n级联网络,在测试阶段可立即引入共享权级联。例如,在Im(n)I_m^{(n)}结束后将所有级联整合为一个不可分割的整体(从而形成2n个独立的共享权级联),对应流场函数f1,f2⋅⋅⋅fn,f1,f2⋅⋅⋅fn)。我们提出了一种改进方案:在每个共享权级联之后立即插入一个新的共享权级联(即在每个fkf_k之后乘以它的r次幂来构造总的rn个共享权级)。这一方法已在后续实验中得到了验证。
当可以在测试期间通过更进一步细化的方法来提升输出流场质量的效果时
在训练过程中选择不采用共享权级联是基于以下原因:当我们在特定平台上执行梯度反向传播时,采用共享权级联会导致与非共享权级联相比多消耗同等规模的额外GPU内存资源。此外,在这种架构下受限于GPU内存容量的影响因素之一是需要同步处理的参数层级数量。若允许模型学习不同的参数配置,则可能会带来性能提升的效果
experiment
4.1 实验设置
我们开发了一种基于 VTN 架构的递归级联网络,在图像配准领域展现出卓越的能力。其中包含多个变形子网以实现复杂形变,并且其中一级作为基础模块与其他模块协同工作。通过结合创新方法进行多层(共 10 层)vtm 模型训练(不包含仿射变换相关),以验证该模型在不同场景下的适用性。同时采用 VoxelMorph 等其他模型构建额外的基础组件,并通过分阶段优化实现更好的泛化性能
基于两组数据集展开评估:肝部CT检查与脑部MRI检查。针对肝部CT扫描,在递归级联网络上实施成对训练及测试,并实现体素间配准以确保固定图像具有任意性;参考VoxelMorph的研究框架,在参考空间下完成运动图像的空间映射,并其称作基于模板的空间映射配置;两种配置方案均为医学影像配准领域的常规做法
该系统继承了基于自定义扭曲操作构建的TensorFlow 1.4框架中的VTN实现方案,并以相关系数作为相似度评估指标;正则化损失函数的比例维持恒定以防止过拟合风险。配置参数设定如下:batch size设为4;实验运行环境采用了四块NVIDIA TITAN Xp GPU并行处理;选用Adam优化器执行连续1×1e5次迭代训练任务;初始学习率为1×1e-4,在达到6×1e4步时执行第一次学习率衰减(衰减幅度为一半),并在达到8×1e4步时执行第二次衰减操作。
基准机器学习 VTN和VoxelMorph是先驱性的变形图像配准技术。我们将其基础网络叠加,并与原始系统进行对比分析。此外,我们还对比分析了SyN和B-spine两种变形图像配准技术。这些技术都被证明是表现最优的变形图像配准传统方案。最终采用VTN中的推荐参数设置。
评价指标 我们根据扭曲图像中的运动图像与固定图像之间的某些解剖结构进行分割,并通过Dice score评估这些分割的质量。
Dice(A,B)=2⋅Dice(A,B) = 2 \cdot∣A∣⋂∣B∣∣A∣+∣B∣\frac{|A|\bigcap|B|}{|A|+|B|}
当两个区域完全重合时得分为1;其数值结果清晰地反映了两区域间的相似程度,并进而直接反映配准效果的质量。对于多个解剖结构,则计算各结构对应的分数,并取其算术平均值作为综合评估指标。
此外,在某些数据集中还可以采用地标标注的方法作为辅助度量手段。我们测量了固定图像与扭曲图像之间的坐标平均距离,并 vtm 中也有说明
