Synergistic Image and Feature Adaptation: Towards Cross-Modality Domain Adaptation for Medical Image
@Synergistic Image and Feature Adaptation: Towards Cross-Modality Domain Adaptation for Medical Image Segmentation论文翻译
协同图像与特征自适应: 面向医学图像分割的跨模态域自适应
**摘要:**本文提出了一种新的无监督域自适应框架——协同图像与特征自适应(SIFA),有效地解决了域位移问题。域自适应是近年来深度学习研究的一个重要和热点问题,其目的是解决神经网络应用于新的测试域时性能下降的问题。我们提出的SIFA是一个优雅的学习图,它从图像和特征两个角度展示了适应性的协同融合。特别是,我们同时跨域转换图像的外观并且增强所提取的特征的域不变性来进行分割任务。在端到端学习过程中,特征编码器层由两个透视图共享,以掌握它们的共同特征。在不使用目标域的任何标注的情况下,我们的统一模型的学习是以对抗性损失为指导,从各个方面使用多个判别器。我们已经通过对心脏结构的跨模态医学图像分割这一具有挑战性的应用广泛地验证了我们的方法。实验结果表明,我们的SIFA模型能够将性能下降幅度从17.2%恢复到73.0%,并显著优于现有重要领域的最先进方法。
**引言:**深度卷积神经网络(DCNNs)已经在不同的富有挑战性和关键性的视觉任务上取得了重大突破。随着DCNNs研究的不断深入,近年来很多研究指出当遇到域位移时性能的下降问题,也就是试图将学习到的模型应用在测试数据(目标域)与在训练数据(源域)有不同的分布。医学图像计算是人工智能应用于医疗的重要领域,由于各种成像方式具有不同的物理原理,异构域位移更加普遍和严重。
例如,在不同的医学图像成像方式如磁共振(MR)成像和计算机断层成像(CT),心脏区域呈现显著不同的视觉外观,如图1所示。
图1:从不同角度处理医学图像中严重的跨模态域位移问题
基于MR数据训练的DCNN对CT图像的分割结果:
a)没有任何自适应;
b)具有纯图像自适应;
c)具有纯特征自适应;
d)我们提出的协同图像和特征自适应;
e)标注数据。
不出意料,在MR数据上训练的DCNNs在CT图像上测试时几乎完全失效了。为了改善模型的表现,一个简单的方法是用额外的目标域中的已标记数据进行重新训练和微调。然而,标记数据对于任何领域来说都很昂贵,尤其是需要专业知识的医学领域。为了解决这个问题,无监督的域自适应方法开始被广泛研究,使得仅仅在使用源域的已标记数据时,提升DCNNs在无标记目标域数据上的效果。先前的工作主要把解决域位移分为两个方向。一方面是图像自适应,通过将不同域内图像外观实现像素级对齐,从输入层解决域位移的问题;为了保留原始图像中像素级的内容,通常采用循环一致性约束来指导自适应过程。通常,转换后的类源域图像可以直接通过预训练的源域模型来测试。或者,生成的类目标域图像可以用来训练目标域模型。尽管合成图片无法完美地模仿真实图片的表现,但图像自适应过程带来了精确的像素级的目标域图像预测,如图1所示。
另一种无监督域自适应是特征自适应,即利用DCNNs提取域不变特征,而不考虑输入域之间的外观差异。这种方式中的大多数方法在对抗性学习场景中区分源域和目标域的特征分布。此外,考虑到平面特征空间的高维性,最近的一些工作将判别器连接到更紧凑的空间。例如,Tsai等人将分割掩膜输入判别器中,因此监督从语义预测空间中产生。Sankaranarayanan 等人将特征重建成图像,并在重建的图像空间中放入判别器。尽管对抗性判别器隐式地增强了DCNNs 提取的特征的域不变性,但自适应过程可以输出具有合适平滑几何形状的结果。意识到图像自适应和特征自适应从互补的角度解决了域转移问题,我们认识到这两个适应程序可以在一个统一的框架内一起执行。通过图像变换,将源图像变换为目标区域的外观;然后,合成的类目标图像和真正的目标图像之间剩余的差别可以进一步通过特征提取来解决。这一思路的分享,最近的一些工作提出了将图像和特征提取结合的有希望的尝试。然而,现有的这些方法顺序地利用这两种适应,没有利用共同的相互作用和影响。当然,实现图像和特征的协同融合,将DCNNs 推广到新的域时使用零额外的标注消耗来巧妙地克服域位移的障碍仍有广阔的空间。
在本文中,我们提出了一种新的无监督域自适应框架,叫做协同图像和特征自适应(SIFA),并且成功地将它应用到严重域位移下的跨模态医学图像分割中。我们设计的SIFA提出了一种优雅的学习图,它可以使从图像和特征角度的适应协同融合。更具体地说,我们通过使用具有循环一致性约束的生成式对抗网络将已标记的原图像转换为从目标域绘制的图像的外观。当使用合成的类目标域图像来训练分割模型时,我们进一步特征自适应来对抗剩余的域位移。我们使用两个判别器,分别地连接语义分割预测和产生的类源图像,来区分是从合成图像中还是真实的目标图像获得的图像。最重要的是,在我们的SIFA框架中,共享特征编码器,这样它可以同时变换图像外观并为分割任务提取域不变特征。整个域自适应框架是统一的,图像和特征自适应被无缝地集成到端对端的学习图中。这篇论文的主要贡献如下:
我们提出了一种新的无监督域自适应框架,它从互补的角度利用协同图像和特征自适应来解决域位移问题。
我们在语义预测空间和生成图像空间两个方面使用判别器来增强特征自适应。这两个紧凑空间都有助于进一步增强所提取特征的域不变性。
我们在有挑战性的跨模态心脏结构分割任务中验证了SIFA的效果。我们的方法使性能下降到17.2%恢复到73%,并且以显著的优势胜过当前最先进的其他方法。
**相关工作:**在最近的深度学习研究中,解决DCNNs在域位移下的性能下降一直是一个高度活跃且新颖的研究领域。从不同角度提出了大量的自适应方法,包括图像自适应,特征层自适应和二者的混合。在这节中,我们将概述这些流派中的进程和最新的方法,特别关注图像处理领域的无监督域自适应。包括对自然图像和医学图像的研究。出于对生成式对抗网络的感谢,图像层自适应方法已经被发展到在DCNNs的输入层来处理域位移。一些方法首先在源域训练一个DCNN模型,然后将目标域图像转变成类源域图像,从而可以利用预训练的源模型就行测试。与之相反,其他方法将源于图像转换成目标域图像的外观。转换后的类目标图像之后被用来训练可以在目标域表现良好的任务模型。这个模型同样可以用来进行医用视网膜眼底图像分析。随着CycleGAN在非成对图像间转换中的广泛成功,许多以前的图像自适应工作都是基于改进的CycleGAN,在自然数据集中和医学图像分割中的应用。
同时,特征自适应的方法也开始被研究,目的是通过提取DCNNs中的域不变特征来降低域位移。前辈的工作试图最小化域间统计数据的距离,例如最大平均距离和层激活函数相关性。之后DCNN和ADDA的代表方法通过使用一个判别器来区分不同域的特征空间,利用对抗性学习发展了特征自适应方法,该策略的效果也在医学应用中分割脑损伤和心脏结构中得到了验证。最近的研究提出了将高维特征空间投影到其他紧凑空间,如语义预测空间或图像空间,为了更有效地进行特征对齐,判别器在紧凑空间中运行来获取对抗性损失。对于DCNNs来说,图像和特征自适应从不同角度解决域位移,实际上是互补的。将这两种自适应策略结合起来实现更强大的域自适应技术正在探索进程中。作为目前最先进的语义分割自适应方法,CyCADA和Zhang等人在合成驾驶场景域到真实世界驾驶场景域间的自适应中取得了一流的效果。然而,他们的图像和特征自适应是顺序连接的并且是分阶段训练的,没有相互作用。
考虑到跨模态医学图像间域位移的严重,特征自适应和图像自适应单独一个可能在这项挑战性的任务中并不足够。,然而从两个角度同时进行自适应还没有完全研究出来。为了处理分割任务中有挑战性的跨模态自适应,我们提出在一个统一的网络中协同地合并两种自适应过程,以充分利用它们在无监督域自适应中的互利性。
方法:

图2 我们的无监督域自适应框架概述
生成器Gt用于源图像到目标图像转换。编码器E和解码器U形成反向变换,其中编码器E还与用于图像分割的分类器C相连。判别器{ Dt , Ds , Dp}区分它们的输入相应得到对抗性损失。蓝色和红色箭头表示图像自适应和特征自适应的数据流。为了便于说明,图中省略了反向循环一致性。
我们提出的医学图像分割中的无监督域自适应方法概述如图2。我们提出利用一种新的学习图来协同图像和特征自适应,从而有效地缩小由于域位移导致的性能差距。两种角度的自适应无缝地合并到一个统一的模型中,因此,两者在端到端的训练过程中都可以共同地彼此互利。
用于外观对齐的图像自适应
首先,使用一系列源域XS的已标记样本,{x_is,y_is}{i=1} N,和目标域Xt中的未标记样本{X_jt}{j=1}^M 我们的目的是将由于域位移导致持有不同的视觉外观的源图像xS转换为目标图像外观xt。得到的转换后的图像看起来就像是从目标域获取的,但具有结构语义的最初内容未受影响。这个模块通过对齐图像外观来缩小源域和目标域之间的域位移。
实际上,我们通过构建生成器Gt和判别器Dt来使用生成式对抗网络,它已经在像素级的图像转换中取得了广泛的成功。生成器目的是将与图像转换到类目标图像 。判别器和生成器对抗来正确区分假的已转换图像 和真正的目标图像 。因此,在目标域,生成器Gt和判别器Dt形成了极大极小的二者博弈并且通过对抗学习进行优化:
当判别器试图最大化这个目标来区分 和 ,同时生成器需要最小化这个目标来将 转换成真实的类目标图像。
为了保护转换后图片的最初内容,通常使用反向生成器来施加循环一致性。如图2所示,编码器E和上采样解码器U形成反向目标图像到源图像的生成器 来重构转换后的 回源域,并且判别器 在源域运行。这对源域 和具有对抗性损失 的 训练方式相同。然后使用像素级的循环一致性损失 激励 和 来恢复原始图像:
通过对抗性损失和循环一致性损失,图像自适应将源图像 转换成了保持语义内容的类目标图像 。理想情况下,这个像素到像素的转换可以将转换后的图像 带进目标域的数据分布,从而这些合成图像可以被用来训练一个目标域的分割网络。
具体来说,从变换后的图像中提取特征之后,特征映射 被转发到用于预测分割掩膜的分类器C。换句话说, 的组合作为目标域的分割网络。这一部分时通过使用样本对 通过最小化混合损失 来训练的。形式上,通过 为 标注分割预测,分割损失被定义为:
第一项代表交叉熵损失,第二部分是Dice loss,α是平衡它们的平衡超参数。混合损失函数被设计用来解决医学图像分割中的类不平衡问题。
基于域不变性的特征自适应
在上述图像自适应中,使用转换后的类目标图像训练一个分割网络已经可以在目标域获得有吸引力的表现。不幸的是,当域位移严重时,例如对于跨模态的医学图像,它仍然不足以来得到令人满意的域自适应结果。为此,我们从特征自适应的角度进一步增加了额外的判别器,试图弥补合成图像和真实目标图像之间的剩余域间隙。
为了使提取的特征具有域不变性,最常见的方法是直接在特征空间使用对抗性学习,导致判别器无法区分特征来自哪一个域。然而,特征空间具有高维性,因此很难被直接对齐。相反,我们选择通过在两个紧凑的低维空间中使用对抗性学习来提高特征分布的域不变性。具体来说,我们通过语义预测空间和生成的图像空间注入对抗性损失。
如图2所示,对 中分割掩膜的预测,我们构造判别器 来对输出分类成相应的 和 。语义预测空间代表人体解剖结构的信息,在不同的成像方式下应该是一致的。如果从 提取的特征和从 提取的对齐,由于解剖形状是一致的,判别器 无法区分对应的分割掩膜。除此之外,对抗梯度被反向传播到特征提取器E,从而最小化 和 特征分布的距离。特征自适应的语义层监督的对抗性损失是:

对于来自 生成的类源图像,我们给源域的判别器 增加了一个辅助的任务来区分生成的图像是从真实的目标图像 转换后的图像还是从 重构的图像。如果判别器 成功地将生成的图片分域,这意味着提取出来的特征仍然保持域特征。为了使特征具有域不变性,下列的对抗性损失被用于监督特征提取过程:

需要注意的是,E通过连接两个部分的判别器来激励提取具有域不变性的特征,分别是分割预测(高层语义)和生成的类源图像(低层外观)。通过这两个低维紧凑空间的对抗性学习,合成目标图像 和真实的目标图像 的域间隙可以有效地解决。
协同学习图
重要的是,我们提出的协同学习图的一个关键特征是在图像和特征自适应共享特征编码器E。更具体的说,E被基于图像自适应角度的对抗性损失和循环一致性损失优化。对于特征自适应,它还收集来自判别器 反向传播的梯度。在这些方面,特征编码器被安置在一个多任务学习场景中,因此,它可以表示对多种目的都有用的通用的和健壮的表现。反过来,不同的任务会给编码器参数带来互补的归纳性偏差,也就是或者强调像素级循环重建或者关注结构语义。当训练这样一个复杂的模型时,这也可以有助于使用有限的医学数据集时的过拟合问题。
通过使用编码器实现图像和特征自适应的无缝集成,我们通过端到端的方式训练统一的框架。在每次训练迭代中,所有的模块依次地按如下顺序进行更新:
。具体来说,生成器 首先被更新来获取转换后的类目标图像。然后判别器 被更新来区分类目标图像 和真实的目标图像 。接下来,编码器 被更新来从 和 中进行特征提取,接着更新分类器C和解码器U,将提取的特征映射到图像分割预测和生成的类源图像中。最终,判别器 和 被更新,将他们输入进行域分类来增强特征不变性。我们框架的总体目标如下:
其中,
是调整每个组件重要性的权衡参数。
对于训练练习,当使用对抗性学习损失更新时,我们使用了学习率为 的Adam优化器。对于分割任务,Adam优化器使用初始学习率为 ,每两个阶段阶跃衰减率为0.9进行参数化。
在测试程序中,当一张来自目标域的图像到达时,这张图像 被转发到编码器E,然后应用于分类器C。通过这种方式,使用无需任何目标域注释学习的域自适应框架,语义分割结果被C得到。
模块的网络配置
在这部分,我们描述了提出的框架中每个模块的网络详细配置。残差连接广泛使用来缓解我们复杂模型中的梯度流动。我们还积极地借鉴前人在训练生成式对抗网络的经验,如参考文献所述。目标生成器 的层结构遵循了 的实践。它由3个卷积层、9个残差块和2个反卷积层组成,最后用一个卷积层得到生成的图像。对于源解码器U,我们使用1个卷积层,4个残差块和3个反卷积层来构造它,最后也遵循了一个卷积输出层。对于全部的三个判别器 ,我们使用了PatchGAN的结构,通过区分70x70个图像块。这个网络包含5个卷积核大小为4x4,步长为2的卷积层,除了最后两层使用了步长为1的卷积层。特征映射的每一层数目分别为 。在前四层,每个卷积层后面都是一个实例正则化和一个参数化为0.2的泄漏ReLU函数。编码器E使用残差连接和扩张卷积(扩张率等于2)来扩大感受野的大小,同时保持稠密预测的空间分辨率。设{Ck,Rk,Dk}分别表示具有k通道的卷积层、残差块和扩张残差块。M代表步长为2的最大池化层。我们的编码器模块是由{C16,R16,M,R32,M,2×R64,M,2×R128,4×R256,2×R512,2×C512}层堆叠而成的。每次卷积操作都连接到批标准化层和RELU激活函数。分类器C是1x1的卷积层,然后是上采样层,用于将分割预测的分辨率恢复成原始图像大小。
实验结果
数据集和评估指标
我们在2017年多模态全心分割挑战赛数据集上验证我们提出的无监督域自适应方法用于MR和CT图像中的心脏分割的效果。数据集由不同临床机构采集的未配对的20个MR和20个CT三维立体图像组成。心脏结构标注mask已经给出,包括升主动脉(AA)、左心房血腔(LAC)、左心室血腔(LVC)和左心室心肌(MYO)。我们的目标是在跨模态学习的背景下调整分割网络。
我们采用MR图像作为源域,把CT图像当作目标域。每个模态随机分80%用作训练,20%用作测试。CT图像的标注结果仅仅用于评估,不在训练阶段放入网络。所有的数据都被标准化为零均值和单位方差。为了训练我们的模型,我们使用冠状面图像切片,被切割成256x256大小,并通过旋转、缩放和仿射变换来增强,以减少过拟合。
在评价方面,我们使用了两个常用的度量来定量评价分割性能,这两个度量也被用于先前的跨模态域自适应工作中。一个度量是Dice系数,用来评估预测掩膜和标注结果的重叠量。另一种是平均表面距离ASD([体素])来评估模型在边界处的性能,较低的ASD表明分割效果较好。
与最先进方法的比较
我们将我们的框架与六种最近流行的无监督域自适应方法进行了比较,包括DANN,ADDA,CycleGAN,CYCADA,Dou和Joyce等。其中,前四个是针对自然数据集提出的,我们或者使用开源可得的代码,或者针对我们的心脏分割数据集重新实现。DANN和ADDA只采用特征自适应,CycleGAN适应图像外观,CyCADA同时进行图像和特征自适应。最后两种方法致力于在特征层上使用与我们相同的跨模态数据集来调整MR/CT心脏分割网络,因此,我们直接参考了他们论文中的结果。通过直接应用在MR源域学习的模型,在不使用任何域自适应方法的情况下,对目标CT图像进行检测,得到了“无自适应”的下界。

表1:我们的方法与其他无监督域自适应方法在心脏跨模态分割任务中的性能比较。我们报告了每一个心脏结构Dice和ASD的值和四个结构的平均值。(注:注:-表示该方法未报告结果,N/A表示由于对该心脏结构没有预测,因此无法计算ASD值)
表1报告了对比结果,我们可以看到我们的方法在无自适应下界上显著地提高了分割性能,并且在Dice和ASD方面大大超过以前的方法。没有域自适应时,该模型在四个心脏结构上仅获得17.2%的平均DICE,表明MR和CT图像间严重的域位移。引人注目的是,使用我们的SIFA网络,平均Dice恢复到73%,平均ASD下降到8.1 。我们的方法将AA(升主动脉)结构的Dice评分提升到80%以上,LAC(左心房血腔)和LVC(左心室血腔)提升到70%以上。值得注意的是,与同时进行图像和特征自适应的CyCADA方法相比,我们的方法获得了优越的性能,特别是对于在CT图像中对比度有限的LVC和MYO结构。这证明了我们的协同学习图的效果,它释放了图像和特征对齐互相传导的好处。

图3:不同方法分割结果的视觉比较。从左到右是原始的CT图像(第一列),无自适应下界(第二列),无监督域自适应方法(第三列到第六列),我们的SIFA网络结果(第七列),和标注数据(最后一列)。心脏结构的升主动脉(AA)、左心房血腔(LAC)、左心室血腔(LVC)和左心室心肌(MYO)分别用蓝色,红色,紫色和黄色表示。每一行对应一个样本。
视觉比较结果在图3中进一步提供。我们可以看到,如果没有自适应,网络几乎不会输出任何关于心脏结构的正确预测。通过单独使用特征自适应(第三和第四列)或者图像自适应(第五列),分割预测掩膜得到明显的恢复,但是预测的心脏结构的形状非常杂乱嘈杂。只有CyCADA和我们的SIFA两种方法,同时利用特征和图像自适应,对心脏的四种结构可以生成有意义的语义预测。特别地,我们的SIFA网络优于CyVADA,尤其在LYC和MYO的分割上。如图三的最后一行所示,LVC和MYO结构和它们周围组织亮度对比很有限,当其余方法在这个有挑战性的例子上失败时,我们的方法却能做出很好的预测。
关键部分的有效性

图4 MR和CT图像间转换的例子

表2 SIFA框架中关键部分的有效性。IA表示图像自适应,FA-P和FA-I分别表示语义预测空间和生成的图像空间中的特征自适应。
我们进行消融实验,以评估我们提出的协同图像和特征自适应学习框架中每个关键部分的有效性。结果呈现在表2.。我们的基准网络仅使用图像自适应,它在训练过程中除去了特征自适应对抗性损失 和 ,也就是除去了图2中红色箭头数据流。与无自适应的下界相比,我们的纯图像自适应的基准网络在分割精度上实现了很大的提高,平均Dice提高到58% 。这反映出通过图像变换,源图像已经被成功带近目标域。图4显示了图像由源域到目标域转换的四个例子,反之亦然。如图所示,图像的外观在原始图像语义内容得到很好保存的情况下成功实现了跨域的适应。
接下来,我们将基准图像自适应域特征自适应的一方面结合,也就是在语义预测空间加入了对抗学习,对应加入由 指导的判别器。这在图像自适应的基准上提升了性能,从58.0%提高到65.7%,证明了图像和特征自适应对各自来说是互补的,并且可以共同的使用来产生更好的域自适应。最后,通过使用 对齐生成的类源图像进一步增加特征自适应来完整我们全部的SIFA网络。这进一步导致了分割结果精确性平均Dice的明显提升,表明在这两个紧凑空间的特征自适应将从整体角度提高特征不变性。

图5:我们的方法中每个关键部分有效性图示:”IA”表示我们的网络仅使用了图像自适应;“IA with FA-P”代表图像自适应和语义预测空间的特征自适应;”SIFA”表示我们整体的框架
图5展示了使用不同组成部分的我们的网络的视觉比较结果。我们可以看出,随着更多的自适应结构的加入,分割结果变得越来越精准。我们的基准网络仅使用图像自适应可以正确地识别出心脏的结构,但是预测的形状是不规则和嘈杂的。加入两个低维空间的特征自适应进一步提高了网络,得到了正确的心脏结构形状,并且生成清晰的预测。总之,我们的SIFA网络将不同的自适应策略协同合并来利用它们对无监督域自适应的互补的贡献。
