半监督医学图像分割:基于对抗一致性学习和动态卷积网络的方法| 文献速递-深度学习结合医疗影像疾病诊断与病灶分割
Title
题目
Partially-supervised Medical Image Segmentation Employing Adversarial Consistency-based Learning and Dynamically Adaptive Convolutional Network
半监督医学图像分割:基于对抗一致性学习和动态卷积网络的方法
01
文献速递介绍
在医疗影像分析领域中,医学图像分割被视为一项关键的技术手段。它能够从异常或病灶的影像中准确识别出关键的器官或病变区域。近年来,在深度学习领域中,编码器-解码器架构(如U-Net系列)已展现出卓越的效果,并取得了一系列突破性的进展。然而,在实际应用中发现这些技术的成功高度依赖于高质量的像素级标注数据获取。一方面,由于医疗影像通常具有较低对比度和较高的噪声水平,导致其视觉效果较差;另一方面,在进行医疗影像分析时所需的专业知识远超自然场景下的普通领域。因此,在目前阶段几乎无法大规模构建拥有高质量高精度标签的数据集
相较于传统监督学习,在弱监督学习中如何处理数据部分监督的问题则是一种新型的学习范式
主要采用的半监督医学图像分割方法大致可分为一致性学习、对抗学习、自训练、对比学习以及协作训练等多种形式。本文重点探讨的一致性学习与对抗学习之间的关系及其相互作用机制。在一致性学习中,则通过施加不同类型的扰动以促进网络一致性的优化。其中最具有代表性的即为Mean Teacher (MT) 模型,在该模型中,则通过施加基于不同扰动的一致性损失于未标记数据集上,并结合监督信号引导学生模型的学习过程。随后在此基础上提出的改进方法主要关注如何选择更加适合的数据扰动策略以及特征提取方式以进一步提升性能表现。具体而言,在生成一致伪标签方面表现优异的分割网络,则能够更有效地提取未标记数据中的知识信息
对采用对抗训练策略进行研究,在医学图像分割领域中,基于生成对抗网络(GAN)的设计主要包括两个关键组件:判别器与生成器。判别模块的主要任务在于判断输入样本是否来源于真实数据集或者是由生成模块所产出的数据样本;而生成模块的目标就是使判别模块无法有效地区分出真实数据与其自身所生成的数据之间的细微差别。当判别模块无法确定待评估样本的具体归属时,则认为该生成出来的样本与其对应的参考数据具有足够的相似性特征。这两个组件通过交替优化实现协同进化
Abstract
摘要
Popular semi-supervised medical image segmentation networks often suffer from error supervisionfromunlabeled data since they usually use consistency learningunder different data perturbations to regularize model training. These networks ignore the relationshipbetween labeledand unlabeleddata, and only compute single pixel-levelconsistency leading to uncertain prediction results. Besides,these networks often require a large number of parameterssince their backbone networks are designed depending onsupervised image segmentation tasks. Moreover, these networks often face a high over-fittingrisk since a small numberof training samples are popular for semi-supervised imagesegmentation. To address the above problems, in this paper,we propose a novel adversarial self-ensembling networkusing dynamic convolution (ASE-Net) for semi-supervisedmedical image segmentation. First, we use an adversarial consistency training strategy (ACTS) that employs twodiscriminators based on consistency learning to obtainprior relationships between labeled and unlabeled data.The ACTS can simultaneously compute pixel-level andimage-level consistency of unlabeled data under differentdata perturbations to improve the prediction quality oflabels. Second, we design a dynamic convolution-basedbidirectional attention component (DyBAC) that can beembedded in any segmentation network, aiming at adaptively adjusting the weights of ASE-Net based on thestructural information of input samples. This componenteffectively improves the feature representation ability ofASE-Net and reduces the overfitting risk of the network.The proposed ASE-Net has been extensively tested onthree publicly available datasets, and experiments indicatethat ASE-Net is superior to state-of-the-art networks, andreduces computational costs and memory overhead.
半监督医学图像分割网络常因错误标签的存在而受到影响。这些网络由于其主干网络是专为有监督图像分割任务设计的,在不同数据扰动下进行模型正则化训练的同时忽视了标注与未标注数据之间的关系。此外,在这种设置下仅考虑单个像素级别的一致性这可能会导致预测结果不确定性。为了减少参数数量这些方法往往需要大量参数并且还容易出现过拟合的风险。
为了解决上述问题,在本文中
Method
方法
In this study, we introduce an adversarial self-ensembling network (ASE-Net) designed for semi-supervised medical image segmentation. As demonstrated in Figure 1, our ASE-Net architecture incorporates two primary components: segmentation modules and discriminators. The segmentation module consists of two key submodules: a student network and a teacher network. Both submodules share an identical encoder-decoder architecture; however, they differ in their training approaches—the student network is optimized using conventional loss functions, whereas the teacher network represents an exponential moving average (EMA) of its own weights. The discriminators within our framework include convolutional layers along with our proposed DyBAC mechanism for dynamic balancing of activation coefficients, complemented by a global average pooling layer to integrate feature information from different spatial locations. As shown in Figure 1, these components collectively form our complete ASE-Net architecture.
本文中, 我们开发了一种新型用于半监督医学图像分割的对抗自我集成网络(ASE-Net)。如图1所示, 该系统包含两个主要组成部分: 分割模块和鉴別模块. 分割模块由学生模组与教师模组构成. 两者在架构上具有相似性, 均基于经典的编码器-解码器架构设计; 其中一个是基于损失函数优化设计的主学习者模组, 另一个是采用学生模组权重指数移动平均策略的设计辅助学习者模组. 鉴別模块则由多层卷积操作构成, 包括动态卷积注意力机制(DyBAC)以提升特征提取能力, 并通过全局平均池化操作来简化特征表示. 该系统的整体架构如图1所示.
Conclusion
结论
In this research, we have developed ASE-Net for semi-supervised medical image segmentation. Initially, the introduced ACTS method effectively merges adversarial learning with consistency learning through adversarial training to enhance consistency learning. This enables the network to rapidly grasp the prior connections between unlabeled and labeled data, while also extracting latent knowledge from unlabeled datasets. Subsequently, our DyBAC framework adaptively modifies convolutional kernel parameters based on input samples, which not only prevents overfitting and boosts feature representation capabilities but also reduces memory usage. Experimental results across three widely-used benchmark datasets demonstrate that our ASE-Net surpasses existing methods and offers an effective solution for semi-supervised medical image segmentation, significantly mitigating risks associated with overfitting and uncertainty in consistency learning.
在此研究中,我们提出了ASE-Net,一种用于半监督医学图像分割的新颖网络架构
首先,本研究中提出了一种名为ACTS的技术有效地结合了对抗学习与一致性学习策略
通过对抗训练策略最大化地提升了一致性学习效果
这使得网络能够迅速建立并强化已标注与未标注数据之间的先验关联,并进一步挖掘潜在的知识储备
随后,我们提出了一种称为DyBAC的方法能根据输入样本动态调整卷积核参数值
Figure
图

本研究中所提出的ASE-Net框架主要由两部分构成:分割网络(左侧)和判别器网络(右侧)。分割网络基于经典的编码器-解码器架构实现图像分割功能。判别器网络则用于区分生成图像与真实图像的差异,在推理阶段不需要使用Discriminators。其中k、s和p分别代表卷积核的大小、步长和填充量等参数设置。
图 1展示了我们提出的ASE-Net框架。该框架由两个核心模块构成:左侧为分割网络模块和右侧为鉴別网络模块。通过编码器-解码器架构实现对图像信息的学习与提取过程。右侧模块展示了鉴別网络的具体架构:其中k代表卷积核的大小、s代表步幅、p代表填充参数。值得注意的是,在推理过程中无需使用鉴別模块。

Fig. 2展示了DyBAC的结构图示中项(a)的空间注意力机制与项(b)的动态卷积模块。动态卷积核主要依据样本通道维度与空间信息进行生成,在不同输入样本的情况下其卷积核参数值会动态调整以适应不同的输入需求
图 2 展示了 DyBAC 架构的主要组成部分:(a) 空间注意力模块与(b) 动态卷积模块。其中动态卷积核的设计主要由样本的空间信息及通道数量共同决定其生成机制。不同输入样本将导致该模块参数值发生相应调整。

_Figure 3 presents a visualization of feature heatmaps for each convolutional layer duringthe encoding stage.The first row features UNet's standardconvolution-basedheatmaps whilethe third row shows those utilizing DyBAC.The second row incorporatesheatmaps from standardconvolution,andthe fourth row displays results from DyBAC-basedconvolutions.Unet'sencoding process is divided intofive stages.Inside thesestages,theconvolution followingthefirstlayer has beenreplacedwith our proposed dynamicconvolution-bilaterallyattentioncomponent(DyBAC).Whenviewingtheseheatmapsfromleftto right,it illustratesthe progressionfromshallowto deeperlayers.However,differentcolorshighlightdifferentspatialweightdistribution patterns.]
如图3所示,在编码阶段各卷积层中进行了特征热图可视化对比实验研究。具体而言,在第一行及第三行中展示了基于标准卷积Net架构的特征热图;而第二行及第四行则呈现了基于提出的动态卷积双注意力模块(DyBAC)改进后的特征热图。该实验从左至右依次排列了浅层至深层的空间分布信息

Fig. 4. 基于2,594个标注数据,在dermoscopy图像的训练与验证集合上进行学习曲线分析。其中蓝色与红色曲线分别代表基于DyBAC的U-Net++模型;而灰色与黄色曲线则分别代表基于标准卷积的U-Net++模型。(a)在dermoscopy图像数据集上训练与验证集的准确度曲线分别为;(b)在dermoscopy图像数据集上训练与验证集的损失曲线分别为。
如图4所示,在皮肤镜图像训练集与验证集的学习过程中(a)展示了基于DyBAC优化的U-Net++架构在皮肤镜图像数据集上的分类精度变化情况;(b)则呈现了对应的损失函数变化情况。该研究通过对比实验验证了所提出方法的有效性。

_Fig. 5. 在使用训练集10%标注数据的情况下,在LiTS测试集上展示了不同方法的可视化结果。绿色代表真实边界线(ground truth),红色表示分割结果(segmentation result),而黄色区域则是分割结果与真实边界线的重叠部分。因此可以看出,在分割效果方面,绿色和红色区域的数量减少通常意味着更好的性能。
图5展示了基于训练集中10%标注数据在LiTS测试集上不同方法的可视化结果。其中绿色区域代表了实际标注区域,在红色部分则显示了分割模型识别出的结果;而黄色部分则标识出了模型识别结果与实际标注区域重合的部分。值得注意的是,在较少数目(较小数量)未被正确识别(即为红色)以及未能准确反映真实情况(即为绿色)的情况下,则表明模型的整体性能表现较为理想

Fig. 6. Visualization outcomes of various approaches on the dermoscopy image validation set using the annotated dataset from the training dataset.
图. 6. 利用训练集20%标记数据的皮肤镜图像验证集上不同方法的可视化结果。

Figure 7 illustrates the visualization outcomes of diverse methodologies applied to the left atrium validation dataset, accomplished by employing differing percentages of labeled training data, respectively.
图. 7. 分别采用训练集中10%和20%标记数据的左心房验证集上不同方法的可视化效果分析
Table
表

TABLE I A comparative analysis of ablative experiments on the LITS-Liver testing dataset using 10% labeled data from the training set, with highlighted results in bold.
表1 进行对比实验:在LITS肝癌测试数据集中基于训练集10%的标记数据进行消融实验效果分析,并将最优指标以加粗显示。

TABLE II presents a comparative analysis of ablation experiments conducted on the dermoscopy image validation set, incorporating various ratios of labeled data from the training set. The optimal results are highlighted in bold.
表II的研究显示,在皮肤镜图像验证集上利用不同比例的训练集标记数据进行消融实验的最佳数值用粗体表示。

The comparative analysis presented in Table III demonstrates the performance of ablation experiments conducted on the left atrium validation set using 10% labeled dataset portion from the training set. The best results are highlighted in bold.
表 III 在左心房验证集的数据中进行了基于训练集 10% 标记数据的消融实验比较。并以粗体标示出最佳数值。

TABLE IV中展示了采用训练集10%标记数据进行的定量对比分析结果。通过该研究方法对各评估方法的核心网络架构进行了评估,并将所有实验中获得的最佳指标值用粗体显示。
表 IV基于训练集10%标记数据在LITS肝脏测试集中我们方法与其他对比方案的定量对比结果。所有评估手段均采用了基于U-Net架构的设计。

TABLE V presents a systematic quantitative assessment comparing our method with other comparative techniques within the LITS Liver Test Dataset, employing 20% labeled instances from the training set. The foundation networks of all evaluated methods are based on U-Net architecture, with their optimal performance metrics highlighted in bold font.
表V 基于训练集20%标记数据(即五分之一)进行LITS肝脏测试数据集上的定量分析,在评估过程中所采用的主要网络架构均为U-Net模型。关键指标值以加粗显示

_TABLE VI presents a quantitative comparison analysis among our method and other comparative approaches when validating dermoscopy images using 10% labeled data from the training group. The backbone network architecture of all evaluated methods utilizes U-Net++.
表VI 我们的对比方法与现有对比技术在基于训练集中10%标记数据的皮肤镜图像验证集中的定量对比分析中表现更为突出。所有评估体系所采用的核心网络架构均为U-Net++模型框架。为了突出显示最优性能指标,在表格中将最佳数值采用加粗显示

The quantitative assessment of TABLE VII compares our method with other comparative techniques on the dermoscopy image validation set, based on 20% labeled data from the training set. The backbone network used by all evaluated methods is U-Net++. Among these, the best-performing metrics are highlighted in bold font.
表 VII 基于训练集20%标注数据的皮肤镜图像作为验证集进行定量比较实验。本方法与其他对比方法均采用U-Net++作为骨干网络架构,并将最佳数值结果以粗体显示。

表8展示了我们方法与其他对比方法在左心房验证集上的定量对比分析结果(采用训练集10%的标注数据)。所有评估方法的骨干网络均为V-Net架构。其中最优指标已用粗体标出。
表VIII基于训练集10%的标记数据,在验证区段上我们所提出的方法与现有对比方法进行定量评估。所有评估手段均采用V-Net架构,并且关键指标以粗体显示以突出其重要性。

TABLE IX A comparative analysis among our approach and other comparable techniques on the left atrium validation dataset, employing a training dataset with 20% labeled data. The primary network architecture across all evaluated methods is the v-net, with its best values highlighted in bold.
基于表IX的数据,在训练集中选取了20%用于标注的心脏区域作为验证组,并对我们的方法与其它对比方案进行了定量评估。所有评估方案均采用了主干网络架构,并通过突出显示最佳指标来便于分析对比。

The efficiency of diverse network configurations is assessed in Table X, with the best values highlighted in bold font.
表X不同网络效率的比较,最佳数值用粗体表示。

TABLE XI: A comparative analysis of the statistical significance between the introduced ase-net and comparative baseline methods across various datasets.
表XI提出的ASE-Net与基线MT方法在不同数据集上的统计显著性
