面向半监督医学图像分割的双重结构感知图像滤波|文献速递-生成式模型与transformer在医学影像中的应用
Title
题目
Structure-aware approaches for dual-image filtering in semi-supervised segmentation
面向半监督医学图像分割的双重结构感知图像滤波
01
文献速递介绍
精确的医学图像分割对于计算机辅助诊断(CAD)系统至关重要。经典的监督学习分割方法通过大量标注数据达到了显著效果。然而,手动分割因其繁琐和耗时而具有较高的时间和资源消耗。近年来,半监督式的图像分割技术因其能够有效利用易于获取的大批未标注图像来提升模型性能而受到了广泛关注。
现有的主流半监督分割方法主要依赖一致性正则化技术(Zhao等, 2023;Wang等, 2023b;Yang等, 2023;Basak和Yin, 2023;Lei等, 2022;Jin等, 2022;Xiang等, 2022;Basak等, 2022;Lyu等, 2022;Su等, 2019a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z; Adiga等, 456789)
最近研究表明,在半监督分割任务中,基于一致性的正则化策略(Chen等, 2021; Yang等, 2023; Basak和Yin, 2023; Lyu等, 2022; Liu等, 2022a)取得了显著成果。例如,在CPS框架下(Chen等, 2021),通过初始化网络生成不同类别或标记的伪标签,并建立互为监督的关系。该方法依赖于有效的图像增强手段(例如CutMix Yun等, 2019),这些增强手段能够有效提升模型性能(Chen等, 2021; Yang等, 2023; Liu等, 2022b)。然而,现有基于图像级别的变异方法未充分考虑结构信息的重要性,在医学影像领域尤其关键。此外,在医学影像中通常难以观察到显著的分布方差差异(Arazo等, 2020),这可能导致模型容易受到噪声或异常伪标签的影响而发生过拟合。
Aastract
摘要
Semi-supervised image segmentation has garnered significant attention in recent years. The central challenge is to effectively utilize unlabeled images during the training process. Most approaches ensure consistent predictions across variations in image content or model configurations at both the image and model levels. However, in many cases, medical images inherently contain structural information that remains underexplored. In this study, we introduce a novel pair of structure-aware image filters (DSAIF) designed specifically for semi-supervised medical image segmentation. Drawing inspiration from topology-preserving filtering techniques applied to structure-aware tree-based image representations, we developed a method that removes structurally identical nodes—i.e., topologically equivalent connected components—in either the Max-tree or Min-tree representation. This results in two filtered images that preserve critical topological structures while discarding redundant information. When applied to mutually supervised networks, our approach reduces the consensus among their erroneous predictions on unlabeled images. This innovation helps mitigate the confirmation bias issue associated with overfitting to noisy pseudo-labels derived from unlabeled data, thereby enhancing the overall segmentation performance. Comprehensive experiments conducted on established benchmark datasets demonstrate that our method achieves superior performance compared to existing state-of-the-art techniques. The source codes will be made publicly available upon publication.
半监督图证分割技术近年来备受关注。其核心在于如何充分利用未标注图证数据,在训练过程中实现有效的利用。当前研究多集中于通过修改图证或模型层面特征以提高对未标注图证的学习能力。尽管这一策略已在大量研究中得到应用并取得了不错的效果,在这一领域仍存在诸多挑战与探索空间。本文提出了一种创新性的双重结构感知图证滤波(DSAIF)方法,在半监督医学图证分割领域引入了一种新的图证级变化策略。该方法参考了连接滤波的思想:通过基于树状的空间语义表达对图证进行过滤处理以简化复杂性我们在此基础上发展出一种新型双重对比不变表示法即Max树与Min树结合的新表示方式具体而言我们提出了一种改进型连接滤波算法:删除Max/Min树中无兄弟节点且拓扑等价的关键节点即删除孤立节点从而获得两个经过过滤后的图证版本这些版本均能保留原始图证的关键拓扑结构特性同时去除了可能引入噪声干扰的部分区域。将此DA-SAF方法应用于互监督学习框架能够有效降低两组互监督网络在学习过程中由于未标注图证带来的预测一致性问题从而进一步提升模型泛化能力并避免因伪标签污染而引发的风险最终实验表明该方法能在多个基准数据集上取得比现有先进算法更好的性能表现源代码已全部公开
Method
方法
3.1. Overview
半监督语义分割任务旨在通过充分利用数据资源以提升分割性能。具体而言,该任务基于一小批标注图像{l = {(x_l, y_l)}_l=1^N}以及大量未标注图像{u = {x_u}}_u=1^M,其中N远小于M.我们采用了经典的基于一致正则化的半监督医学图像分割框架,该框架通常由对未标注图像进行的图像级变化和模型级变化组成.在图像级变化部分,我们采用基于对比不变性的Max树与Min树的双结构表示(见第3.2节详细描述),并提出了创新性的双结构意识连通滤波器(Dual Structure-Aware Filtering, DSAF).具体而言,我们提出了一种新的连通滤波器,仅保留Max/Min树中的关键拓扑节点.相应的滤波器命名为上/下结构意识连通滤波器(Upper/Lower Structure-Aware Filtering),并简记为USAIF/LSAIF.该滤波器生成两个与原始图像保持相同拓扑结构的新图像.此外,我们利用Max/Min树对增强性变化具有不变性这一特性,进一步增强了表现多样性的同时保持了拓扑图像结构.在模型变异部分,我们采用了交叉伪监督(CPS)方法(Chen et al., 2021)作为基准示例来展示我们的方法(如图1所示).值得注意的是,D SAIF也可应用于其他相互监督框架如MC-Net(Wu et al., 2021)、MC-Net+(Wu et al., 2022a)以及Co-BioNet(Peiris et al., 2023).使用MC-Net、MC-Net+及Co-BioNet作为基准的所提框架流程图见附录材料.
3.1. 概述
部分监督语义分割任务旨在通过结合少量标注图像(\mathcal{D}_l = \{(\mathbf{x}_l, \mathbf{y}_l)\})与大量无标签图像(\mathcal{D}_u = \{\mathbf{x}_u\})来增强分割性能,在N远小于M的情况下。研究者们通常遵循基于一致性的经典半监督医学图像分割框架,在该框架下主要对未标注样本进行像素级变异操作以及模型层面的参数调整。
在图像级变异研究中,我们开发出一种双阈值不变性的Max-tree与Min-tree表示法(具体内容参见3.2节),并将其应用于滤波连接过程。为此,我们开发出了一种新型的双重结构感知图像滤波器(DSAIF),作为一种专门针对图像变异设计的独特机制。具体而言,在这一过程中,我们开发出了一种新的连接滤波类型,在保留了Max/Min树的关键拓扑节点的同时增强了其鲁棒性与适应性特征。这种创新性的方法将原始输入信号经过处理后生成两个版本的图像输出:一个是USAIF输出(Upper Structural Awareness Image Filter),另一个是LSAIF输出(Lower Structural Awareness Image Filter)。值得注意的是,在这一过程中还应用了Max/Min树模型对单调递增对比度变化表现出强稳定性特征
对于模型级变异问题,在研究过程中我们采用了交叉伪监督(CPS)方法(Chen等, 2021)作为一个基准案例来展示我们的方法,并将其可视化表示(如图1所示)。值得注意的是,在某些互监督框架中还可以应用DSAIF这一技术。具体而言,在MC-Net(Wu等, 2021)、MC-Net+(Wu等, 2022a)以及Co-BioNet(Peiris等, 2023)这些体系中都可以看到DSAIF的应用实例。其对应的建议管道架构在附录中进一步展示。
Conclusion
结论
_We introduce an innovative image-based variation method named DualStructure-Aware Image Filtering Approach (DSAIF) for semi-supervised medical image segmentation. Specifically, we employ the dual Max-Tree and Min-Tree image representation, and eliminate leaf nodes without siblings from their respective trees. This is equivalent to removing all topologically equivalent regions while ensuring preservation of key topological elements, thereby generating two images with distinct appearances yet retaining the same overall topological structure as the original. By integrating this method into mutually supervised networks, we reduce consensus on erroneous predictions for unlabeled images. This helps mitigate confirmation bias issues, where models may overfit to noisy pseudo-labels by prioritizing accuracy over contextual relevance. As a result, our approach enhances segmentation performance. Extensive experimental results on widely used benchmark datasets demonstrate that our method significantly outperforms state-of-the-art techniques. In future work, we aim to extend this approach to additional semi-supervised medical image segmentation frameworks and explore its integration with more sophisticated tree-based shape analysis tools.]
我们开发了一种创新性图像级别的变化方法称为双结构感知图像滤波DSAIF并将其应用于半监督医学图像分割领域。具体而言该方法基于双重Max-tree与Min-tree的图像表征能够有效去除每个树中无兄弟节点的所有节点从而等价于移除所有拓扑等价的区域同时保留了具有关键拓扑结构的区域这使得算法能够生成两幅外观各异但保持原始拓扑结构的新图象。我们将该方法整合到互监督学习框架中通过降低对未标注数据集预测一致性的错误估计有效地缓解了模型对噪声伪标签过拟合的问题并显著提高了分割性能经过广泛的实验验证在三个常用的数据集上所提出的方法显著超越现有最先进的方法并且表现一致未来研究者可以进一步将该方法应用于其他半监督医学分割问题并结合形状树进行更深入的结构感知滤波研究
Figure
图

Fig. 1. The pipeline of the proposed DSAIF framework using mutual supervision of CPS (Chen et al., 2021) as the model-level variations. We propose novel dual structure-awareimage filterings (DSAIF) based on Max/Min-tree representation as the image-level variations. We remove every node (marked in red) without siblings in Max/Min-tree which istopologically equivalent to its ancestor node.
如图所示:开发出了一个基于Chen团队(2021年)提出的层次结构变异模型为基础的互相互监督型DSAIF框架管道系统。该系统通过构建Max/Min-tree表示实现了一种多层次特征解析技术,并将其命名为DSIAI滤波器(DSAIF)。具体而言,在图像级变异过程中,在Max/Min-tree架构中筛选并去除了那些缺乏子分支的所有节点(以红色标注),这些被去除的节点在拓扑关系上与它们所属层级上的祖先元素保持一致关系

Fig. 2展示了所提方法DSAINF的一个说明性示例。基于原始图像(b)构建的Max树(e)和Min树(f),我们去除所有没有兄弟节点的红色标记节点(其拓扑结构等价于其祖先节点)。由过滤后的Max/Min树重建的两个图像分别表示USAIF(a)和LSAIF(c),它们与原始图像具有相同的拓扑结构但呈现显著不同外观。图中标注区域后的数字代表相应区域的灰度值。(d–e)中的数字表示方程(1)中的水平ℓ。(f–g)中的数字表示方程(2)中的水平ℓ.
图 2展示了DSAIF方法的一个实例图。对于原始图像(b),我们生成了其对应的Max-tree(e)和Min-tree(f)。随后,在这两棵生成树中去除那些没有兄弟节点并且与其祖先节点在拓扑结构上等价的所有节点(用红色标注)。接着,在这些过滤后的Max/Min树上进行重构操作以恢复出USAIF(a)和LSAIF(c),这两者虽然在视觉效果上有明显差异但均保留了与原始图像相同的复杂性特征数值分布情况在图中标注了各个区域对应的灰度值信息此外在(d-e)部分展示的具体数值对应于(f-g)部分的内容这些数值分别代表了公式(1)中的层级h以及公式(2)中的层级参数

图3展示了利用Max/Min树在DSAIF中的一个具象化例子(a),它通过其对比度不变性特性发挥作用。在应用单调递增对比度变化之前,在DSAIF中进行处理后会增加图像多样性的同时保持与原始图像相同的拓扑结构
图 3 展示了在DSAIF框架内采用Max/Min-tree结构进行对比不变性分析的情境。通过将原始图像施加单调递增的对比度调整,在提升外观多样性方面同时保证其原有的拓扑特征不受影响。

The qualitative results of the DSAIF method on the LA dataset, as well as Pancreas-CT images from Clark et al. (2013) in the middle row, and PROMISE12 data from Litjens et al. in the bottom row, demonstrate significant improvements. The adjusted images in part (b) were generated by applying a gradually increasing contrast adjustment to the original images.
图 4. 在 Xiong 等人(2021)、Clark 等人(2013)以及 Litjens 等人(2014)发表的相关研究数据集上展示了一些定性评估结果;图 (b) 中的变化曲线图是通过将原始图像经过持续增强对比度处理而获得的结果展示

The qualitative segmentation outcomes achieved by the DSAIF model on the LA dataset are illustrated in Figure 5, which includes Xiong et al.'s first two rows, the Pancreas-CT dataset's middle two rows, and the PROMISE12 dataset's bottom two rows, as reported by Clark et al. in 2013 and Litjens et al. in 2014.
图表5展示了DA方法分别在三个不同数据集上的定量分割效果:具体来说,在Xiong等人(2021)的研究中涉及的是前三部分的数据;Clark等人(2013)的研究则涵盖了中间部分;而Litjens等人(2014)的研究则集中于后半部分的数据集。

Fig. 6. Quantitative trend analysis of the LA dataset within the CPS baseline framework for varying amounts of labeled data portions.
图 6. 在CPS基准下,LA数据集不同标注数据比例下的定量趋势分析。

Fig. 7. 进行定量趋势分析于基于CPS基准的Pancreas-NIH数据集上针对不同标记的数据比例
图表 7. 在基于CPS的标准下,在Pancreas-NIH 数据集中进行不同标注比例的数据的定量分析趋势研究

注
图 8. 在CPS基准下,PROMISE12数据集不同标注数据比例下的定量趋势分析。

The Dice score 𝐷𝑒, as defined by Equation (7), quantifies the similarity between erroneous predictions made by two mutually trained networks analyzing unlabeled images from the PROMISE12 Dataset (Litjens et al., 2014). Meanwhile, the Dice score 𝐷𝑟, derived from Equation (8), measures the consistency between correct predictions generated by these networks during their training phase.
Fig. 9. (a) 误报的Dice系数𝐷𝑒被公式(7)所定义,在模型训练阶段双监督学习架构对PROMISE12数据集(Litjens et al., 2014)上非标注测试样本上的误报情况进行表征。(b) 真实检测的Dice系数𝐷𝑟被公式(8)所定义,在模型 training stage 双监督学习架构对 Pomi se数据集(Litjens et al., 2014)上非标注测试样本的真实检测效果进行表征。

Fig. 10.(a) (resp.(b)) Dice scores comparing the ground truth with network outputs from 𝑓^{∗}_{\theta_1} and 𝑓^{∗}_{\theta_2} across unlabeled training images of the PROMISE12 Dataset, as reported by Litjens et al.(2014), were evaluated in various training iterations during the training process.
Fig. 10(a) and (b) respectively demonstrate the performance of network fθ₁ or fθ₂ across different training stages in the PROMISE₁₂ dataset, which was originally published by Litjens et al. in 2014, compared to ground truth annotations.
Table
表

Table 1 Quantitative assessment of the LA dataset (Xiong et al., 2021). We present the mean and standard deviation obtained from three runs.
表格 1 基于 Xiong 等人(2021)提出的 LA 数据集的研究成果及其应用前景进行了详细分析,并对实验结果进行了统计描述。

Table 2 presents the quantitative evaluation of the Pancreas-NIH dataset (Clark et al., 2013). We documented the mean and standard deviation across three runs.
表 2 定量评估结果 Pancreas-NIH 数据集(Clark et al., 2013)上进行了详细记录。本研究记录了三次实验结果的均值与标准差。

Table 3 Quantitative assessment of the PROMISE12 dataset (Litjens et al., 2014). We present the mean and standard deviation derived from three experimental trials.
表格 3基于PROMISE12数据集(由Litjens等于2014年提出)进行定量分析,并报告了三次独立运行所得出的均值及标准差

表4系统评估 Linguee数据集(Xiong等人于2021年)基于10%标注数据使用CPS(Chen等人于2021年)作为基准模型。我们报告了基于三次运行的均值与标准差
该表格展示了4LA数据集(Xiong及其团队在2021年的研究成果)上的消融实验,在基于10%标注数据的情况下,默认采用Chen等人的CPS方法作为基准进行比较。本研究详细记录了三次独立实验结果及其波动范围。

Table 5展示了所提出的DSAIF方法在使用CPS(Chen et al., 2021)作为基准的情况下进行的系统性消融分析,在LA数据集(Xiong et al., 2021)上基于10%标注数据评估区域阈值𝜏的影响.
该研究基于 LA 数据集 (Xiong 等人, 2021) 进行了消融分析,并重点探讨了所提出的 DSAIF 模型中涉及的关键区域阈值 𝜏。实验结果表明,在仅标注了约 10% 数据的情况下(即仅利用少量标记数据),该方法表现出了显著的优势,并将 CP 方法 (Chen 等人, 2021) 设为基准方案以进行对比评估

Tabular results across multiple datasets for prostate segmentation analysis. We provide quantitative assessment of the average performance metrics across three independent runs.
Table 6 presents the multi-modal dataset results for prostate segmentation performance. We analyzed the mean metrics and standard deviation across three experimental runs.
