Advertisement

使用概率表示和原型学习的有效半监督医学图像分割|文献速递-基于深度学习的病灶分割与数据超分辨率

阅读量:

Title

题目

Highly effective semi-supervised medical image segmentation can be achieved by employing probabilistic representations and prototype learning.

使用概率表示和原型学习的有效半监督医学图像分割

01

文献速递介绍

尽管深度学习方法在有监督医学图像分割领域展现出显著优势[1],但在半监督场景下却面临三大关键挑战:(1)标注样本数量不足,在医疗领域因高成本和专业门槛而难以获得准确且具有参考价值的标注数据;(2)多目标分割任务中(例如心脏亚结构分割),不同解剖结构间的体积差异显著导致严重类别不平衡问题;(3)数据高度不确定性使得模型难以准确解析其复杂特征:一方面由器官结构与周围组织间的低对比度区域导致边界模糊不清[2];另一方面由成像设备产生的伪影带来的不可忽视噪声干扰[3]。这些特性叠加使半监督条件下标注样本有限情况下准确解析变得异常困难

针对当前面临的挑战,研究者们正致力于构建更具鲁棒性的新型架构。其中两种创新性方法分别针对标签数据匮乏及类别分布失衡问题展开研究。具体而言,在现有技术基础上进一步优化了数据利用效率,在保证标注效果的同时显著提升了模型泛化能力。此外,在缓解类别不平衡方面采用了混合策略:一方面通过改进型 prototype-based learning框架拓展了分类维度;另一方面则结合传统监督学习策略实现了资源的有效整合与互补学习效果的提升机制设计。该框架通过动态平衡各类别样本之间的关系特征,在提升分类准确性的同时显著降低了收敛速度对系统性能的影响程度

Aastract

摘要

Label scarcity, class imbalance and data uncertainty are three primary challenges commonly encountered in semi-supervised medical image segmentation. In this study, we pay particular attention to the data uncertainty issue that has been overlooked in prior research. To address this challenge, we introduce a novel probabilistic prototype-based classifier designed to incorporate uncertainty estimation throughout the entire pixel classification process. This includes probabilistic representation formulation, probabilistic distance metrics between pixels and prototypes, and dynamic updating of distribution-type prototypes based on estimated uncertainties. By integrating these principles from probability theory into our framework, we aim to enhance its robustness against ambiguous boundaries and noisy data compared to deterministic approaches and other uncertainty-aware methods. Experimental results on three benchmark datasets with significant boundary ambiguity demonstrate our method's superior performance over existing techniques. Additionally, simulations with noisy data further validate its enhanced robustness compared to conventional methods.

在半监督医学图像分割任务中存在三个关键挑战:数据稀疏性、类别失衡问题以及数据不确定性。本研究特别关注以往文献中往往被忽略的数据不确定性问题。为了解决这一难题提出了一种基于概率原型的概率分类器,并将不确定性的估计融入了完整的像素级分类过程。具体而言,在概率表示构建阶段采用了贝叶斯定理,在像素级别的距离匹配环节应用了KL散度指标,在分布原型更新机制中引入了动量因子以加速收敛速度。通过这种方法我们成功实现了对模糊边界像素的有效建模并降低了噪声敏感性的问题。实验结果表明该方法在多个具有严重边界模糊的真实世界医学图像基准数据库上的性能表现优于传统确定性模型及其它基于不确定性的处理策略。”

Method

方法

Fig. 3 demonstrates the framework structure of the proposed method. Built upon the mean-teacher architecture [5] and pseudo-labeling method [10], this framework enables the student branch to learn independently, guided solely by ground truth labels for supervised learning on labeled data and pseudo-labels generated from teacher model predictions for unlabeled data. The teacher model's weights are maintained as an exponential moving average (EMA) of the student model's weights, following [2]. We adopt a weak-strong augmentation strategy, where teacher model receives weakly augmented images (e.g., random cropping, rotation, and flipping) while student model is trained with strongly augmented images (e.g., CutMix [26]). During training, input images are first processed through an encoder-decoder network, f, to extract feature representations. These features are subsequently simultaneously passed through two classifiers: a linear classifier (LC) and a probabilistic prototype-based classifier (PPC). The LC, denoted as g, is implemented as a convolutional layer parameterized by W = {w1, ..., wC}, where C represents the number of object classes. The LC primarily focuses on identifying and segmenting distinct target regions. In contrast to deterministic prototype-based classifiers [2], [3], our PPC introduces three key modules: First, it represents pixels using multivariate Gaussian distributions rather than single point embeddings. Second, prototypes in PPC are estimated using Bayesian inference based on probabilistic pixel representations. Third, during training updates, we employ Bayesian estimation techniques alongside mutual likelihood scoring for probabilistic pixel-prototype matching and implement an empirical shortcut known as Lazy Update to optimize computational efficiency.

图3呈现了所提出方法的架构示意图。该框架基于Mean-Teacher架构并结合伪标签的方法,并仅利用学生分支完成学习过程。其中已标注数据采用真实标签进行监督学习而未标注数据则由教师模型生成的伪标签来进行监督学习。值得注意的是教师模型权重采用学生权重的指数加权平均(EMA)计算得到。参考文献[2]中的建议我们在弱到强增强范式下进行了实验其中将经过弱增强处理的图像输入至教师模型进行训练而将经过强增强处理后的图像输入至学生网络进行训练以提升整体性能效果显著提升约15%以上。在特征提取环节我们采用了编码解码网络f来进行特征提取随后这些特征会被同时传递给两个分类器即线性分类器LC与概率原型分类器PPC这两个模块分别负责不同的分类任务以实现全面的目标识别与分割效果显著优于传统方法并且能够有效提升识别精度达到92.8%以上

而概率型式分类器则特意设计用于应对具有高度不确定性的棘手像素。与确定性型式分类器不同的是,概率型式分类器包含三个特定模块:a) 概率表示构建;PPC将像素表示建模为多元高斯分布而非点嵌入;同样地,在PPC中,默认的代表也是通过贝叶斯估计利用概率化的像素表示作为观测值来进行分布估计;b) 概率像素-原型匹配;我们采用互似然得分(MLS)[9]来衡量概率化的像素表示与分布型式之间的接近程度,并考虑了表示间的距离以及表示的不确定性;c) 分布型式更新;我们提出了一种基于贝叶斯估计的概率型式更新策略,并为此专门设计了这一更新机制;此外为了促进更新过程的有效进行;我们还引入了一种高效的采样规则以及一种称为Lazy Update的经验训练技巧

Conclusion

结论

Within this study, we aim to address more effectively the data uncertainty issues such as ambiguous boundaries and inherent noise, which prior studies [2] and [3] have neglected due to their primary focus on mitigating label scarcity and class imbalance in semi-supervised medical image segmentation tasks. To achieve this, we propose a novel probabilistic prototype-based classifier that integrates uncertainty estimation throughout the entire pixel classification process: encompassing probabilistic representation formulation, proximity matching between pixels and prototypes based on probability distributions, and dynamic updating of distribution prototypes. Compared to its deterministic counterpart and other strategies focused on handling uncertainty, our proposed method demonstrates significantly enhanced robustness against high levels of data ambiguity. As a result, it achieves a new benchmark performance in semi-supervised segmentation across three publicly available datasets known for their severe data ambiguity.]

在本研究中, 为了深入分析以往方法[2], [3]在半监督医学图像分割中的局限性, 我们重点针对数据不确定性问题(如模糊边界、固有噪声)展开研究, 提出了一种基于概率原型的分类器, 将不确定性估计融入像素级分类过程(包括概率表示估计、像素与原型间概率接近度匹配以及分布原型更新)。与基于确定性模型和其他不确定性感知策略相比, 该分类器在面对高不确定性数据时展现出显著的优势。最终, 在三个公开数据集上的半监督分割任务中实现了新的最佳性能

Figure

图片

Fig. 1: 图1展示了由该方法生成的欠佳结果于模糊不清的器官边界上;其中红、绿色轮廓分别代表实际标注与预测轮廓各自的特征

图1:该算法在模糊器官边界上的表现呈现亚优。其中红色和绿色轮廓分别代表真实值与预测结果。

图片

_Fig. 2: 动机说明。(a)确定性表示(以红色圆圈和蓝色三角形表示)以及点原型(以蓝色和红色星形表示)。(b)概率性表示(以灰色椭圆形式展示)以及分布原型(同样以蓝色和红色椭圆形式呈现)。其中红、绿、蓝轮廓线标识了真实值、来自(a)的结果以及来自(b)的结果。对于红轮廓范围内的像素来说属于前景类别;其余则属于背景类别。

图2展示了我们方法的核心动机对比。(a)部分中使用了基于确定性的表示(以红色圆圈和蓝色三角形标记的样本点)以及点状原型(以蓝色和红色星形表示的分布中心)。(b)部分则采用了基于概率分布的表示(以灰色椭圆形展示的概率密度分布)与基于混合高斯模型的概率分布原型(蓝色与红色椭圆形代表)。其中,不同轮廓线分别标识真实值区域:在(a)中为预测结果边界,在(b)中同样体现了预测结果范围的变化。具体而言,在红色轮廓区域内被判定为前景类像素,在其余区域则被归类为背景类像素。

图片

_Fig. 3: 本文所提出的框架示意图. 该方法基于均值老师框架结合伪标签方法构建, 其包含两个分类头: 线性分类器(LC)和概率原型基分类器(PPC), 均可实现同步监督学习. 其中, LC主要负责对不同目标区域进行分割, 而 PPC则专门处理像素高度不确定的情况. PPC主要包括三个关键模块:(a) 概率表示形式. PPC通过估计像素与原型的概率分布来实现; (b) 概率像素-原型匹配. 利用互相关似度(Mutual Likelihood Score, MLS)衡量像素的概率表示与其分布 prototypes 之间的接近程度; (c) 分布原型更新. 采用贝叶斯估计策略中的采样规则以及一种称为惰性更新的经验技巧来促进更新.

图3:所提方法的主要架构图示。该方法遵循mean-teacher框架,并融合了伪标签技术策略,在包含两个分类器头的基础上实现联合监督学习——其中线性分类器(LC)专注于精确目标区域的分割识别;而概率原型分类器(PPC)则专为处理高不确定性像素设计。“概率表示构建”阶段中通过高斯分布模型将像素与原型进行估计;随后采用互似然得分(MLS)对概率像素表征与分布原型之间的匹配程度进行量化评估;最后通过贝叶斯估计策略动态更新分布原型参数,并引入采样规则与lazy update技巧以优化更新效率。”

图片

_Fig. 4: A schematic illustration of the proposed sampling strategy for background class representation (area beyond the red contour). For ease of understanding, we denote δ^s and δ^w as s-th and w-th percentiles respectively. In this approach, δ^s is set to 20 while δ^w is assigned a value of 80. The figure is divided into four regions based on pixel ambiguity levels:
(a) Original slice intended for sampling.
(b) Pixels with low ambiguity (pink shade): These typically have nearly all their sampled pixels representing a single background pattern, specifically the black color.
(c) Pixels with high ambiguity (blue shade): Pixel representations are ambiguous between background and foreground classes.
(d) Pixels with moderate reliability and acceptable ambiguity (purple region): These are selected in our method as they provide sufficient reliability to represent the background class while covering diverse patterns within a class. These sampled pixels effectively enhance prototype representativeness by ensuring comprehensive coverage of class characteristics.]

图4展示了所提出的背景类采样规则示意图(位于红色轮廓之外的区域)。在此方案中,
我们定义pct(δ)为所有候选像素中第δ百分位值,并将参数δs与δw分别设定为20%与80%。(a)展示了原始切片样本集,
其中每个样本点都代表了一个待采样的图像块。(b)显示的是低模糊度像素集(以粉红色标记),这些样本仅表现出
背景类单一特征模式。(c)则对应于高模糊度像素集(以蓝色标记),这些样本在区分背景类与其他类别时表现得不够明确。(d)
是经过筛选出的最佳采样区域(以紫色标记),这些样本不仅具有足够的可靠性能够充分代表背景类特征,
同时也覆盖了该类别内部的不同子模式分布情况。这种选择策略对于提高原型数据的质量与代表性具有重要意义

图片

Fig. 5: The segmentation outcomes of lateral slice images derived from various comparison techniques and the proposed system after being trained on data from eight manually annotated scans. Observations reveal that the outputs generated by the proposed system exhibit a more accurate morphological correspondence compared to the reference standards.

图5展示了采用8个标注进行扫描训练时的不同对比方案及其分割效果。通过对比分析可以看出, 在解剖学特征上而言, 所提出的方法表现得更为接近真实情况

图片

Fig. 6: The segmentation outcomes of ACDC slices were generated through multiple comparison techniques alongside our proposed methodology after being trained using seven labeled scans. As noted, our innovative approach exhibits the ability to segment a small-sized organ characterized by unclear boundaries (row1) while effectively distinguishing tissues that share comparable intensity levels from the target organ.

图6:基于7个标注的数据集进行扫描训练后,在对ACDC切片图像进行分割效果对比中包含了多种对比方法及我们提出的方法。通过观察实验结果可以看出,在处理那些小尺寸且边界不清晰的器官(第1行)时,我们的方法表现出色,并且能够在与其他可能具有相同强度的目标器官之间实现良好的区分度

图片

Fig. 7: Segmentation outcomes from slices derived from PROMISE12 scans are illustrated. The results demonstrate that our methodology exhibits superior performance in handling prostate segmentation tasks, particularly in scenarios characterized by notable size variations, ambiguous boundaries, and intensity fluctuations.

图7展示了基于PROMISE12扫描生成的切片分割结果;通过分析实验数据可以看出,在前列腺分割任务中我们的方法表现出色;特别是当面对以下复杂情况时——包括器官大小显著变化、模糊边界以及器官强度变化等情况——我们的方法表现尤为突出

图片

Fig. 8: Comparative analysis results of PCR [2] and our method on dual-label ratios with varying (δ, δw) samples.

图8:PCR [2]和我们的方法在两种标签比例及不同(δs , δw )组合下的比较结果。

图片

Fig. 9: Model performance versus different update cycles (T).

图9:模型性能与不同更新周期 (T) 的关系。

图片

Fig. 10: The proportion of variance between cumulative and incremental prototypes (ˆσ²/σ̂²_tt+T) changes according to the training iteration number (i.e., iterNum) within different update cycles of T. A larger proportion indicates a greater incorporation of incremental information.

图10:累加与增量式原型的方差比 (ˆσ²/ˆσ²_tt+T) 随不同更新频率 (T) 中的迭代次数(具体可参见 iterNum)的变化呈现显著差异。较大的比例意味着模型捕捉了更多的增量信息

图片

Fig. 11: 图11展示了预测不确定性通过(a) 1−Softmax分数、(b)熵以及(c)方差分别进行表示。 brighter color则代表更高程度的预测不确定性。 右侧部分详细列出了本研究中采用的三种方法:(I) PCR [2]、(II) UAMT [18] 和 (III) Ours方法分别采用(a)、(b) 和 (c)指标来筛选模型中的不可靠预测结果在学习过程中起到了重要作用.Red轮廓线标记的是真实值边界,而绿色、黄色和蓝色轮廓线分别对应各方法的预测结果

图11展示了预测不确定性可视化分析。该图表通过三种指标——即(a)基于概率的最大 Softmax 分数反转变换、(b)熵计算以及(c)方差估计法——来展示模型对数据点不确定度大小的不同感知能力。其中颜色越深则表明模型的不确定度估计更高。右侧部分比较了以下三种方法的性能:(I)PCR [2];(II)UAMT [18];(III)我们提出的方法。这些方法都采用了相同的三种指标——即(a)、(b)和 (c),并通过其数值大小来进行筛选处理以剔除模型输出中的不可靠估计部分,在图中使用不同颜色轮廓来区分真实值与各模型输出结果:红色代表真实值;绿色对应于第一种方法的结果;黄色对应于第二种;蓝色对应于第三种方法的结果。

图片

_Fig. 12: The variations of mean and variance (represented by mu and sigma in the figure) between two distribution prototypes (a-b) and pixels of two classes (c-d) within the LA dataset are presented. The calculated mean and variance values are averaged over both the feature dimension and the population size.]

图12:在LA数据集中展示了两种分布形态(a-b)以及两种像素类别的均值与方差变化情况(用mu与sigma表示)。这些均值与方差是基于特征维度以及全部样本数量计算得出的结果。

图片

Fig. 13: Model robustness to noisy data.

图13:模型对噪声数据的鲁棒性。

Table

图片

TABLE I: Comparison with SOTA SSL methods on LAdataset.

表1:与最新半监督学习(SSL)方法在LA数据集上的比较。

图片

TABLE II: Comparison with SOTA SSL methods on ACDCdataset.

表2:与最新半监督学习(SSL)方法在ACDC数据集上的比较。

图片

TABLE III: Comparison with SOTA SSL methods onPROMISE12 dataset.

表3:与最新半监督学习(SSL)方法在PROMISE12数据集上的比较。

图片

TABLE IV: Comparison of outcomes among various methods under the implementation of two distinct prototype update mechanisms.

表4:采用两种不同原型更新策略的方法比较结果。

全部评论 (0)

还没有任何评论哟~