【翻译】A comprehensive survey on deep active learning in medical image analysis
摘要
在医学影像领域中应用最为成功的便是深度学习算法,在此背景下对大规模医疗专家标注的数据集需求持续呈现增长趋势。然而高昂的人力资源消耗使得其推广面临瓶颈。为此本研究聚焦于降低注释成本的关键技术——主动学习方法:通过优先标注信息量最大且具有代表性的样本实例,并利用少量高质量标签数据构建高精度分类器:我们系统回顾并总结了当前主动学习领域的核心方法:包括基于信息量评估的指标及多样化的采样策略:特别首次系统性地探讨了将主动学习与半监督、自监督等高效标签技术相结合的整体框架:并深入分析了专为医学影像定制的先进主动学习方案:通过系列实验全面评估不同主动学习方法在该领域的适用性与性能表现:最后我们对未来研究方向及技术发展趋势进行了展望与探讨:相关的研究论文列表及实验代码已发布至GitHub项目官方仓库:
Keywords
Active learning; Medical image analysis; Survey; Deep learning
1. 引言
医学成像可视化解剖结构和病理过程。它还提供病变检测、诊断、治疗计划和手术干预方面的关键信息。近年来,人工智能(AI)的兴起导致了医学图像分析的重大成功。人工智能驱动的医学图像分析系统已经接近人类专家在某些临床任务中的表现。值得注意的例子包括皮肤癌分类(Esteva et al., 2017),用CT进行肺癌筛查(Ardila et al., 2019,结肠镜检查时息肉检测 (Wang et al., 2018),以及全幻灯片图像中的前列腺癌检测(Tolkach et al., 2020)。因此,这些人工智能驱动的系统可以集成到现有的临床工作流程中,这有助于提高临床专家的诊断准确性(Sim et al., 2020) 并支持经验不足的临床医生(Tschandl et al., 2020).
深度学习(DL)模型是这些人工智能驱动的系统的核心,用于从原始图像中学习复杂模式并将其推广到更不可见的情况。利用其强大的特征提取和泛化能力,DL模型在医学图像分析领域也取得了显著成功(Zhou et al., 2021a)。DL的成功通常依赖于大规模的人工注释数据集。例如,ImageNet数据集 (Deng et al., 2009) 包含数以千万计的标记图像,被广泛用于开发用于计算机视觉(CV)的DL模型。医学图像数据集的规模不断扩大,但仍相对小于自然图像数据集。例如,脑肿瘤分割数据集BraTS由多序列3D MRI扫描组成。BraTS数据集从2013年的65名患者扩展 (Menze et al., 2014) 到2021年超过1200 (Baid et al., 2021)。后者相当于70多万张带注释的2D图像。 然而,高昂的标注成本限制了大规模医学图像数据集的建设,主要体现在以下两个方面:
医学图像的细粒度标注是一项耗时费力且具有挑战性的任务,在临床环境中应用自动分割技术能够显著提高医生对解剖结构和病变区域的识别效率。然而,在生成分割模型时必须依赖精确到像素级别的标注信息(Rajpurkar,2022年)。另一方面,在数字病理学领域中面临的一个典型案例是组织结构的高度复杂性导致了检查过程的巨大难度——由于组织结构复杂性的问题,在高倍显微镜下完成详细检查并提供清晰解释通常需要较长时间(Qu,2022年)。因此,在单个载玻片上完成检查通常需要耗费约15至30分钟的时间。这一过程对于病理学家来说不仅耗时而且具有较高的难度——准确而详尽地制作注释要求极高的专业技能与专注力综上所述
高昂的技术门槛使成本难以显著下降
高昂的人工标注成本是目前深度学习在医学影像分析领域面临的主要挑战之一。主动学习(AL)被视为降低人工标注成本最有效的策略之一。其核心理念在于通过选择信息量最大的样本进行标注,并利用监督学习的方式训练模型。在AL的实际应用中,在注标一小部分数据集时即可达到对整个数据集进行注标的可比性能水平。因此,在实际操作中,AL通过尽可能减少需要标记的信息样本数量来降低标记成本。具体而言,在深度模型训练的过程中运用主动学习的方法被称为深度主动学习(DAN)。
主动学习在医学图像分析中发挥着关键作用。Budd等人(2021)对人工智能在该领域中的应用进行了系统性的探讨,并将主动学习识别为其中的核心要素之一。Tajbakhsh等人(2020)则提出了一种基于主动学习的方法来训练具有不完全标注的数据集以提升医学图像分割模型的效果。作为一种高效的学习方法,在当前医疗影像分析领域具有重要地位的金等人(2023a)从模型与数据不确定性方面总结了人工智能的应用潜力与挑战。此外,在机器学习领域也有关于主动学习方法的研究成果综述及深入分析[解决(2009)]提供了详尽的概述与评论综述了深度主动学习的发展及其在医疗文档与自然语言处理领域的应用[Ren等人(2021)]则重点回顾了基于模型驱动与数据驱动策略的采样器设计并讨论了其性能对比结果Liu等人(2022)系统性地总结了深度主动学习中不同类型的采样器及其适用场景而詹等人(2022)则重新实施了一种具有参考价值的经典算法以实现公平比较Takezoe等人(2023)则对深度主动学习技术在计算机视觉领域的最新进展进行了全面回顾
然而,在深度主动学习迅速发展的背景下,这一研究具有一定的局限性。首先,在线学习(AL)领域不断涌现新的思想与方法。因此有必要对AL进行更为全面的调查以涵盖最新的进展动态。其次,在当前的研究趋势中强调了将AL与其他高效技术相结合的重要性,并对此类结合方向提出了展望(Takezoe等人, 2023年, Bard等人, 2021年)。然而现有的研究在这一领域仍显浅薄缺乏系统总结与深入探讨。第三部分指出现有的研究对于评估不同AL方法在医学影像数据集上的性能表现尚显不足。最后部分强调了高昂注释成本所反映出的主动学习在医学图像分析领域的应用前景愈发广阔但相关研究在这方面仍存在明显不足

Fig. 2. Overall framework of this survey.
本次调查旨在系统性回顾医学图像分析领域的Active Learning(AL)方法及其应用现状。研究重点包括核心AL方法的技术整合、与先进数据标注技术的有效结合以及专为医学图像分析设计的独特AL方案。研究团队首先通过检索关键字"Active Learning"并在谷歌学术及arxiv平台收集相关文献,并通过引用文献进一步拓展搜索范围以确保覆盖全面性。所收集的主要研究集中在医学图像分析领域内。值得注意的是, 由于医学图像领域中的AL发展受到计算机视觉(CV)领域AL进步的影响, 因此本研究也纳入了CV领域的相关重要工作, 以避免影响整体研究框架的一致性和完整性.为了平衡不同领域的代表性, 我们首先聚焦于每个主题小节中的开创性研究成果, 其中可能包含CV领域的基础性工作.随后, 我们对与医学图像分析直接相关的_AL论文进行了深入综述.此外, 本研究涵盖的研究成果大多发表于顶级期刊(如TPAMI、MedIA、TMI、TBME、JBHI等)以及顶级会议(如MICCAI、ISBI、MIDL、CVPR、ICCV、TMLR等)。因此, 本研究共整理了164部相关_AL研究成果及其234篇参考文献.本研究的主要贡献包括:系统梳理了当前_AL领域的前沿进展;明确了不同领域间_AL方法的发展关联;构建了一个较为完整的_AL知识图谱框架;并为后续的研究者提供了丰富的学习资源.
基于详尽而系统的文献调研,我们为AL项目提供了深入的研究与独特的分类体系特别地,在医学图像分析领域中。
尽管过去的调查主要集中于评估信息量,然而我们进一步总结了深度主动学习中的不同取样策略,包括多样性与阶层平衡策略等,目的是为了对未来的方法改进提供借鉴
根据当前趋势研究
旨在推动研究同时为社区提供贡献的研究对比分析了几种主流的AL算法在不同医学影像数据集中的应用效果。代码已开源以便实现结果的可验证性。
本文在2介绍了AL的问题设置和数学公式,部分3讨论AL的核心方法,包括信息性评估(第3.1 & 3.2)和抽样策略(第3.3),节4回顾AL与其他标签高效技术的集成,第5总结了为医学图像分析量身定制的AL工作。实验设置、结果和分析在第6.我们讨论AL的现有挑战和未来方向7并在第节中结束整篇论文8.这项调查的整体架构载于图2.由于AL的快速发展,许多相关作品不在本次调查范围内。我们建议读者访问我们不断更新的网站3了解AL在医学图像分析中的最新进展。
2. 主动学习的问题和公式
AL常涉及三种核心问题框架:基于输入空间的成员查询合成、基于流的选择性抽样以及基于样本池的主动学习(2009年结算)。在基于输入空间的成员查询合成情形下,我们可以连续地对输入空间中的任何样本进行标注操作,并包括由生成模型所产生的合成样本(英语, 1988年, 盎格鲁因, 2004年)。在此研究中,我们将此情形称为生成式主动学习机制。成员查询合成通常适用于低维输入空间场景;然而,在扩展至高维空间(如图像数据)时, 由生成模型产生的查询样本可能难以被人类标注员识别并给予标注。深度生成模型在合成逼真的医学图像方面展现出显著的进步潜力, 这一点我们在第4.4节中进行了深入探讨【4.4
大多数AL作品采用基于池的主动学习策略,在海量未标注数据中筛选样本并请专家如医生进行标注。此外,在选择多个样本进行标注时可将其定义为"批量处理模式"。深度主动学习默认启用该模式因为频繁重新训练模型并非实际可行的选择。通常情况下一个标注样本未必能带来显著性能提升因此本研究中的所有作品均采用基于批量处理模式池的主动学习设置
如图所示,在(active learning)流程中包含了几个关键步骤。假设总共有T轮次,在主动学习过程中将执行这些步骤。

Fig. 1. Illustration of the process of active learning.
(1)样品选择: 在第一轮注释中进行信息评估(其中1≤t≤T),通过预设抽样策略选取一批样本S。在医学图像分析领域中,默认采用单幅图像作为采样单元(二维或三维)。然而,在本研究中,默认情况下默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下),除非另有说明;通常情况默认情况默认情况默认情况默认情况默认情况默认情况)。随着主动学习技术的发展趋势趋势趋势趋势趋势趋势趋势趋势趋势趋势趋势趋势趋势的趋势,在后续章节(如第4节和第5节)将详细介绍这一过程。
具体来说,查询的数据集t第几轮D_t^q构造如下:
在数据集中,在每个样本x处进行分析。其中D_tu和D_tq分别代表未标记数据集和查询数据集。这里f_{\theta_{t-1}}和θ_{t-1}分别表示上一个周期的深度学习模型及其参数设置。注释预算b定义为每轮查询中选取的样本数量,并且这个数量远小于未标记样本的整体规模。具体来说,在数学表达式中即为:b=\left|D_tq\right|\ll\left|D_tu\right|。
(2)0racle注释: 样本选择后,查询集D_tq被发送到预言机(例如医生)进行注释,并将新标记的样本添加到标记的数据集中D_tl.的更新D_t^l如下: D_tl=D_{t-1}l\cup\left{\left(x,y\right)\mid x\in D_t^q\right} 哪里y代表的标签x,和D_tl和D_{t-1}l表示圆形的标记集t和上一轮,分别。此外,查询的样本应从未标记集中删除D_t^u: D_tu=D_{t-1}u\setminus\left{x\mid x\in D_t^q\right} 值得注意的是,目前的一些作品将主动学习与交互式分割相结合。在交互式分割中,模型协助专家进行注释,从而降低注释过程的难度。有关更多详细信息请参阅第 5.2.4 .
(3) DL模型培训:在oracle注释完成的基础上,我们采用这一轮的标记集进行深度模型D_{t}{l}的全监督式训练.经过对D_{t}{l}的学习与优化后,在此过程中所获得的最佳参数θ_t将被赋值给圆t.数学公式如下: θ_t=argminθ∈Θ E[(x,y)∈D_t^l] L(f_θ(x), y)=argminθ∈Θ E[(x,y);θ] 其中,L(f_{θ}(x), y)表示损失函数,它可以重写为L(x, y; θ).为了简单起见.
(4)依次执行步骤一至三,并持续此过程直至满足注释预算限制或预期性能的要求。 最近一些作品在主动学习中采用了单一阶段策略, 无需分多轮进行样本筛选. 请参阅第5.2.2.
需要注意的是,模型必须经过适当初始化才能启动AL流程。当初始模型𝑓𝜃0采用随机初始化时,它无法生成有意义的信息。为了解决这一问题,大多数AL研究会随机选择一组样本作为初始标记数据集𝐷0𝑙,并在此基础上训练𝑓𝜃0。有关如何更有效地通过预训练模型来初始化AL过程的更多信息,请参阅第4.2节。
3. 主动学习的核心方法
在本次调查中
在本节中概述了两个关键的信息量指标:包含三个核心概念——不确定性(第3.1节)、代表性(第3.2节)以及抽样策略(第3.3节)。作为本研究的一个显著贡献,在人工智能领域首次将抽样策略明确界定为其核心方法,并回顾了优化该方法的技术。同时汇总了本次研究中所涉及的人工智能相关工作。关于不确定性和代表性的度量指标及其相关内容,请参阅表2。
3.1. 信息量评估:不确定性
尽管医学图像分析已取得显著进展(如格苏等人, 2021年和林曼等人, 2023年),但安全性与可解释性仍是阻碍深度学习模型在临床广泛应用的关键障碍。受医学图像高度变化性和有限训练数据量的限制,在实际应用中难以实现可靠的预测结果。通过量化医学图像分析中的不确定性风险评估将有助于识别数据中的模糊区域、伪影以及隐藏模式(如格苏等人, 2021年和林曼等人, 2023年)。在主动学习框架下,不确定性具有显著助益功能:通过分析无标签样本中的潜在新模式不确定性能够起到识别作用。因此,在主动学习中将不确定性视为信息量指标是合理的选择。主动学习策略中选取具有较高不确定性的样本作为重点关注对象(如具有高不确定性的样本往往难以被现有模型准确分类),这些样本经过标注与训练过程将有助于模型捕获新规律并提升性能水平
表1展示了主动学习中基于预测概率评估不确定性的量化方法框架。在公式部分中,x代表样本数据,f为深度学习模型,C为类别总数。在指标布局方面,箭头符号↑则表明预测概率越高对应的不确定度越大,相反,箭头符号↓则表明预测概率越低对应的不确定度越大。
| Names | Equations | Direction |
|---|---|---|
| Prediction probability | – | |
| Least confidence (Lewis and Catlett, 1994) | \max_ip_i | ↓ |
| Entropy (Joshi et al., 2009) | {{{-\sum_{i=1}^{C}p_{i}\log p_{i}}}} | ↑ |
| Margin (Roth and Small, 2006) | \max_ip_i-\max_{j,j\neq k}p_j,k=\arg\max_ip_i | ↓ |
| Mean variance (Gal et al., 2017) | -\frac1C\sum_{i=1}Cp_i-p2,p=-\frac1C\sum_{i=1}^Cp_i | ↑ |
探究影响预测不确定性的因素
在深度AL框架中,直接衡量不确定性的度量主要基于单次前向传递过程中的预测概率。自机器学习时代以来,在AL领域内这些度量得到了广泛应用。它们的公式在表
¹
.然而,在深度神经网络领域存在众所周知的过度自信问题(多灰等, ²⁰²⁰;以及郭等人, ²⁰¹⁷)。其结果是模型在其预测上表现出极高的置信度即使这些预测可能是错误的。对于那些被错误分类的样本而言,
它会导致错误类别的高置信度(例如
①
)
或者极端但不正常的置信度(例如
②
或
③
),而不是正常的置信水平(例如
④
或
⑤
)。因此,
这种过度自信会扭曲不确定性估计,
因为它会影响所有类别成员的预测概率。
本节将对具有不确定性的AD划分为多重推理类型、基于梯度的不确定性评估方法、性能估计模块以及基于对抗训练的不确定性感知模型。具有不确定性的AD的分类策略主要体现在[图3]中。
3.1.1 多重推论的不确定性
为了缓解过度自信心,在应用不确定性的AI(AL)系统时常用一种策略就是在不同的干扰条件下运行模型多次以获取多轮推理结果并进行分析研究
在本节中, 我们将阐述多推理代理学习方法的四种主要类型: Monte Carlo dropout (MC dropout)、集成模型、一致性差异以及数据一致性。在这其中, 前两个采用多个推理结果的概率平均值来评估不确定性指标, 而后两个则基于一致性差异进行分析。具体而言,在影响因素方面, 前三个关注的是模型参数的变化, 最后一个是输入数据的变化情况。
Table 2. Methodology summarization of surveyed active learning works.
| Year | Venues | Uncertainty | Representativeness | |||
|---|---|---|---|---|---|---|
| Method | Basic metrics | Method | Basic metrics | |||
| Zhu and Bento (2017) | 2017 | arXiv | Single model | Distance to decision boundary | – | – |
| Zhou et al. (2017) | 2017 | CVPR | Single model multiple inferences - Data disagreement | Entropy KL divergence | – | – |
| Gal et al. (2017) | 2017 | ICML | Multiple inferences - MC dropout | Entropy, BALD, Least Confidence, Variance | – | – |
| Yang et al. (2017) | 2017 | MICCAI | Multiple inferences - Model disagreement | Variance | Cover-based | Cosine similarity |
| Wang et al. (2017) | 2017 | TCSVT | Single model | Least confidence, margin, entropy | – | – |
| Ducoffe and Precioso (2018) | 2018 | arXiv | Adversarial samples | Distance to decision boundary | – | – |
| Mackowiak et al. (2018) | 2018 | BMVC | Multiple inferences - Model disagreement | Vote entropy | – | – |
| Xu et al. (2018) | 2018 | CVPR | Multiple inferences - Model ensemble | Variance | Cover-based | Cosine similarity |
| Beluch et al. (2018) | 2018 | CVPR | Multiple inferences - Model ensemble | Entropy, BALD, least confidence, variance | – | – |
| Sourati et al. (2018) | 2018 | DLMIA | Gradient-based uncertainty | Fisher information | – | – |
| Sener and Savarese (2018) | 2018 | ICLR | – | – | Cover-based | L2 distance |
| Kuo et al. (2018) | 2018 | MICCAI | Multiple inferences - Model disagreement | JS divergence | – | – |
| Mahapatra et al. (2018) | 2018 | MICCAI | Multiple inferences - MC dropout | Variance | – | – |
| Haußmann et al. (2019) | 2019 | IJCAI | – | – | – | – |
| Zheng et al. (2019) | 2019 | AAAI | – | – | Cover-based | Cosine similarity |
| Gissin and Shalev-Shwartz (2019) | 2019 | arXiv | – | – | Discrepancy-based | H-Divergence |
| Yoo and Kweon (2019) | 2019 | CVPR | Performance estimation - Learnable | Loss | – | – |
| Sinha et al. (2019) | 2019 | ICCV | – | – | Discrepancy-based | H-Divergence |
| Tran et al. (2019) | 2019 | ICML | Multiple inferences - MC dropout | BALD | – | – |
| Qi et al. (2019) | 2019 | JBHI | Single model | entropy | – | – |
| Sadafi et al. (2019) | 2019 | MICCAI | Multiple inferences - MC dropout | Average IoU, class frequency | – | – |
| Kirsch et al. (2019) | 2019 | NeurIPS | Multiple inferences - MC dropout | BALD | – | – |
| Sourati et al. (2019) | 2019 | TMI | Gradient-based uncertainty | Fisher information | – | – |
| Kasarla et al. (2019) | 2019 | WACV | Single model | Entropy | – | – |
| Zheng et al. (2020) | 2020 | AAAI | – | – | Cover-based | Cosine similarity |
| Shui et al. (2020) | 2020 | AISTATS | Single model | Entropy, least confidence | Discrepancy-based | Wasserstein distance |
| Siddiqui et al. (2020) | 2020 | CVPR | Multiple inferences - MC dropout multiple inferences - Data disagreement | Entropy KL divergence | – | – |
| Zhang et al. (2020) | 2020 | CVPR | Single model | Variance | Discrepancy-based | H-Divergence |
| Gao et al. (2020) | 2020 | ECCV | Multiple inferences - Data disagreement | Variance | – | – |
| Wang et al. (2020c) | 2020 | ECCV | – | – | Discrepancy-based | H-Divergence |
| Agarwal et al. (2020) | 2020 | ECCV | – | – | Cover-based | Contextual diversity |
| Lin et al. (2020) | 2020 | ECCV | – | – | Clustering-based | L2 distance |
| Ash et al. (2020) | 2020 | ICLR | Gradient-based uncertainty | Gradient | – | – |
| Casanova et al. (2020) | 2020 | ICLR | – | – | – | – |
| Dai et al. (2020) | 2020 | MICCAI | Gradient-based uncertainty | Gradient | – | – |
| Shen et al. (2020) | 2020 | MICCAI | Multiple inferences - MC dropout performance estimation - Surrogate | Entropy IoU of all result | Cover-based | Cosine similarity |
| Liu et al. (2020) | 2020 | MICCAI | Performance estimation - Learnable | Loss | – | – |
| Li and Yin (2020) | 2020 | MICCAI | Multiple inferences - Model ensemble | Margin | Discrepancy-based | Cosine similarity |
| Wang et al. (2020b) | 2020 | MICCAI | – | – | – | – |
| Hiasa et al. (2020) | 2020 | TMI | Multiple inferences - MC dropout | Variance | Cover-based | Cosine similarity |
| Huang et al. (2020) | 2020 | TMI | Multiple inferences - Model disagreement | Hausdorff distance | – | – |
| Su et al. (2020) | 2020 | WACV | Single model | Entropy | Discrepancy-based | H-Divergence |
| Choi et al. (2021b) | 2021 | CVPR | Probability of misclassification | – | – | Class-balance |
| Fu et al. (2021) | 2021 | CVPR | Adversarial training | Disagreement of classifiers, margin | Discrepancy-based | H-Divergence |
| Kim et al. (2021) | 2021 | CVPR | Performance estimation - Learnable | Rank of loss | Discrepancy-based | H-Divergence |
| Yuan et al. (2021) | 2021 | CVPR | Adversarial training | Disagreement of classifiers | – | – |
| Cai et al. (2021) | 2021 | CVPR | Single model | BvSB | – | – |
| Caramalau et al. (2021) | 2021 | CVPR | Single model (w/ GNN) | Margin | Cover-based | L2 distance of GCN-augmented Features |
| Prabhu et al. (2021) | 2021 | ICCV | Single model | Entropy | – | – |
| Ning et al. (2021) | 2021 | ICCV | – | – | Discrepancy-based | L2 distance |
| Huang et al. (2021) | 2021 | ICCV | Performance estimation - Surrogate | Temporal output discrepancy | – | – |
| Du et al. (2021) | 2021 | ICCV | – | – | Discrepancy-based | Semantic and distinctive scores |
| Shin et al. (2021) | 2021 | ICCV | Multiple inferences - Model disagreement | Inequality | – | – |
| Rangwani et al. (2021) | 2021 | ICCV | Adversarial samples | KL divergence | Cover-based - Submodular | KL divergence Bhattacharya coefficient |
| Choi et al. (2021a) | 2021 | ICCV | Uncertainty-aware models - MDN | Variance | – | – |
| Liu et al. (2021) | 2021 | ICCV | Gradient-based uncertainty | Influence | – | – |
| Zhao et al. (2021) | 2021 | JBHI | Performance estimation - Surrogate | Dice | – | – |
| Zhou et al. (2021c) | 2021 | MedIA | Single model multiple inferences - Data disagreement | Entropy KL divergence | – | – |
| Wu et al. (2021) | 2021 | MedIA | Performance estimation - Learnable multiple inferences - Data disagreement | Loss KL divergence | – | – |
| Zhou et al. (2021b) | 2021 | MICCAI | Performance estimation - Learnable | Dice | – | – |
| Xu et al. (2021) | 2021 | MICCAI | Single model | Distance to mean probability | – | – |
| Wang and Yin (2021) | 2021 | MICCAI | Multiple inferences - Model ensemble | Variance | Discrepancy-based | Cosine similarity |
| Nguyen et al. (2021) | 2021 | MIDL | Single model | Entropy | Cover-based | L2 distance |
| Ash et al. (2021) | 2021 | NeurIPS | Gradient-based uncertainty | Fisher information | – | – |
| Kothawade et al. (2021) | 2021 | NeurIPS | – | – | Cover-based - Submodular | Gradient |
| Citovsky et al. (2021) | 2021 | NeurIPS | Single model | Margin | – | – |
| Nath et al. (2021) | 2021 | TMI | Multiple inferences - Model ensemble | Entropy | Discrepancy-based | Mutual information |
| Mahapatra et al. (2021) | 2021 | TMI | – | – | Saliency maps | Kurtosis multivariate radiomics features deep saliency features |
| Chen et al. (2021) | 2021 | TPAMI | Single model (in Feature Space) | Entropy | – | – |
| Kothawade et al. (2022b) | 2022 | AAAI | – | – | Cover-based - Submodular | Gradient |
| Xie et al. (2022b) | 2022 | AAAI | Single model | Margin | Density-based | Energy |
| Wang et al. (2022b) | 2022 | AAAI | Gradient-based uncertainty | Gradient | – | – |
| Xie et al. (2022c) | 2022 | CVPR | Single model | Margin, Gradient | – | – |
| Zhang et al. (2022a) | 2022 | CVPR | Single model adversarial samples | Entropy KL divergence | Density-based | Mean cosine similarity of KNN |
| Zhang et al. (2022b) | 2022 | CVPR | Single model | Entropy | – | – |
| Parvaneh et al. (2022) | 2022 | CVPR | Multiple inferences - Data disagreement | Inequality | – | – |
| Xie et al. (2022a) | 2022 | CVPR | Single model | Entropy | – | – |
| Quan et al. (2022) | 2022 | CVPR | – | – | Cover-based | Cosine similarity |
| Wu et al. (2022a) | 2022 | CVPR | Single model | Entropy | Discrepancy-based | Cosine similarity |
| Wang et al. (2022c) | 2022 | ECCV | – | – | Density-based | KNN density |
| Kothawade et al. (2022a) | 2022 | ECCV | – | – | Cover-based - Submodular | Cosine similarity |
| Chen et al. (2022b) | 2022 | ECCV | Gradient-based uncertainty | Gradient | – | – |
| Hwang et al. (2022) | 2022 | ECCV | Single model | Margin | Discrepancy-based | MMD |
| Yi et al. (2022) | 2022 | ECCV | Single model | Least confidence | Self-supervised learning | Loss of pretext task |
| Wu et al. (2022b) | 2022 | ECCV | Single model | Entropy | Density-based | GMM |
| Mahmood et al. (2022) | 2022 | ICLR | – | – | Discrepancy-based | Wasserstein distance |
| Hacohen et al. (2022) | 2022 | ICML | – | – | Density-based | Inverse average distance to KNN samples |
| Jin et al. (2022a) | 2022 | Information sciences | – | – | Clustering-based | Cosine similarity |
| Jin et al. (2022c) | 2022 | KBS | – | – | Clustering-based | L2 distance |
| Jin et al. (2022b) | 2022 | KBS | – | – | Clustering-based | L2 distance |
| Dai et al. (2022) | 2022 | MedIA | Gradient-based uncertainty | Gradient | – | – |
| Zhou et al. (2022) | 2022 | MedIA | Performance estimation - learnable | Dice | – | – |
| Atzeni et al. (2022) | 2022 | MedIA | Performance estimation - Surrogate | Dice | – | – |
| Nath et al. (2022) | 2022 | MICCAI | Multiple inferences - MC dropout | Entropy | – | – |
| Balaram et al. (2022) | 2022 | MICCAI | Uncertainty-aware model - EDL | Entropy | – | – |
| Wu et al. (2022d) | 2022 | MICCAI | – | – | Cover-based | Cosine similarity |
| Bai et al. (2022) | 2022 | MICCAI | Multiple inferences - Model disagreement | Entropy-weighted dice distance | – | – |
| Kothawade et al. (2022c) | 2022 | MICCAIW | – | – | Cover-based - Submodular | Gradient |
| Yehuda et al. (2022) | 2022 | NeurIPS | – | – | Cover-based | L2 distance |
| Mahapatra et al. (2022) | 2022 | TMI | – | – | Saliency maps | Graph-based methods |
| Li et al. (2022) | 2022 | TMI | Curriculum learning & Noisy sample detection | – | – | Top-k |
| Bengar et al. (2022) | 2022 | WACV | Single model | Entropy | – | – |
| Xie et al. (2023c) | 2023 | CVPR | – | – | Discrepancy-based | Wasserstein distance |
| Lyu et al. (2023) | 2023 | CVPR | Multiple inferences - Data disagreement | Cross entropy, variance | – | – |
| Jung et al. (2023) | 2023 | ICLR | Multiple inferences - Model ensemble | Entropy, variance ratio, BALD, margin | – | – |
| Xie et al. (2023a) | 2023 | ICLR | Uncertainty-aware model - EDL | Mutual information & Entropy expectation of dirichlet distribution | – | – |
| Year | Venues | Uncertainty | Representativeness | Sampling strategy | SemiSL | |
| Method | Basic metrics | Method | Basic metrics | |||
| Kim et al. (2023) | 2023 | ICCV | Single model | BvSB | – | – |
| Park et al. (2023) | 2023 | ICLR | Uncertainty-aware model - EDL | Mutual information | – | – |
| Sadafi et al. (2023) | 2023 | ISBI | Multiple inferences - MC dropout multiple inferences - Model disagreement | Variance inequality | – | – |
| Bai et al. (2023) | 2023 | MICCAI | Multiple inferences - Model disagreement gradient-based uncertainty | KL divergence, gradient | Cover-based | L2 distance |
| Tang et al. (2023) | 2023 | MICCAI | Multiple inferences - Model disagreement | KL divergence | – | – |
| Qiu et al. (2023) | 2023 | MICCAI | Single model | Distance to 0.5 | – | – |
| Chen et al. (2023b) | 2023 | MIDL | – | – | Loss of self-supervised pretext tasks | Top-k |
| Qu et al. (2023a) | 2023 | NeurIPS | Multiple inferences - Model disagreement | Variance, entropy, overlap | – | – |
| Lou et al. (2023) | 2023 | TMI | – | – | Clustering-based | Consistency |
| Du et al. (2022) | 2023 | TPAMI | – | – | Discrepancy-based | Semantic and distinctive scores |
| Wan et al. (2023) | 2023 | TPAMI | Adversarial Training | Disagreement of Classifiers | – | – |
Table 3 lists annotated datasets pertaining to active learning techniques in computer-aided diagnosis for medical image analysis. “–” represents that such information is unavailable due to lack of provision or absence in specific cases.
见原文
MC辍学 在每次推理期间随机丢弃深度模型中的某些神经元(Gal和Ghahramani,2016)。启用MC dropout后,模型会多次以获得不同的预测。Gal等人(2017)是深度人工智能的开创性工作。他们是第一个使用MC dropout计算不确定性指标的人,如熵、均方差和贝叶斯主动学习分歧(BALD)(Houlsby等人,2011)。结果表明,MC Dropout可以显着提高基于不确定性的深度AL的性能。此外,他们也是最早将深度AL应用于医学图像分析的人之一。在皮肤病变分析数据集ISIC 2016中,他们发现BALD始终优于随机基线。在脑细胞类型分类中,袁等(2020b)使用多个MC dropout的平均概率计算熵。顾等人(2018)在共聚焦显微内镜和胃肠镜的分类中,采用多次MC脱落的方差作为不确定性度量。
模型集成 通过训练多个模型来提升推理阶段的预测数量。Beluch等人(2018)对基于不确定性的AL框架下模型集成与MC dropout进行了系统性比较,并采用标准数据集进行了实验验证。实验结果表明,在性能方面模型集成表现出色。对于AL诊断糖尿病视网膜病变任务,在随机基线基础上取得了显著改进效果。然而,在深度学习领域中实施这种策略会带来较高的计算成本负担。为了降低计算开销,在循环学习率衰减策略下实现了快照集成的效果。早期研究发现快照积分在性能上略逊于传统模型集成方法。针对此问题,在后续的研究中Jung等人(2023)(https://www.sciencedirect.com/science/article/pii/S1361841524001269#b101 "Jung等人(2023)")提出了一种改进方案:即在不同AL轮次中保持一致的优化轨迹并引入参数正则化手段以提升快照积分的效果表现
模型分歧: 我们可以利用不同模型输出之间的不一致,也可以称为按委员会查询(QBC)(Seung等人,1992年)。这类方法在AL中被广泛用于医学图像分析。建议性标注(SA)是AL用于医学图像分析的开创性工作(杨等,2017)。他们在无融资创业的情况下训练了多个分割网络。这些模型之间的方差被用作分歧度量标准。SA在病理图像上分割腺体和超声图像上分割淋巴结方面表现出卓越的性能。在腹部多器官分割中,Qu等人(2023a)训练了三种不同的分割模型,并采用了它们预测之间的方差。在超声图像的颈动脉内膜中层分割中,唐等人(2023)选择教师和学生模型预测之间具有最高Kullback-Leibler(KL)分歧的样本进行注释。在胶囊结肠镜的息肉分割中,白等人(2022)使用类激活映射(CAM)训练多个解码器(周等,2016)由一个分类网络生成。他们进一步提出了样本选择的模型不一致和CAM不一致。模型不一致包括预测概率的熵和不同解码器输出之间的Dice,而CAM不一致测量了CAM和所有解码器输出之间的Dice。该方法选择模型不一致和CAM不一致高的样本进行标注。然而,模型不一致低但CAM不一致高的样本被视为半监督训练的伪标签。在肋骨骨折检测中,黄等人(2020)采用Hausdorff距离测量不同凸轮之间的不一致性。此外,Mackowiak等人(2018)采用不同MC dropout推理之间的投票熵作为分歧度量。
数据分歧: 然而,在实际应用中, 训练多个模型可能会导致计算资源的消耗显著增加. 因此, 评估输入数据不同扰动之间的差异成为评估主动学习(AL)效果的重要指标. KL散度常被用作衡量数据分歧的重要指标. 在COVID诊断领域, Wu等人(2021)提出了一种方法, 通过计算不同版本增强样本之间的KL散度作为差异度量, 以此选择信息丰富度较高的CT扫描进行注释. Siddiqui等人(2020)则在三维场景中提出了基于不同视点预测之间KL差异的方法, 用于选择主动学习的信息区域. 最近研究则倾向于采用其他替代指标来评估数据分歧. Lyu等人(2023)在此基础上提出了输入端委员会的概念, 该委员会通过随机增加输入样本的方式生成多轮预测结果. 进一步利用交叉熵与方差等方法量化各预测间的分类与定位差异程度. Parvaneh等人(2022)则探讨了插值需求空间中的未标记样本与标记原型之间的关系. 如果插值样本的预测结果与其相应原型标签存在不一致现象, 则应将该未标记样本提交进行注释. 实验结果表明, 在多种数据集与不同设置下均取得了显著提升
3.1.2. 基于梯度的不确定性
基于梯度优化构成了深度学习在医学图像分析中的基础框架。每个样本所具有的梯度值衡量了该样本对模型参数变化的影响程度。较大的梯度长度表明该样本对参数的变化具有显著影响能力,在一定程度上反映出其预测结果的高度不确定性。此外这些指标与预测概率无关从而减少了模型过度自信的可能性。通常用于衡量基于梯度的不确定性:包括梯度Fisher信息量以及影响函数等指标值得注意的是在本节内容中并未采用依赖真实标签的真实情况下的标准差计算方法相反研究者采用了替代方案具体而言这些方法主要分为两类一类是通过引入伪标签结合监督损失函数来进行计算另一类则是采用无监督学习策略利用熵损失或其他无标签数据相关的指标来替代传统的有标签计算方式
随着较大的梯度范数(亦即参数敏感度的大小)提升,在主动学习场景下预示着AL结果的不确定性较高。作为一种初步探索,在医学图像分析领域中作为一种初步探索,在主动学习方法的发展历程中作为一种初步探索
该经验损失函数\mathscr{L}_{exp}(x)等于对所有类别i从1到C求和的结果。
哪里y_i是阶级的标签i .熵损失完全基于所有类别的概率,如下所示:
\mathscr{L}{ent}\left(x\right)=-\sum{i=1}^{C}p_{i}\log p_{i}
该低温电子断层扫描亚断层图分类方法表现出更优性能,在 cryo-ET 应用中显著优于其他比较方法。进一步而言,[戴等人(2020)]提出了基于梯度的主动学习方法应用于MRI脑肿瘤分割领域,并取得显著成果。他们首先利用变分自动编码器(VAE) (金马和韦林, 2013)对数据流形进行学习,随后通过计算可用标记数据下的骰子损失梯度进行模型训练,并基于数据流形梯度指导进行样本选择。其扩展研究(Da团队, 2022年)进一步验证了该方法在MRI全脑分割中的卓越性能。
费舍尔信息 在机器学习模型的AL中具有重要价值(Chaudhuri等人, 2015, Sourati等人, 2017)。Fisher信息(FI)能够根据数据分布度量模型参数的整体不确定性,并且其定义为平方梯度相对于模型参数的概率密度函数求期望值。具体来说,Fisher信息量通常用于评估数据集中所包含关于未知参数的信息量大小
该表达式被定义为x关于θ的Fisher信息量,并且它等于对y的概率密度函数下的拉普拉斯算子∇²L(x,y;θ)的一个期望值
哪里𝐼是Fisher信息的符号。FI逆的轨迹通常用作AL的目标:
该公式在满足条件D^q \subset D^u的情况下实现了最小化问题中的迹值计算。
具体而言,在被优化条件下,
我们通过求取\mathop{\mathrm{Tr}}函数在特定范围内的最小值,
实现了对两个区域中数据分布差异度的量化评估。
基于求解方程的方法
影响功能: Liu等人(2021)使用的影响函数(Koh和梁,2017)选择对模型性能带来最积极影响的样本。未标记样本的影响函数定义如下韦斯伯格和库克(1982):
该指标\mathscr{I}_{Influential}定义为输入样本x及其标签D^l之间的关系强度的负值。具体而言,
\mathscr{I}_{Influential}\left(x;D^{l}\right) = - \Big( \sum_{(x,y)\in D^{l}} \nabla_{θ} L(x,y;θ) \Big ) H_θ^{-1} \nabla_{θ} L(x,y;θ)
其中,
- L(x,y;θ)表示损失函数;
- ∇_θ L(x,y;θ)代表损失函数关于模型参数θ的梯度;
- H_θ^{-1}表示损失函数的海森矩阵的逆;
- \sum运算符用于累加所有(x,y)\in D^l项。
在公式中定义了H_{\theta}^{-1}为标记集对应的Hessian矩阵,并明确指出其等于\sum_{(x,y)\in D^{j}}\nabla_{\theta}^{2}\mathscr{L}\left(x,y;\theta\right)这一求和形式。具体而言,在该公式中包含了两个关键的部分:第一部分(即基于标记样本计算得到的梯度总和)以及第二部分(即完整的Hessian矩阵)。对于第三部分,则采用了基于预期经验损失所计算出的梯度作为替代。
3.1.3业绩估计
在本节中,衡量模型性能的指标反映了当前任务的表现水平。主要包含两类指标:一种是测试损失,另一种是针对特定任务的评估指标。这些指标能够反映预测误差的程度。例如,在医学领域中,患者的肿瘤分割任务若出现较低Dice分数,则表明该模型对这类样本无法生成精确分割。通过为这类样本提供注释信息,有助于提升模型性能。然而由于 ground truth 标签在实际场景中往往缺失,在无法进行精确计算的情况下我们只能依赖于间接估算的方法。主要采用两种方法来估算模型性能:一种是使用替代性指标替代原生评估标准;另一种则是通过可学习的方式直接估计原生评估标准。
替代指标 被广泛应用在医学图像分析领域的主动学习过程中。这些替代指标通常可被定义为损失函数或特定任务评估指标的上界或下界估计值。在免疫组织化学学图像中乳腺癌分割的研究中(沈等人, 2020),研究者通过MC dropout模型计算了所有预测结果的最大交并比(IoU)。他们发现该IoU值与真实骰系数之间存在显著的线性相关关系。此外,在皮肤病变及X射线骨骨折分割研究中(赵等人, 2021),通过深度监督的方法计算中间层与最终层预测之间的平均骰系数作为评价标准。研究结果表明该平均骰系数与真实dice系数之间也呈现明显的线性关系特征。进一步研究表明,在有限训练迭代过程中(黄等人, 2021),样本损失值受到初始输出与最终输出间差异范数的限制因素影响。基于此观察结果为出发点, 研究者提出了循环输出差异(COD)这一概念, 其定义为连续两次注释过程模型输出间的差异度量标准. 实验数据显示, COD值较高的样本具有较高的损失度量值特征. 因此, 研究者选择具有较高COD值的样本作为学习策略. 同时, 通过后验验证手段证实了所选评价指标与其线性相关性的内在联系
可学习性能估计:我们致力于开发辅助神经网络模块以预估性能指标。作为该研究领域最具代表性的研究工作之一,在主动学习中引入的学习损失(LLAL)[Yoo及其合著者, 2019]通过训练额外模块来预估未标记样本的损失值。由于预估结果反映网络预测的质量,因此所预估值被视为样本选择过程中的自然不确定性度量指标。研究结果表明,在LLAL框架下所预估值与实际损失高度相关联。我们提出的方法超越多个主动学习基准模型,在肺结节检测任务中表现优异[Liu等人, 2020]:基于LLAL预估每个样本及其边界框的损失值。在COVID诊断任务中,则采用预估值与不同预测间的一致性差异进行样本选择[Wu等人, 2021]:通过结合预估值与多样性特征实现性能提升[Wu等人, 2022c]:进一步将损失预估与多模态特征结合应用于联合主动学习框架[Kim等人, 2021]:将传统的LLAL架构进行了改进——将回归器替换为排名器[Kim等人, 2021]:具体而言[Saquil等人, 2018]采用了RankCGAN模型进行替代运算。研究表明,在LLAL架构下基于排序的预估值优于回归预估值的表现更加优异[Zhou等人, 2021b]及后续工作中[Zhou等人, 2022]则在此基础上引入了质量评估模块——该模块能够为每个切片提供预测平均IoU分数,并采用交互式注释策略以选择得分最低的切片进行详细标注
3.1.4不确定性感知模型
在上述讨论中可以看出,在深度学习领域中存在一种源于确定性模型导出的不确定性表示方法。然而,在某些特定的设计架构中能够自然地捕捉这种不确定性。其中一种代表性的例子是用于医学图像分析的概率生成对抗网络(VAE)或概率型统一网络(概率U-Net),其相关研究可追溯至科尔等人于2018年的工作(K"{o}rner等人, 2018)。通过这种方式它们就不再输出单一的点估计值而是输出可能预测的分布从而显著降低了推理阶段所需的计算资源和时间消耗。此外证据深度学习(EDL)以及混合密度网络(MDN)常被应用于这一领域以实现对不确定性的建模与感知。
证据深度学习
混合物密度网络: 崔等人(2021a)将目标检测网络中的分类和定位头转换为MDN的架构(主教,1994年)。除了每个边界框的坐标和类别预测之外,MDN头还产生了分类和定位的方差。他们将这些方差作为样本选择的不确定性度量。结果表明,该方法与MC dropout和模型集成具有竞争力,同时显着减少了推理时间和模型大小。
3.1.5基于对抗性的不确定性
AL中的不确定性也可以对抗性地估计,包括对抗性样本和对抗性训练。
对抗样本 帮助隐式测量样本到决策边界的距离,而更高的距离表示更高的不确定性。通过攻击深度模型,向原始样本添加精心设计的扰动会导致对抗性样本(古德费勒等人,2014b)。对抗性样本和原始样本之间的差异人眼几乎无法辨别。然而,深度模型会对对抗性样本产生极其自信但错误的预测。原因是对抗性攻击以最小的成本将原始样本推向决策边界的另一边,导致视觉上可忽略的变化但预测明显不同。从这个角度来看,对抗性攻击的强度反映了样本到决策边界的距离(许等,2019)。小扰动表明样本更接近决策边界,因此被认为更不确定。Ducoffe和Precioso(2018)采用DeepFool算法(穆萨维-德兹胡利等人,2016)用于对抗性攻击。要求对具有较小对抗性扰动的样本进行标记。Rangwani等人(2021)在扰动强度有限的情况下,通过最大化对抗性样本和原始样本预测之间的KL分歧来攻击深度模型。
通过交替训练特征提取器与目标冲突识别的分类器来实施对抗训练。该方法的核心目标是通过增强各分类模型之间的分歧来发现并标注不确定性较高的样本。此外,在他们的研究中,在标记与未标记的数据集上使用两个独立的分类模型实现了这一策略;其中一种情况是:首先固定特征提取器的同时微调两种不同的分类模型;随后分别优化特征表示与类别预测模型;经过多轮迭代后集中标注表现出最大分歧度的样本。
3.2.评估信息量:代表性
虽然基于不确定性的方法在深度AL中发挥着至关重要的作用,但它们仍然面临着某些挑战:1.异常值选择: 在AL中使用不确定性的目标是通过查询当前模型的硬样本来提高性能。然而,这些方法也可以选择损害模型训练的异常值(Karamcheti等人,2021年)。发生这种情况主要是因为基于不确定性的方法经常忽略样本本身的内在特征。2.分布失调: 在需求空间中,不确定样本往往位于决策边界附近(2009年结算)。因此,基于不确定性的方法选择的样本的分布通常不同于整体数据分布。这种差异引入了数据集偏差并导致性能下降。如果在AL查询期间仔细考虑不同样本之间的关系,这种挑战可以得到缓解。总之,基于不确定性的AL缺乏对每个样本中携带的视觉信息以及不同样本之间关系的探索。上述挑战要求在AL中使用新的信息性度量。
AL方法通过引入具有代表性的样本来缓解不确定性带来的挑战。基于代表性的AL方法旨在从数据集中选择能够充分反映整体特性的典型样本子集。具体而言,在这一过程中,代表性样本需要具备在成像风格或视觉内容等属性上体现出鲜明特色。在医学图像分析领域中,由于处理的数据通常是高维的复杂信息集合,在这种情况下深度学习模型需要承受巨大的计算负担。此外,在实际应用中某些关键信息如病变或组织特征往往难以直接观察或清晰地区分。为了实现有效的人工智能辅助诊断系统,在这一过程中一个关键的技术环节是构建能够有效降低数据维度的同时提取丰富特征表示的方法。因此,在基于代表性的主动学习框架下(representativeness-based AL),查询过程通常是在需求空间内进行以提高效率并减少资源消耗。此外,在实际应用中这些代表性样本还需要满足广泛分布在数据整体分布中的要求以避免区域化倾向的问题进而保证结果的有效性与多样性。为此需要建立合理的评估指标以全面反映数据集的空间分布特征同时避免过于依赖单一的距离指标以满足医学图像的独特需求本节系统介绍了四种主要类型:基于聚类 representative AL 基于覆盖 representative AL 基于差异 representative AL 和基于密度-based representative AL 的主动学习框架及其应用实例。

3.2.1基于集群的主动学习
随着医学图像分析中特征提取的进步,具有相似外观的图像倾向于在需求空间(郑等,2019)。因此,一种简单的方法是对数据嵌入进行聚类以选择有代表性的样本。这种方法将数据分组为几个集群,然后选择每个集群的形心样本。它利用数据中的固有结构进行有洞察力的分组,也很容易实现。K-Means是基于聚类的主动学习中最受欢迎的选择。普拉赫马迪等人(2021)对现成的自监督特征执行k-Means,然后选择聚类中心进行注释。基于自监督特征,金等人(2022b)采用k-Means++进行聚类和剪影系数来确定最佳聚类数。他们提出的方法在胸部X线的肺部分割和皮肤镜图像的病变分割中取得了值得称道的性能。在细胞核分割中,Lou等人(2023)使用K-Means进行粗级和细级聚类,旨在从病理图像中选择信息性斑块。在连接组学中,Lin等人(2020)提出了用于主动选择的双流聚类。他们首先预测了每个未标记样本的语义掩码,并简化了AL任务以判断每个预测ROI的正确性。此外,他们分别用分割掩码和未标记图像训练了VAE的两个特征提取器。对于双流聚类,他们首先应用具有掩码特征的掩码级聚类对具有相似外观的ROI进行分组。在每个掩码簇内,进一步执行图像级聚类。该方法在突触检测和线粒体分割方面取得了优异的性能。结果还表明,双流聚类通过防止图像特征主导结果,优于具有连接掩码和图像特征的聚类。
3.2.2基于覆盖的主动学习
我们可将基于代表性的AL视为一种典型的覆盖问题。经典的覆盖问题之一是设施位置问题,例如使用广告牌来覆盖整个城市街道网络,其中法拉哈尼与希克马特法尔(2009年)就曾提出过相关研究(法拉哈尼和希克马特法尔, 2009年)。基于这种思路,基于覆盖的AL方法通过几个代表性样本来涵盖整个数据集,类似于通过几个核心位置来定位具有典型意义的数据点。这些代表性样本应能够充分反映其他样本的信息特征,并能在实际应用中发挥关键作用。这种方法通常涉及两个主要设置:一是典型的集合覆盖问题,二是最大化的数据集覆盖率设置(飞哥, 1998年)。在这两种设置下,所采用的目标存在显著差异:集合覆盖要求必须完全涵盖数据集中的所有点;而最大化的数据集覆盖率则能够更好地平衡全面性和准确性之间的关系(耶胡达等人, 2022年)。
套装封面: 核心集(Sener和Savarese,2018)遵循k-Center位置的设置(Hochbaum和Shmoys,1985年),这也是集合覆盖问题的一个变体。他们采用最远优先遍历来解决选择代表性样本的k-Center问题。深度特征的L2距离用于衡量不同样本之间的相似性。Agarwal等人(2020)为AL引入了上下文多样性,这是一种在空间和语义上融合样本不确定性和多样性的指标。他们用上下文多样性代替了L2距离,并采用与样本选择相同的最远优先遍历Sener和Savarese(2018). Caramalau等人(2021)采用图卷积网络(GCN)对标记和未标记样本之间的关系进行建模。GCN使用标记数据集改进了未标记样本的特征表示。增强的特征表示进一步用于核心集采样。
最大覆盖比例:该研究方法在医学图像分析领域具有开创性意义,并将代表性的概念引入主动学习(AL)领域可被视为一种早期尝试之一(杨等, 2017)。该方法首先选取高度不肯定的样本进行初始筛选,并随后选取具有代表性的样本进行标注。值得注意的是,在SA方法中,默认假设代表性的部分由最大覆盖设置来决定。其中,衡量代表性的指标基于深度特征之间的余弦相似度。具体而言,在查询数据集D_t^q中找到与目标样本x最相似的一个邻居x'的方式如下:
r(D_t^q, x) = \max_{x^{\prime}\in D_t^q} sim(x^{\prime}, x)
其中r表示样本x关于D_t^q的最大相似度指标(similarity measure),sim(·,·)则表示余弦相似度函数。\n此外,在包含标记数据和未标记数据的情况下(即D_t^u),计算整体表示能力R的方式如下:
R(D_t^q, D_t^u) = \sum_{x\in\stackrel{\sim}{D}_t} r(D_t^q, x)
其中一项较大的R(D_tq,D_tu)表明这种关系中D_tq更能代表D_tu.值得注意的是由于余弦相似度值域为[0 1]因此SA是对最大覆盖问题的一种扩展.然而他们仍采用贪心算法去寻找能够使目标函数R(D_t^q∪x D_tu)-R(D_tq D_t^u)达到最大化的样本x.随后许多基于自注意力机制的变分自编码器(VAE)框架在这一领域得到了进一步的发展特别是在医学图像分析方面.例如徐等人(2018)[https://www.sciencedirect.com/science/article/pii/S1361841524001269#b257]量化了SA中的分割网络并发现其能显著提高腺体分割的准确率同时大幅降低内存占用需求.此外郑等人(2019)[https://www.sciencedirect.com/science/article/pii/S1361841524001269#b278]提出了代表性注释(RA)这一改进方法省略了SA中的不确定性查询过程.RA通过训练VAE模型来进行特征提取并采用层次聚类方法对需求空间进行划分.在每个聚类子空间中他们同样采用了与原始自注意力机制相似的战略去选择具有代表性的样本.基于此方法沈等人(2020)[https://www.sciencedirect.com/science/article/pii/S1361841524001269#b202]对SA中的相似性度量进行了优化将其从sim(⋅ ⋅)转换为其补集即采用计算值域为[−∞ 无穷大]的方式从而使得所选样本更具多样性.
此外,在最大覆盖范围内采用了不同于SA的方法。在医学图像的关键点检测领域中,Quan等人( 20年 )提出了一种基于模板图像的选择方法用于少样本学习:首先,通过自监督学习训练了一个特征提取器;接着,运用尺度不变特征变换描述符完成了初始关键点的检测;随后,计算模板图像与数据集间的平均余弦相似度;最后,选取相似度最高的模板组合进行标注.Yehuda等人( ****** **** )发现核心集([Sener和Savarese, ** **** ]( https://... #b... "Sener和Savarese", ))主要遵循集合覆盖策略,在注释预算有限的情况下倾向于选择异常值.针对这一问题,Yehuda等提出了普罗科夫方法,通过将策略从集合覆盖转向最大覆盖策略来解决这一问题.通过采用自监督深度特征并结合图论中的贪心算法,普罗科夫方法能够有效避免基于传统集合覆盖方法所带来的异常值选择问题.
子模块功能视图: 集覆盖和最大覆盖都可以从子模集函数的角度来表述(Fujishige, 2005)。这些函数显示收益递减。具体来说,给定两组𝐴和𝐵, 𝐴⊂𝐵,对于每个元素𝑧那不在𝐵,一个子模集函数𝑔有那个𝑔(𝐴∪𝑧)−𝑔𝐴≥𝑔(𝐵∪𝑧)−𝑔(𝐵).此属性使子模集函数适用于AL。假设信息量函数𝐼是子模的。这意味着每个新查询的样本带来的信息量增益都比前一个少,这表明应该首先查询信息量大的样本。此外,如果我们可以根据单调和子模函数来表示优化问题,我们可以使用贪心算法在线性时间内得到接近最优的解。对于AL,如果𝐼是子模块化和单调的,这意味着我们可以贪婪地选择最大化的样本𝐼.在基于覆盖的AL中,像SA和RA这样的方法遵循子模函数的设置,但作者没有从这个角度展示他们的方法。引入子模函数将扩展AL的公式,并确保所选样本既具代表性又多样化。这类方法的典型步骤包括计算样本相似度,构建子模最佳化问题,并使用贪心算法(魏等,2015). Kothawade等人(2021)引入了基于子模块化信息度量的AL框架,有效地解决了稀有类稀缺、冗余和分布外数据等问题。在目标检测中,Kothawade等人(2022a)专注于少数类的样本。他们首先构建了一个包含某些感兴趣类样本的参考数据集。然后,与参考集相似的未标记样本通过子模互信息(SMI)进行注释。SMI用于衡量两个集合之间的相似性。假设两个集合𝐴, 𝐵和一个子模函数𝑔,SMI定义为\mathscr{I}_{𝑆𝑀𝐼}=𝑔(𝐴)+𝑔(𝐵)−𝑔(𝐴∪𝐵).请参考Kothawade等人(2022b)有关SMI的更详细定义.
3.2.3基于差异的主动学习
在差异驱动的主动学习框架中,默认情况下与标记数据最远的未标注样本被视为最具代表性。核心概念在于,在主动学习过程中反复选择并标注这类样本后,默认情况下两组分布之间的差异将明显降低。因此,在这种策略下,默认情况下少量样本即可充分反映整个数据集。这些方法的核心在于量化两个高维空间中的概率分布间的距离。本节重点介绍了衡量概率分布之间四种不同差异的方法:基于相似度评估、Kullback-Leibler散度、Wasserstein距离以及最大均值差异(MMD)。
基于差异性的评估:
H-散度 借助判别器从生成对抗网络(GAN)估计分布距离(古德费勒等人,2014年a)。更具体地说,鉴别器试图区分标记和未标记的样本,H-散度与鉴别器的输出之间存在密切关系(Gissin和Shalev-Shwartz,2019)。变分对抗主动学习(VAAL)(辛哈等人,2019)将VAE与基于差异的AL的鉴别器相结合。在VAAL中,VAE将样本映射到潜在空间,同时鉴别器区分样本是否被标记。这两者受到对抗性训练的相互影响。VAE试图欺骗鉴别器判断所有样本都被标记,而鉴别器试图正确区分标记和未标记样本。经过多轮对抗性训练,VAAL选择了鉴别器认为最有可能被未标记的样本进行注释。VAAL启发了许多后续作品。Khanal等人(2023)采用多模态信息改进VAAL。对于多模态医学图像,他们仅使用一种模态的潜在代码修改VAE以重建两种模态的图像。该方法在脑肿瘤分割、分类和胸部x光分类上进行了评估。吉辛和沙莱夫-施瓦茨(2019)在没有对抗性训练的情况下训练判别器。Zhang等人(2020)用样本不确定性替换了鉴别器的二元标签。他们还将VAE的特征与监督模型的特征相结合。王等人。(2020c)采用神经网络模块进行样本选择。为了训练这样一个模块,他们在VAAL之上添加了另一个鉴别器,旨在区分未标记样本的真实和VAE重构特征。在对两个鉴别器进行对抗性训练后,该模块选择了不确定和有代表性的样本。Kim等人(2021)将主动学习的学习损失与VAAL相结合,将损失排名预测和VAE特征输入判别器。
瓦瑟斯坦距离 广泛用于计算分布距离。水等人(2020)指出H-散度折衷了样本选择的多样性,而瓦瑟斯坦距离保证了查询样本的代表性和多样性。他们进一步提出了瓦瑟斯坦对抗主动学习(WAAL),它建立在VAAL的基础上,采用了一个额外的样本选择模块。他们通过最小化标记和未标记集之间的瓦瑟斯坦距离来训练这个模块。WAAL选择了高度不确定且最有可能未标记的样本进行注释。马哈茂德等人(2022)将AL表述为最优传输问题。他们旨在最小化具有自监督特征的标记集和未标记集之间的瓦瑟斯坦距离。他们进一步采用混合整数规划,保证了多样化样本选择的全局收敛性。此外,谢等人。(2023c)将候选者视为基于自监督特征的可持续优化变量,他们首先随机初始化候选样本,然后,最大化候选者与其最近邻的相似度,同时最小化候选者与标记样本的相似度,最后,选择最终候选者的最近邻进行标注,他们证明了目标等价于最小化标记样本与未标记样本之间的瓦瑟斯坦距离。
Maximum Mean Discrepancy (MMD) is a technique that utilizes kernel techniques to measure the distance between two distributions based on their average characteristics (Gretton et al., 2012; Gretton et al., 2017). Within the context of domain adaptation (see Section 4.5; Hwang et al., 2023), MMD is employed to quantify the dissimilarity between source and target domains. Subsequently, MMD is used to select representative and diverse samples from the target domain. Notably, the Wasserstein distance belongs to the family of integral probability metrics (IPMs), while MMD falls within both the IPM family and, as mentioned earlier, the category of divergence measures.
3.2.4基于密度的主动学习
基于密度评估的主动学习策略倾向于在数据分布密度最高区域选取代表样本。该策略通过密度估计方法刻画高维需求空间的数据分布特征。其中,在概率空间中各点处的概率质量即其对应的似然值反映了数据分布在相应区域的概率密度水平。在此框架下,在概率空间中各点处的概率质量即其对应的似然值反映了数据分布在相应区域的概率密度水平。在这一框架下,具有较高概率密度的选择样本被视为代表性样本。值得注意的是,在此过程中可能会出现选择性偏差或冗余现象。因此,在优化过程中通常会采用聚类等技术手段以增强样例代表性。
值得注意的是,在概念上和方法论上存在显著差异的两种算法——即基于覆盖型主动学习(AL)与基于密度型主动学习(AL)。就概念而言,在一种算法中所选取的核心样本倾向于覆盖整个数据集范围;而在另一种算法中则并非如此——它们可能并不集中在数据分布最为密集的位置。例如,在Yehuda等人(2022)的研究中指出:核心集(Sener和Savarese, 2018),一种流行的基于覆盖型主动学习的方法,在低预算条件下倾向于选择具有代表性的异常值样本;而在这种情形下,则与另一种算法形成了鲜明对比——这表明,在这种情况下,在低预算区域内采用基于密度型主动学习方法可能表现出更好的性能表现。
3.3.抽样策略
具备成熟的信息量评估体系,在深度AL领域中,默认的做法是通过top-k策略选择信息含量最高的样本进行标注。然而,在现有研究中发现信息度量存在一些局限性。其中主要表现为冗余现象以及类别不平衡问题.这些缺陷在医学图像分析中尤为突出.值得重视的是,单纯的top-k选择策略已经无法有效解决上述问题,而单纯依赖于改进抽样策略来提升信息度量的能力.此外,特定的抽样策略也可以用于组合多个信息量指标.值得注意的是,随着深度AL的发展,越来越多的研究倾向于直接基于神经网络模型进行采样决策.然而,尽管当前的研究越来越重视采样策略的重要性,但以往的工作或文献往往缺乏对其具体特征与适用场景的深入探讨.作为本次研究的重要贡献之一,我们系统地梳理了不同类别的采样方法及其适用场景.从分类视角来看,现有采样方法主要包含多样性采样、平衡类采样、混合采样以及可学习型采样等四大类型.

3.3.1多样性抽样
该种策略的目标在于降低主动学习过程中采样的冗余度。这表明所选样本之间具有高度相似性。缺乏多样性会导致标注预算的浪费。此外,在深度模型的学习中,在有限数量的训练样本上过拟合的现象会因为数据冗余而加剧。因此,在主动学习中采用多样性抽样的方法来减轻选定样本之间的冗余问题就显得尤为重要。在本节中我们将探讨四种不同的多样性抽样策略
多样性抽样 是聚类分析中最为常用的一种策略。通过这种方法可以显著扩大数据空间的覆盖范围,在提升数据多样性方面展现出显著效果。
- Ash等人(2020)在梯度嵌入模块中采用了k-Means++聚类算法来选择具有代表性的不确定样本;
- Citation 的研究表明,则通过分层聚类策略增强了基于边距的不确定性采样能力;
- 他们选择了每个集群内边距最小的样本作为代表性样本;
- 当面对查询数量超过集群数量时,则优先选取来自较小集群的样本进行排序;
- 该方法在注释预算达百万级别时仍可有效实施;
- 郑等人(2019) 的实验表明,在多个医学成像数据集上应用该方法均能获得一致性的性能提升效果;
重点在于突出显示当前部分中关于群落的不同之处与上一节的内容3.2.1. 为确保所选取的样本能够充分反映整体特性,在使用基于群落的数据驱动学习(AL)方法时,默认策略是通过计算每个数据点与群落中心点之间的距离来进行筛选。然而,在利用群落来提升数据多样性的场景下,则需要采取更加灵活的方式:除了选择最接近中心点之外,并非只能选取数据分布中不确定性最大的样本。相反地,在每个群落内部我们还有更多的自由度可循:例如,在某些情况下可以选择处于边缘区域的数据点作为代表。因此,在增强主动学习(AL)中的采样多样性方面,利用群落技术是一种便捷且有效的方法。
行列式点过程 是从更大的集合中选择子集的随机概率模型。DPP降低了对相似元素进行采样的概率,以确保结果的多样性。弄点肉胡子。(2019)使用两个DPP进行样本选择:不确定性DPP基于不确定性分数,而探索DPP旨在寻找决策边界附近的样本。然后,将来自两个DPP的采样结果发送给专家注释。然而,与聚类相比,DPP的计算量更大。Ash等人(2020)比较了使用k-Means++和k-DPP的性能和时间成本。结果表明,它们的性能相似,但k-Means++的时间成本明显低于k-DPP。此外,Mi等人(2020)在AL中采用DPP进行医学图像重建,请参阅第5.3有关详细信息。
随机划分 也是一种提升多样性的有效策略。在核磁共振前列腺分割领域中,[Gaillochet等人(2023a)][https://www.sciencedirect.com/science/article/pii/S1361841524001269#b58]将全部数据集系统性地划分为若干个互不重叠的"随机分组"。随后,系统会选择每个分组中具有最高不确定性得分的部分进行有代表性的标注。实验结果表明,这种"随机分组"策略能够在有限预算内显著提升基于不确定性度量的主动学习方法性能。此外,他们后续的研究[Gaillochet等人, 2023b][https://www.sciencedirect.com/science/article/pii/S1361841524001269#b59]进一步验证了该方法在前后海马分割任务中的有效性
该算法也被广泛应用于多样化查询领域。它最初由Sener及Savarese(2018)提出,并要求采样点之间的距离尽可能大。这种设计使得所选样本在需求空间中的分布更加均匀。随后的研究者如Li等人(2023),则采用基于余弦相似度的最远优先遍历策略以进一步提升多样性表现。通过乳腺超声、肝脏CT及胸部X射线分割实验验证了该方法的有效性。此外,在这一领域取得突破性的研究工作还源于Agarwal等人的创新性工作以及Caramalau等人的GNN增强方法的应用
在不确定性采样(AL)领域中采用其他策略时
3.3.2类别平衡抽样
在医学图像分析中,深度学习模型常面临类不平衡的问题,在这种情况下,“长尾分布”现象普遍存在于各种任务中。具体而言,在一个不平衡的数据集中进行训练会导致过拟合现象主要发生在多数类别上(majority class),而少数类别(minority class)则容易出现欠拟合问题(underfitting)。此外,在数据集构建阶段,“长尾分布”可能导致多数类别样本密度较高(high density),从而进一步加剧这一问题。为了缓解这一挑战,“对抗学习”不仅能够通过减少多数类别标注密度来降低过拟合风险,在数据集构建阶段还能够通过增强少数类别标注密度来改善模型性能。
分类: 在一个不平衡的2019冠状病毒病数据集中,Chong等人(2021)评估多重信息性得分和抽样策略。结果表明,多样性抽样更有利于阶级不平衡。金等人。(2022c)假设靠近分布尾部的样本更有可能属于少数类。因此,尾部概率等价于少数类的可能性。具体来说,他们训练了一个VAE进行特征提取,并采用copula估计VAE特征的尾部概率。最后,通过聚类和不等概率采样选择信息丰富的样本。该方法在具有长尾分布的ISIC 2020数据集上得到了验证。Kothawade等人(2022c)使用子模互信息更多地关注少数群体的样本。他们在五种不同模式的医学分类数据集上取得了出色的结果,包括X射线、病理学和皮肤镜检查。在显微镜下的血细胞检测中,Sadafi等人(2019)当样本的少数类分类概率超过0.2时,要求对样本进行专家注释。此外,Choi等人(2021b)直接估计分类器对给定样本出错的概率,并使用贝叶斯规则将其分解为三个项。首先,他们训练一个VAE来估计给定预测类的数据的可能性。然后,根据VAE特征训练一个额外的分类器来估计类先验概率和错误标记特定类的概率。通过考虑所有三种概率,他们成功地缓解了AL中的类不平衡。所提出的方法在逐步类不平衡的CIFAR-10和CIFAR-100数据集上取得了良好的性能。对于基于不确定性的方法,Bengar等人(2022)引入了一个优化框架来保持类平衡。他们用该类中最有信心的样本来补偿少数类的查询,导致查询数据集中的类分布更加平衡。
由于某些基于学习的方法(AL方法)倾向于聚焦于特定区域而非整个图像来进行注释操作,则必须确保所选注释区域能够包含具有独特特征的小物体或稀有结构(例如,在头颈部多器官分割任务中涉及的视交叉与视神经区域)。参考文献中蔡等人([Cai et al., 作者信息, year) 和吴等人([Wu et al., 作者信息, year) 的工作]分别提出了针对该类场景的类别平衡抽样策略, 其具体内容可参见本节第4.3节的相关讨论。
3.3.3混合取样
在人工智能领域中،大量项目同时采用多种定量指标。然而,在整合这些定量指标方面仍面临关键挑战。本节所讨论的混合采样技术被用来解决这一问题。其中一种主要方法是多阶段采样法,另一种则是基于度量融合的技术
多轮抽样是一种方法,在应用中通常会依据某个特定的标准从总体中选出一个子集;随后,在这个子集中再采用另一种标准进一步筛选出更具体的样本。这种抽样方法因其操作简便而被广泛应用于领域研究中;特别是在医学图像分析方面表现出显著的应用潜力。([沈等,
此外, 吴等人(2022b)采用了动态权重配置的自适应策略,以调整代表性和不确定性抽样的预算安排.其中,代表性抽样的初始值较高,然而在后续阶段则相反.这种差异的根本原因在于,代表性方法能够迅速识别具有代表性的数据样本,而不确定性方法则被用来不断优化模型性能.
混合采样策略 是一种在数据科学中被广泛认可的有效方法。该策略通过有效整合多种信息量指标来提升模型性能。具体而言,在实际应用中可以通过综合考量所有指标并选择具有最优值的样本进行注释以增强数据质量。该方法不仅在理论研究上具有重要意义,在实践应用中也得到了广泛应用
3.3.4可学习抽样
常见的AL方法一般按照'两阶段'流程运作:首先计算各数据点的信息含量并进行排序;接着应用预设的抽样策略来决定选取哪些样本。值得注意的是,在这种情况下,在线学习算法将被称作'神经选择器'
可学习抽样的主流方法之一是将样本选择问题建模为强化学习(RL)问题,在这一框架下将研究者与数据集视为相互作用的主体。在这一过程中,代理通过与环境互动来标注选定的有限样本。在医学图像分类领域中,王等(2020b)提出了演员-评论家框架,在该框架下评论家网络用于评估代理所选样本的质量表现。该研究方法在眼科CT肺疾病分类以及糖尿病视网膜病变分类任务中表现出优异性能。Howmann等人(2019)则采用了概率策略网络作为代理模型,在这种设置下环境反馈的奖励信号旨在鼓励代理选取具有代表性和多样性的样本,并通过REINFORCE算法对代理模型进行训练以优化其性能表现。(威廉姆斯, 1992年)。Agarwal等人(2020)则基于上下文多样性构建了RL奖励函数,并利用双向长短期记忆网络架构作为代理模型以实现更高效的样本选择策略。
针对AL中可学习抽样的相关研究,其具体表现为将AL具体化为少镜头学习,并借助元学习机制训练神经选择器模型,请参阅[Liu等人(2022)][https://www.sciencedirect.com/science/article/pii/S1361841524001269#b141 "Liu等人(2022)].]
4. 主动学习和其他标签效率高的技术的集成
如第1部分所述,在阐述过程中指出高昂的标注成本严重阻碍了深度学习在医学图像分析中的发展。尽管主动学习(AL)被广泛应用于该领域中,并开发了一系列技术以减少训练深度模型所需的大量标记数据。这些技术包括半监督学习等主动学习相关的方法(例如金等人[2023a])。标签高效学习作为一个综合性概念,在此框架下涵盖了所有旨在提高注释效率的技术研究(金等人, 2023a)。在医学图像分析领域中,在实际应用过程中通过将AL与其他标签高效技术相结合仍存在进一步提升标注效率的空间(例如通过与半监督学习结合以解决未标记样本的问题)。自监督学习的发展不仅引入了更多强大的预训练模型(塔勒布等人, 2020),而且这些模型也被成功应用于AL场景中以增强特征提取能力(例如塔勒布等人[2020])。此外,在某些情况下由于医学成像中的ROI区域较小可以通过聚焦于包含AL中ROI信息的特定区域来进行注释而无需对整个图像进行注释这显著提升了注释效率(例如通过结合领域适应技术以优化注释策略)。然而现有的研究尚未系统化地梳理和分类这一研究方向因此作为本研究的主要贡献之一我们全面回顾了AL与其他标签高效技术的整合方式包括半监督学习监督自监督、领域适应基于区域注释以及生成模型等(如表所示)。此外我们还系统地总结了当前各研究工作是如何与上述标签高效技术相结合以推动相关研究进展的研究综述
4.1.半监督学习:利用未标记的数据
semi-supervised learning(Chen等人, 2022a, Han等人, 2024)旨在通过在监督训练中利用未标注的数据来提高性能。通过在医学图像分析中整合Active Learning (AL)与semi-supervised learning, 可以进一步减少对繁琐的人类标注需求. 其优势在于它们相互补充: 首先, 应从医院信息系统中获取大量未标注的图像用于一些临床应用训练深度学习模型. 在AL的帮助下, 模型将在基于某种AL方法构建的最佳标注数据集上进行训练, 这样就减少了医生的标注工作量. 然而,在AL周期的模型训练期间, 浩如烟炮的未标注样本闲置不用. 将Active Learning与semi-supervised learning相结合后, 模型可以在标注样本与未标注样本上同时进行训练. 本节将从伪标签与一致性正则化的方法入手介绍这两种技术的结合.
4.1.1伪标签
伪标记(Li等人, 2013)是半监督学习的主要方法之一。该方法通过模型对未标注数据的预测结果作为伪标签,并将其与真实标注数据结合进行监督式训练。尽管这种方法能够应用到所有未标注样本上进行训练,但它可能会引入噪声样本的问题。为了缓解这一挑战,Wang等人(2017)提出了具有成本效益的主动学习策略(CEAL),将基于不确定性的主动学习与伪标签结合使用。具体而言,CEAL通过向专家提交最不确定的样本以获取真实标注,并将伪标签分配给那些模型预测结果最自信的样本。这一思想得到了许多后续研究的支持,许多后续研究也在此基础上进行了拓展【例如
4.1.2一致性正规化
为了在输入数据或模型参数受到扰动时强制执行一致性的输出变化... ... ... ... ... ...
在研究论文《高等人(2020)》中所提出的half-supervised active learning framework中, 一致性也可被用来指导样本选择过程, 从而确保数据质量. 该研究提出了一种新的half-supervised active learning framework, 在此框架下采用随机增强技术对样本进行多次输入. 研究者通过最小化各子网络输出间的方差来优化未标记样本的一致性损失. 随后, 在标注过程中优先处理那些一致性较低的样本以提高整体性能.
此外,在研究中(张等人, 2022a)将主动学习(Active Learning, AL)与伪标签(Pseudo-labels)及一致性正则化(Consistency Regularization)相结合。未标记的图像首先接受强增强和弱增强处理。当弱增强处理后的图像预测结果置信度超过设定阈值时,这些样本会被用于进行半监督学习。具体来说,在这种情况下弱增强处理后的图像会被赋予作为伪标签的结果权重;而强增强了后的图像输出结果则会与这些伪标签保持一致。相反地,在预测结果置信度低于设定阈值的情况下,则会直接采用这些样本进行AL操作。为了选择用于oracle注释的关键样本集,则采用了平衡不确定性选择器(Balanced Uncertainty Selection, BUS)和对抗不稳定性选择器(Anti-Instability Selection, AIS),从而确保所选样本能够充分反映数据分布中的关键特征并提升模型性能表现。最后通过MRI扫描验证了该方法在分类转移性硬膜外脊髓压迫等级方面的有效性
4.2.自我监督学习:利用预先训练的模型
将半监督学习与AL相结合已经取得了成功的应用。然而,它的有效性受到数据集大小的限制。这种限制对于相对较小的医学成像数据集尤其明显。在临床实践中,大量原始医学图像存储在医院信息系统中,无需人工注释。自我监督学习(克里希南等人,2022年)可能是挖掘隐藏在这些原始图像中的信息的重要工具。它的想法是在数据本身的监督下训练模型,从而允许在大型未标记数据集上进行预训练。许多研究表明,自我监督的预训练模型可以通过在医学图像分析中对一些随机选择的标记样本进行微调来获得令人印象深刻的性能(Azizi等人,2021年, 唐等人,2022b)。一个自然的期望是将主动学习策略与自监督学习相结合,旨在提高注释效率,而不仅仅是随机抽样(Lüth等人,2023年)。此外,这些模型还可以作为强大的特征提取器,为人工智能提供良好的初始化。在本节中,我们将首先介绍自监督模型如何解决人工智能中的冷启动问题,然后探索将人工智能与自监督学习集成的不同方法。
4.2.1主动学习中的冷启动问题
当前的AL方法通常需要一个初始标记数据集来训练模型以进行启动并确保可靠的信息性评估。然而,当初始标记集很小甚至不存在时,这些AL方法的性能急剧下降,有时甚至比随机抽样(Chen等人,2023b, Hacohen等人,2022年, 耶胡达等人,2022年)。研究还表明,简单地将自监督学习与AL基线相结合会导致比随机抽样更差的性能(孟加拉等人,2021年, 谢等人,2023b)。这种现象被称为冷启动问题,普遍存在于各个领域的AL中,包括医学图像分析(刘等人,2023a)。解决冷启动问题对于提高AL的疗效至关重要,特别是在注释成本极高的医学领域。AL中冷启动问题的一个关键解决方案是选择最优的初始标记样本集,这需要与现有AL方法不同的策略。
早期的研究主要集中在基于完全监督预训练模型的方法来解决实体识别(AL)中的冷启动问题。其中,在他们的研究中使用ImageNet预训练模型在医学图像分析领域中从完全未标注的数据集中主动选择具有代表性的样本进行标注。他们在评估信息量时采用了熵与分歧的度量方式。其中分歧被定义为同一对象不同区域预测概率之间的KL散度。为了平衡采样的探索性和Exploitation效率, 他们引入了随机采样策略. 在两个结肠镜数据集和一个CT肺栓塞检测数据集上的实验结果显示, 该方法显著优于现有竞争方案.
自监督预训练模型为有效解决AL中的冷启动问题提供了良好的初始化。ALPS(袁等人,2020a)率先在AL中引入冷启动问题,并采用自监督预训练模型来解决这个问题。基于对比学习特征提取器,CALR(金等人,2022a)采用BIRCH聚类,选择每个簇内信息密度最大的样本进行标注。与k-Means相比,BIRCH聚类对异常值的敏感性较低,可以进一步识别噪声样本。TypiClust(Hacohen等人,2022年)理论上证明查询典型样本对于较低的注释预算更有利因此,基于自监督特征,TypiClust从每个k-Means集群的高密度区域中选择样本。除此之外,Yehuda等人(2022)采用基于图的贪心算法根据自监督特征选择最优初始样本。在CT分割中,Nath等人(2022)提出了ProxyRank,为自监督预训练设计了新的借口任务。该模型被训练为通过腹部软组织窗口学习阈值分割。结果表明,所提出的方法在选择初始样本方面显着优于随机抽样。为了基准不同冷启动AL方法在3D医学图像分割中的有效性,刘等人(2023a)在五个MSD数据集上复制ALPS、CALR、TypiClust和ProxyRank(安东内利等人,2022年)。结果表明,TypiClust在四个竞争对手中脱颖而出。然而,没有一种方法在所有五个数据集上始终优于随机选择,这需要在医学图像分析中进一步探索冷启动AL。
4.2.2主动学习与自监督学习相结合
核心优势:最直接的方式是利用自监督预训练模型所具有的高质量特征。大量研究均基于强大的自监督特征提取器([Prakasarao等人, 日期 ] https://www.sciencedirect.com/science/article/pii/S... , [Jin等人, 日期a ] https://www.sciencedirect.com/science/article/pii/S... , [Hacohen等人, 日期 ] https://www.sciencedirect.com/science/article/pii/S... , [Yehuda等人, 日期 ] https://www.sciencedirect.com/science/article/pii/S... )
伪装任务 在自监督学习中,旨在直接从数据本身派生监督。在大规模未标记数据上解决这些借口任务,模型获得反映数据特征的有用特征表示。不同的借口任务对应不同的预训练范式,典型的包括旋转预测(吉达里斯等人,2018),对比学习(他等人,2020),和蒙面图像建模(他等人,2022年)等。相关作品通常为AL采用借口任务的丧失。在Chen等人(2023b),对比学习的损失被用来解决医学图像分析中AL的冷启动问题。他们假设损失较高的样本更能代表数据分布。具体来说,他们用动量对比学习在目标数据集上进行预训练(他等人,2020),然后使用k-Means聚类将未标记的数据划分为多个聚类,选择每个聚类内对比损失最高的样本进行注释。然后他们选择每个聚类中对比损失最高的样本进行注释。所提出的方法解决了传统AL方法的偏差造成的类不平衡,以及在初始标记数据集数量有限时无法检测异常的问题。该方法在PathMNIST、ProducMNIST和BloodMNIST(等人,2023年). Yi等人(2022)发现借口任务的损失与下游任务的损失之间存在很强的相关性。因此,他们最初专注于注释借口任务损失较高的样本,后来转向损失较低的样本。结果表明,旋转预测在不同的借口任务中表现最好。
此外
4.3.基于区域的主动学习:较小的标签单元
大多数医学影像分析任务都需要通过预设标记来标注完整图像。然而,在分割或检测等精细粒度任务中进行全面标注会导致资源浪费并降低标注效率。以腹部多器官分割为例,在该任务中容易被充分分割的大器官(如肝脏或脾脏)并不需要详尽的标注信息;相反,在难以细分的小器官(如食道和肾上腺)上投入标注资源更为高效合理。为了优化这一问题,在标注过程中可采用将图像划分为非重叠区域的方法来提高效率;在此框架下专家可以选择对图像中的特定区域进行注释操作(称为基于区域的主动学习)。本节将从图块(patch)和超像素(superpixel)的角度介绍基于区域的主动学习策略;这意味着本节所讨论的所有AL方法都将选择图块或超像素作为标注对象
4.3.1补丁
该方法主要应用于基于区域的主动学习场景下,并通常以方形块的形式呈现。研究者 Mackowiak 等人(2018)提出了一种结合不确定性与注释代价模型来选取最优标记区域的方法[1]。在眼底图像的视网膜血管分割任务中[2](D),他们综合评估不确定性与标注代价等因素后选取最佳标记区域作为初始标注点[3](C)。此外,在病理组织图像的灰质与白质分割领域[4](E)中,则采用了更为灵活的非方形块划分策略[5](F)。研究者 D 利用潜在空间融合策略以促进有标签样本与无标签样本间的线性关联[6](G),而研究者 E 则通过自适应区域划分方法实现了更为精确的有效样本筛选[7](H)。值得注意的是,在信息补片的选择上[8](I),研究者 F 采用深度强化学习机制自动优化补片选择过程[9](J),从而显著提升了模型性能。
4.3.2超像素
在主动学习领域中,超像素通常被广泛应用于图像分割任务。传统的基于超像素的主动学习(AL)方法通常通过颜色和纹理特征提取来实现图像的初步分割[阿仙塔等人, 2012; 范登伯格等人, 2012]。随后针对每个分割出的区域(即所谓的"superpixel"),计算其信息量以指导后续决策过程。具体而言,在每个superpixel内部的所有 pixels 的平均特征值被定义为其信息含量[ S Siddiqui等人, 2020]。在此基础上,在Optic Disc Segmentation(OCT)任务中[ Kadir等人, 2023]进一步提出了一种基于边缘检测结合熵与多样性指标的新方法以识别并标注出最具挑战性的区域。为了提高标注效率[蔡等人, 2021]引入了主导标记概念:该标记代表了一个superpixel单元中最常见类别的标签,并将其分配至该单元中的所有 pixels 无需额外细节描述即可完成标记过程。此外他们还提出了类平衡采样策略以优化对少数类别样本的选择能力这一创新点显著提升了标注效果随后的工作主要集中在改进现有框架中的不足[ Kim等人, 2023 ]他们开发了一种能够自动融合与分割空间邻近、特征相似以及复杂结构的新策略从而实现了对原有算法性能的重大突破
4.4.生成模型:数据增强和生成主动学习
近年来,在深度生成模型的进步推动下(或:基于深度生成技术的发展成果),高质量图像合成以及基于条件的灵活合成变得可行。例如,在经过充分训练后,在特定场景下(如使用肺面罩),该模型能够模拟出对应的胸部X光影像。通过整合多模态数据与先进的合成技术,在提升人工标注效率的同时(或:进一步提高人工标注效率),我们可以显著改善诊断准确性并缩短临床决策周期。本节将重点探讨数据增强技术和主动学习方法如何协同优化人工智能与合成技术之间的关系
4.4.1作为数据扩充的合成样本
最简单的方法认为生成模型产生的合成样本是高级数据增强。这些方法利用标签条件生成模型。因此,保证所有合成样本都被正确标记,因为指定标签是数据生成的先决条件。这种方法使我们能够在没有任何额外注释的情况下获取更多标记样本。Tran等人(2019)认为生成模型产生的大多数合成样本信息不丰富。因此,他们首先采用BALD不确定性来选择样本进行注释,然后在这些标记数据上训练VAE-ACGAN以生成更多信息的合成样本。Mahapatra等人(2018)使用条件GAN生成具有不同疾病的胸部X射线,以增强标记数据集。然后,使用MC Dropout选择和注释高度不确定的样本。在AL和合成样本的帮助下,他们仅使用35%的数据就实现了接近完全监督的性能。训练条件生成模型需要大量标记数据,而AL中的标记数据集通常相对较小。为了解决这个问题,Lou等人(2023)提出了一个有条件的SinGAN(Shaham等人,2019),只需要一对图像和掩码进行训练。SinGAN提高了核分割的注释效率。Chen等人(2022b)集成隐式语义数据增强(ISDA)(王等,2021)变成AL。他们最初使用ISDA来增强未标记的样本,然后在不同的数据增强之间选择具有较大多样性的样本进行注释。该模型在原始数据及其增强上进行训练。Mahapatra等人(2024)训练了一个VAE来合成信息丰富和非冗余的样本。这些样本是通过在VAE的潜在空间中首次采样并将其馈送到VAE解码器生成的。此外,采用标签保留和冗余避免分数来挑选信息最丰富的合成样本。所提出的方法在胸部X射线分类和MedMNIST的多个玩具数据集中进行了测试(等人,2023年).
4.4.2生成性主动学习
主动学习系统通过生成模型创建合成样本,并利用oracle进行注释。值得注意的是,在本节中所讨论的作品均采用了成员查询合成的技术框架;而在下一节中介绍的作品则基于基于池的主动学习方法。这种差异源于最后一节中使用的生成模型仅用于增强现有标记数据集的能力有限这一事实。朱和便当(2017)的研究目标是利用GAN生成具有不可区分类别特征的样本以供专家进行注释;然而由于这些样本质量不高且包含大量难以区分类别的实例;因此专家难以对其进行有效标注;这就促使研究者们寻求替代方法来完成标注任务。Chen等人(2021)则提出了一种基于双向GAN的新方法;该方法首先训练了一个双向GAN模型以探索数据流形空间;随后选择需求空间中的不确定区域并在此区域内利用双向GAN生成图像;最后通过物理模拟手段对生成图像进行标签标注;在心脏主动脉瓣钙化水平预测任务中;与随机生成方法相比;他们显著提升了注释效率。
4.5.主动域适应:应对分布转移
领域适配技术(DA)在医学图像分析领域展现出广泛的应用前景。该技术的核心目标是通过知识转移从源域向目标域迁移,并在此过程中最大限度地降低了注释成本。目前最常见的设置是无监督的领域自适应方法(UDA),该方法主要针对的是带有标记的源域数据进行训练。而目标域通常是没有标记的。以腹部多器官分割为例进行说明时,则可结合标注数据和未标注数据,在目标域上构建了一个性能卓越的模型。然而,在UDA方面仍存在与完全监督学习方法之间的性能差距。选择高质量且具有代表性的样本对于缩小这一差距具有重要意义。这种设置则被称为主动Domain adaptation (ADA),它强调通过主动学习的方式优化模型性能,并进一步提高了对未知领域的适应能力。此外,在ADA框架下还需要考虑如何利用有限 labeled samples来进行有效的查询策略设计等问题。这些关键点包括关注于目标领域的不确定性或代表性特征,并将其统称为"领域属性"或"目标特性"等术语。本节重点回顾了基于图像级和区域级的Domain adaptation方法
4.5.1图像主动域自适应
本节探讨了ADA方法在图像级选择中的应用。ADA框架首次由苏等人(2020)提出,并成功将领域对抗学习与主动学习相结合。该研究首次将领域对抗学习与主动学习整合到ADA框架中作为核心内容,并通过域判别器和任务模型进行重要性抽样以实现目标域样本的选择过程。随后由傅等人(2021)在其研究中对ADA框架进行了扩展,在其提出的框架中加入委员会查询机制以及不确定性过滤技术,并结合高斯核函数筛选出高领域度的目标样本群体。此外傅等人还采用随机抽样的策略以提升样本多样性并进一步优化目标域样本的选择效果
4.5.2按区域主动调整领域
为更高效地分配注释预算,在ADA作品中通常会为图像中的特定区域——即补丁或超像素——分配注释
5. 医学图像分析的主动学习
基于其独特特性
在本研究中
5.1. 医学图像分类的主动学习
常见的临床任务包括疾病诊断、癌症分期以及预后预测等环节,在这一领域内可将其归纳为医学图像分类的问题。大多数情况下,在医学影像分类中实施自监督学习(AL)工作采用了通用的方法。然而,在某些情况下,在医学图像分类中实施自监督学习(AL)算法时需要特别设计。例如,在胸部X射影图中实施多标签分类通常涉及多标签的思想;而在病理全切片图中实施多标签分类则需要将其归类为多实例学习问题。本节将介绍专门针对胸部X射影图和病理全切片图两类典型医疗图像进行自监督学习(AL)工作的相关研究进展
5.1.1胸部X光片和多标签分类
胸部X线检查对于筛查和诊断肺部疾病具有重要意义,并涉及心血管疾病以及其他骨骼系统的问题。在这一领域中对计算机辅助诊断的研究已经深入展开,并着重于减少医生注释负担的方法。Mahapatra等人(2021)引入显著性图以选择信息量大的样本进行标注。为了将单像素显著性图转换为标量值他们尝试了三种不同的方法包括计算显著性图的峰度利用多元放射组特征以及结合自编码器与聚类的深度特征提取方法。结果显示基于深度特征聚合的方法表现最佳。Nguyen等人(2021)则提出了一个点集选择决策边界附近的样本并根据高熵不确定性选择样本进行标注同时赋予自信样本伪标签以提高模型鲁棒性。此外他们采用了动量更新策略以增强样本预测稳定性。为了应对注释噪声Bernhardt等人(2022)开发了一个称为"主动标签清洗"的新框架该框架根据估计标签正确性和标注难度对样本进行排序并有效地降低了专家注释的工作量从而提高了性能评估结果表明该方法在提升性能方面优于随机选择策略
然而,在进行胸部X光诊断时,多种疾病与异常常伴有发。为此需采用多标签分类方法使每个样本可被归类于多个类别(Baltruschat等人, 2019)。基于显著性图的基础上Mahapatra等人(2022)[...]进一步引入了图神经网络(GNN)以建模不同标签间的相互关联。在本研究中每一类被视作图中的一个节点各分类间的关系则通过边的形式表示他们开发了多种技术来整合各类之间的信息作为后续工作的基础Mahapatra等人(2024)[...]提出了基于图多套变压器的方法其相比传统GNN在捕捉类间关系方面展现出更强的优势
5.1.2病理全幻灯片图像和多实例学习
与X射线、CT以及MRI等技术相比,在病理全玻片图像(WSI)中实现了细胞级别的微观观察能力(即 WSIs),这使得它们在癌症分期及预后预测等方面发挥着关键作用。然而由于WSI的最大分辨率可达100,000×100,000像素级别这一特点带来了处理难度。为了应对这一挑战通常的做法是将WSI图像分割成众多小块片段(即补丁)。在传统监督学习框架下对这些小块进行标注通常需要从细胞或组织层面提供标注信息从而导致高昂的人工成本。主动学习(AL)技术则通过提升标注效率显著降低了这一成本。以乳腺癌组织图像分类为例[Qi等人(2019)]提出了一种基于熵度量的不确定性评估方法:通过标记包含高不确定性的补丁来收集标注数据并为信息丰富性较低的区域赋予伪标签辅助训练过程[胡等人(2023)]进一步发展了组织学组织分类中的动态不确定性抽样策略并提出了带有错误预测的负预训练方法以增强类别区分能力[范德瓦尔等人。(2021)]则在AL框架下构建了一种基于人工智能的人类增强标签系统:通过主动学习者选择最优未标注补丁并结合分类器预测结果来指导后续标注工作具体而言该系统采用了Core-Set策略[即Sener和Savarese(2018)]作为主动学习者机制从而实现了将人工标注强度减少约90%的同时还能略微提升各类细胞标记任务的表现
然而,在现实世界的临床环境中,病理学家可能仅能获得WSI级别的注释。因此,研究的一个流行方向是将WSI分类制定为弱监督多实例学习(MIL)(Qu等人, 2022年)。在这个框架中,默认情况下将整个WSI视为一个包,并将其中的每个WSI中的补丁视为该包中的实例。经过训练的MIL学习者可以根据WSI级别的标签自动识别相关补丁,并显着降低注释成本。例如,在注释WSI中是否存在癌症转移的情况下,经过训练的MIL分类器能够自动发现相关补丁。尽管如此,在与任务相关的补丁数量上往往比不相关的补丁多得多;这使得MIL收敛更具挑战性。在基于MIL的病理WSI分类中,默认情况下AL过滤掉不相关的补丁并选择信息性补丁进行注释;基于基于注意力的MIL,Sadafi等人(2023)采用MC Dropout估计每个补丁的注意力和分类不确定性,并将每个WSI中最不确定的补丁发送给专家进行注释;Qu等人(2023b)发现除了与靶点相关的斑块(如肿瘤、淋巴结和正常细胞)外, WSIs还包含许多不相关的斑块(如脂肪、基质和碎片);因此,他们采用了开放式AL(宁等, 2022) ,其中未标记池包含目标类样本和非目标类样本;他们结合特征分布与预测不确定性,选择目标类中信息丰富且相关的补丁进行注释
5.2.医学图像分割的主动学习
在医学图像分析领域中,分割任务具有显著的重要性。它不仅能够精确定位解剖结构或病理病变区域,并且在该领域具有广泛的应用价值。然而,在训练分割模型时需要进行像素级标注这一过程对于医生来说既费时又费力。因此,在医学图像分割领域中,主动学习方法得到了广泛应用,并已成为降低标注成本的有效手段之一。基于医学成像的独特特性,在本节中我们将重点介绍AL中用于医学图像分割的专门设计
5.2.1基于切片的注释
在CT与MRI等三维模式中,相邻的二维切片通常会显示出明显的语义冗余特性。因此,在注释每个样本的关键二维切片时即可有效降低注释成本。本研究采用AL模型对3D体积内的二维切片进行标注以实现目标任务。基于代表性的方法已在相关领域获得广泛应用;具体而言,在具体实施过程中:他们首先训练了三个独立的二维分割网络以及一个三维分割网络;其中二维网络的输入来源于不同平面提取出的切片特征;随后通过这些分割网络生成了四组伪标签数据集;最终再利用这些生成的数据进行三维分割网络的训练工作;实验结果表明:基于分层切片策略所构建的模型性能明显优于均匀采样的方案;此外,在类似的研究框架下:彭等人(2022)在三维膝关节软骨与骨骼分割任务中也采用了该分层切片策略;值得注意的是:吴等人(2022d)在此基础上进一步改进了自动编码器模型结构:通过引入自注意力机制增强了单个切片级别的特征学习能力
此外采用了不确定性方法用于选取关键切片。周等人开发了一个质量评估模块,在CT图像上选择了预测平均IoU得分最高的区域作为参考点。针对CT图像中的肌肉分割问题,Hiasa团队选择了关键切片以及重点区域进行深入分析。这项研究通过聚类算法筛选出关键切片,并进一步聚焦于每个切片中不确定度较高的部分进行详细标注。
近年来,在基于切片的注释任务中,开发出了一种综合运用不确定性与代表性的混合策略。该策略被应用于肩部MRI肌肉骨骼分割领域中。Ozdemir等人(2021)将多次MC dropout的方差用作衡量不确定性的指标;而infoVAE推断出的后验概率(赵等, 2017)则被视为代表性评估的标准。Li等人(2024)开发了一种综合运用不确定性与代表性的混合策略以选择下肢肌肉骨骼分割中的信息切片;其中不确定性通过贝叶斯U-net进行估计, 而代表性则基于余弦相似度进行评估. 此外, 他们进一步引入互信息理论以最小化样本冗余(Nath等人, 2021). 所提出的方法在标准MRI和CT数据集上展现了显著的效果
5.2.2一次性注释
该方法通过对比学习特征结合最远优先采样实现了高密度样本的选择策略
5.2.3注释成本
当前主动学习(AL)方法通常假设每个样本的标注成本相同。然而,在医学图像分割领域中并非所有情况都相同;标注不同样本所需的时间可能会有显著差异。为了更好地支持医生的工作效率,在检测CT扫描中的颅内出血时(Kuo等人2018),将预测不一致与标注时长相结合的方法被引入以选择目标进行标注。具体而言,在计算多个模型输出之间的不一致程度时采用了Jensen-Shannon散度这一指标。每个样本的标注时长则可依据其分割边界长度以及连通区域数量来估算。在此研究中,AL问题被建模为0-1背包问题并采用动态规划算法来选择信息含量较高的样本。在脑肿瘤分割任务中(沈等人2021),根据查询切片与已标记切片之间的距离来进行注释成本推导;较低的距离对应较低的成本水平。基本思路是标记相似切片所需的注释成本低于不熟悉切片的成本水平。对于大脑结构分割问题(Atzeni et al. 2022),空间关系也被纳入考量从而更加精确地估计注释成本;此外前几轮计算得到的平均dice系数也被用来预测当前分割结果的质量,并据此选择需要进行标注的具体区域
5.2.4互动分段
尽管自动分割在医学成像中取得了成功,但由于领域转移或看不见的投资回报率,临床应用中仍有可能出现错误。交互式分割(巴德等人,2021年, 罗等,2021)可以根据点击、边界框或涂鸦的用户输入对当前分割进行实时调整。因此,交互式分割可以在医生的指导下快速调整模型以适应当前的临床应用。为了灵活起见,当前的交互式分割方法接受任何位置的注释。然而,当模型本身可以建议在哪里进行注释时,这样的范式会更高效,这正是主动学习所擅长的。因此,将AL和交互式分割相结合将进一步降低注释成本。在本节中,所有提到的论文都与不同的标记单元进行了交互式工作。在DL时代之前,苏等人(2015)已经将AL集成到交互式细胞分割中。他们选择了信息量最大的超像素进行交互式注释,并具有预期的预测误差。在核磁共振胎儿大脑分割中,王等人。(2020a)提出了一种用于交互式细化的不确定性引导框架。他们开发了一种新颖的网络架构,可以同时产生多个分割结果,不同预测之间的方差作为不确定性度量。人类专家获取不确定性最高的切片进行交互式细化。在3D医学图像的交互式分割中,周等人(2022)提出了一个质量预测器,它根据每个切片的当前分割产生一个预测的IoU分数。通过交互式分割网络,质量预测器建议分数较低的切片用于专家注释,可以是涂鸦、边界框或极端点击的形式。在Li等人(2023),选择信息最多的前景和背景超像素进行交互式注释。
5.3.医学图像重建的主动学习
该算法同样适用于医学图像重建领域。通过减少长时间曝光的成像模式所需观测次数,AL方法能够有效提升图像质量并降低数据采集时间。从而加速了成像速度并减少了患者等待时间。本节将详细讨论该算法在MRI、CT以及电子显微镜重建领域的具体应用实例,并附有相关数据支持(见表4)。
深度学习已被应用于加速MRI采集和重建。一种常见的做法是通过固定掩模减少k空间采样,并使用深度模型重建采样不足的MRI(秦等,2018)。为了进一步提高成像速度,可以应用AL中的可学习采样来选择k空间中的下一个测量位置。例如,Zhang等人(2019)采用对抗性学习来训练评估器在k空间中选择下一行。Pineda等人(2020)利用强化学习训练双深度Q网络进行k空间主动采样。Bakker等人(2020)在强化学习中采用策略梯度来训练k空间自适应采样的策略网络。策略网络的奖励基于获取前后结构相似度的提高。此外,Bakker等人(2022)探讨了如何共同优化重建和采集网络。
除了基于磁共振成像(MRI)的技术外,在计算机断层扫描(CT)重建中也被广泛应用。例如王等人。(2022a).根据患者的具体情况动态调整扫描参数能够有效降低辐射剂量和缩短扫描时间等关键指标。在电子显微镜领域Mi等人(2020)的研究表明:通过先对低分辨率图像进行超分辨率处理并结合目标区域的位置信息以及重建误差评估结果随后采用基于重建误差的加权行列式点过程(DPP)来优化像素选择策略能够显著提升图像质量并平衡空间多样性与细节完整性之间的关系
Table 4.1 Compilation of surveyed works on active learning techniques within medical image reconstruction.
| Year | Venues | Modality | ROIs | Dataset | Clinical Task | |
|---|---|---|---|---|---|---|
| Jin et al. (2019) | 2019 | arXiv | MRI | Heart | Cardiac atlas project | MRI reconstruction |
| Knee | fastMRI | MRI reconstruction | ||||
| Zhang et al. (2019) | 2019 | CVPR | MRI | Knee | fastMRI | MRI reconstruction |
| Mi et al. (2020) | 2020 | MICCAI | Electron microscopy | Mouse Cortex | SNEMI3D | Accelerated acquisition of electron microscopy |
| Human Cerebrum | in-house | |||||
| Pineda et al. (2020) | 2020 | MICCAI | MRI | Knee | fastMRI | MRI reconstruction |
| Bakker et al. (2020) | 2020 | NeurIPS | MRI | Knee | fastMRI | MRI reconstruction |
| Brain | fastMRI | MRI reconstruction | ||||
| Wang et al. (2022a) | 2022 | arXiv | CT | Lung | AAPM | CT reconstruction |
| Spine | VerSe | CT reconstruction |
6. 主动学习在医学影像分析中的表现评估
在医学图像分析领域中
为了针对上述问题进行澄清, 我们对多个医学影像数据集上的不同主动学习 (AL) 方法进行了综合评估. 这些被广泛应用于整个医学影像社区的数据集涵盖了不同的模式, 器官以及任务(例如分类与分割). 为此, 我们选择了最具代表性的和流行的两种主动学习方法来进行评估. 此外, 为进一步实现这一目标, 我们还提供了数据集拆分的具体方式, 网络架构的设计方案以及训练超参数的详细说明. 通过这些内容的学习与实践, 可以更好地实现实验目的. 最后, 所有代码都可以在我们配套提供的网站上找到.
6.1. 实验设置
Table 5 lists the training, validation, and test subsets for each dataset. Unless otherwise noted, the data points shown correspond to the quantity of images in each subset.
| NCT-CRC-HE-100K | ISIC 2020 | ACDC | |
|---|---|---|---|
| Training | 90,000 | 20,869 | 656 (slices) |
| Validation | 10,000 | 2319 | 10 (volumes) |
| Testing | 7180 (CRC-VAL-HE-7K) | 9938 | 20 (volumes) |
6.1.1数据集
在本次调查中, 我们采用了三个医学影像数据集来评估AL方法的效果, 其中包含两个分类型数据集和一个分割型数据集. 详细说明了数据集拆分过程, 其中相关拆分摘要信息列于表5.
NC T-CRC-HE-100K (凯瑟等人,2019):该数据集包含来自86张人类结直肠癌和正常组织的苏木精和伊红(H&E)染色组织学载玻片的100,000个贴片。所有贴片在0时为224×224。5μm每个像素。这些补丁被分成九类不同的组织,包括脂肪(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌症相关基质(STR)和结肠直肠腺癌上皮(TUM)。对于数据集分割,我们将数据集以9:1的比例划分为训练和验证集,并使用了与测试集相同的作者提供的附加数据集CRC-VAL-HE-7K。CRC-VAL-HE-7K与NCT-CRC-HE-共享相同的采集方案和组织类别100K但包含来自50名非NCT-CRC-HE-100K患者的7180个补丁。
ISIC 2020(Rotemberg及其团队,《科学Direct》杂志上发表的研究(Rotemberg等, 2021)):基于来自全球约2000名患者的皮肤镜检查数据构建了ISIC 2020数据集。该集合包含了共计33,126张皮肤镜图像,并对每张图片进行了分级分类:其中约97.4%(即约3.5万张)为良性病变样本;仅有约1.7%(约584张)为恶性病变样本。我们按照6:1:3的比例划分了训练集、验证集和测试集的数据样本分布。
ACDC (伯纳德等人,2018):该数据集包含来自100名患者的短轴心脏电影磁共振图像。在这项调查中,我们只采用了每位患者的舒张末期框架来评估不同的AL方法,这导致了总共100次扫描。每次扫描对应于左心室(LV)、心肌(MYO)和右心室(RV)的人类注释分割掩模。我们遵循了从罗等人(2022),分别包含训练、验证和测试集中的70、10和20个扫描。由于沿𝑧-轴,与3D分割相比,2D分割更合适。因此,我们使用2D切片训练分割模型,并使用3D体积对其进行评估白等人(2017).因此,训练集由656个切片组成。
6.1.2评价指标
我们采用了系列评估指标对各个数据集的任务进行了评估。对于NCT-CRC-HE-100K的数据集的多分类任务,我们采用了准确率(ACC)作为性能指标。由于ISIC 2020中的二分类任务面临类别不平衡问题,在这种情况下我们选择了基于受试者工作特征曲线面积(AUC)的评价方法作为主要评估标准。针对ACDC的数据集分割任务,则综合运用了已知的两个评价指标:Dice相似系数(DSC)和平均表面距离(ASD)。其中Dice相似系数范围为从0%表示完全没有重叠到100%表示完美分割,在此过程中较低的平均表面距离值能够反映分割预测结果与真实标注之间的高度吻合性。为了全面衡量模型的整体性能表现,在综合考虑各分割区域的基础上我们计算并报告了左心室(LV)、心肌(MYO)以及右心室(RV)三个关键区域的平均Dice相似系数以及平均表面距离值作为最终评测结果
6.1.3主动学习设置
在本研究中,我们完成了𝑇=5轮次的注释工作。为了深入探讨不同注释预算设置对主动学习(AL)方法性能的影响,在各个数据集上设定了一系列不同的注释预算值𝑏。根据Lüth等人(2023)的研究框架,在NCT-CRC-HE-100K和ISIC 2020数据集上分别采用了高预算(𝑏=1000)和低预算(𝑏=50)两种设置进行分类任务实验,并参考Gaillochet等人(2023b)的方法,在ACDC分割任务中采用了10片的预算(𝑏=10)。基于所涉及数据集的规模特点,在低预算(𝑏=50)和低预算下的分类任务(𝑏=10)配置下,我们能够系统地观察不同AL方法在小样本情况下的表现差异。在主动学习流程启动之前,我们通过随机抽样方式确定初始标注池,并将该池的大小设定为与当前注释预算对应的值。随后,在每一轮次中采用特定算法选择样本并进行模型训练,并使用不同的随机种子进行五次实验运行。实验结果均值及其方差作为评估指标进行记录分析。
6.1.4比较方法
6.1.4比较方法
为了确保公平性和可重复性, 我们采用了以下评估方法: 随机作为基准, 它通过随机抽选未标记样本来进行评估. 置信度、熵值以及保障度 ([刘易斯和卡特利特, 1994] [乔希等人, 2009] [罗斯和小, 2006]):这些方法属于基于不确定性的主动学习(AL)方法家族, 主要通过预测概率作为不确定性得分来计算置信度、熵值及保障度. 具体而言, 置信度越低、熵值越高及保障度越低则表示数据点的不确定性越高. 基于双层不确定性(DBAL)的方法 ([Gal等人, 2017]):该方法结合了熵值与MC dropout技术以提升不确定性估计效果. 在采样过程中, 模型会同时激活所有的dropout层并使用MC dropout平均概率来计算熵值. 基于信息增益的选择策略 ([Gal等人, 2017]):该方法采用BALD作为不确定性分数指标, 目的是最大化预测结果与模型参数之间的互信息. 同时该方法也采用了MC dropout技术. 核心集选择策略 ([Sener和Savarese, 2018]):该策略利用样本特征嵌入进行覆盖采样以平衡选择效率与计算开销. 在引入距离度量的影响研究方面, 我们提出了Core-Set-Cosine变体并将其与传统的L2距离指标进行了对比分析以避免混淆. 最后我们统一将原始Core-Set称为Core-Set-L2以便于区分对比
需要注意的是,在图像分割过程中,依赖不确定性原理的方法与分类方法存在差异。具体而言,在分割操作中并非直接采用分类结果作为基础,在此之前需要先生成像素置信度分数,并通过计算平均置信度值来筛选样本点位置
表6展示了不同主动学习方法在多类病理组织分类任务中的准确性评估。我们采用了均值与均方差来记录初始标注数据集以及后续主动学习阶段的测试性能数据,并将最佳表现与第二名的结果分别以红色字体(#1)和蓝色字体(#2)突出显示。

表7展示了二元皮肤病变分类中不同主动学习方法的AUC值。本研究报告了基于ISIC 2020数据集初始标注样本的测试性能评估,并计算了各主动学习轮次中的平均值及其方差。其中最优及亚优策略分别以红色与蓝色加粗显示。

6.1.5实施细节
对于所有分类任务来说
我们采用了五级U-Net架构(Ronneberger等人, 2015年)来进行图像分割任务。该架构中编码器或解码器每个层级均包含两个模块化组件:每个模块均由二维卷积操作、概率为0.1的Dropout层、批量归一化技术和带有泄露ReLU激活函数的部分构成。为了衡量分割性能,我们综合运用了交叉熵损失函数与Dice损失函数作为分割总损失函数。在优化过程方面,我们采用了Adam优化算法(金马和巴, 2014),并设置了批量大小为32的数据集,在经过4,000次迭代训练后达到了最佳收敛效果。学习率设定为恒定值0.001,并采用多项式衰减策略来调节学习率随训练迭代次数的变化趋势。在数据预处理阶段, 我们应用了多种增强手段, 包括随机翻转、旋转90度以及任意角度旋转等技术以提升模型泛化能力
基于NVIDIA GeForce RTX 3090与4090的GPU平台进行实验,并采用CUDA 11.3版本作为支持环境。基于Python 3.8.10版本的代码开发采用了PyTorch框架的最新开发版实现
6.2.实验结果和性能分析
6.2.1病理组织分类的主动学习结果
首先对主动学习技术在病理组织分类任务中的性能进行了评估,并将测试准确度的结果显示于表格6中。保证金指标在低预算条件下表现出良好的效果,在高预算条件下则出现性能下降的情况。其原因在于该方法通过分析同类样本的误判信息来优化决策过程,并借鉴了Hu等人(2023)提出的BADGE算法的基本思路。然而,在高预算场景中该算法的表现略显不足,这可能提示,在训练集与测试集分布发生偏移的情况下,梯度嵌入策略对于主动学习的效果有一定局限性。本节的研究结果促使我们进一步探讨主动学习方法在分布偏移情况下的通用适用性。
6.2.2皮肤病变分类的主动学习结果
我们对ISIC 2020数据集进行了全面评估,并注意到该数据集对应了一个严重类别失衡的二元分类问题。
测试拆分计算得到AUC值如表7所示。
值得注意的是,在二元设置中置信度与保证 margins 是等价的,
因此我们仅报告前者的结果。
在预算较低的情况下,
代表多样性 的方法或具有改进多样性的方法相较于基于不确定性的策略更受青睐。
对于基于不确定性的所有方法,
BADGE凭借其增强多样性的聚类操作,
在某些轮次中表现突出。
对于高预算,
Core-Set变体仍展现出竞争力。
然而,
随着预算增加,
基于不确定性的方法表现出更强的能力。
这些结果凸显了注释预算对不同策略性能的影响:
较高预算适合于基于不确定性 的方法,
而较低预算是代表多样性 方法的理想场景。
表格8展示了心脏MRI分割中不同主动学习策略的平均性能评估指标——包括DSC(定量化组织分割系数)与ASD(平均距离偏差)。我们基于均值与方差分析得出初始标注数据集下的ACDC模型与其他轮次性能对比的结果。其中最佳表现以红色加粗显示,次优结果则采用蓝色加粗标注。

6.2.3MRI心脏分割的主动学习结果
针对分割任务,在ACDC数据集上进行了详细评估不同主动学习(AL)方法的效果。研究发现,在表8所展示的结果中,BADGE算法在多个周期的平均 Dice系数(DSC)指标中表现优异,取得了最佳或次优的成绩。当处理预算有限场景时,核心集策略在前期不仅表现出良好的平均 DSC 和 Hausdorff 距离(ASD)性能,同时也显著提升了采样多样性水平。然而,随着训练过程的深入发展,基于不确定性采样和随机抽样的策略开始展现出更高的平均 DSC 和 ASD 水平提升效果这一观察结果与之前章节的结论是一致的
6.2.4图像之间不同距离的有效性
在AL系统中进行距离测量是一项关键任务,在此过程中可能会显著影响该算法的性能。在本节中我们将考察AL体系中最常用的距离指标及其表现 这些指标都是基于样本特征向量的设计 令x表示样本及其对应的特征向量\mathbf{z}=[z_1,z_2,…,z_d] 其中d为特征维度 基于上述特征向量 我们将计算两个图像之间的L2距离如式(1)所示: \mathrm{L2}\left(x{a},x{b}\right)=\sqrt{\sum_{i=1}{d}\left(z_{i}{a}-z_{i}{b}\right){2}}
而余弦距离为:
Cosine(x^a, x^b) 等于 1 减去 (向量 z^a 和向量 z^b 的点积除以它们模长的乘积),而该值又等于 1 减去 (从 i 等于 1 到 d 的求和 z_i^a 乘以 z_i^b 的平方根之商)
为了进行实验,我们将Core Set中的L2距离替换为余弦距离。
图6展示了NCT-CRC-HE-100K数据集上对Core-Set-L2与Core-Set-Cosine性能的对比分析结果,在ISIC 2020测试集上发现,在早期计算轮次中L₂距离表现出更为优异的表现特征;这一现象表明其具有快速初始化模型的能力;然而随着预算水平的提升,在较大预算是一个关键转折点时; Core-set Cosine方法开始展现出显著的优势;同样地,在ACDC数据集上的实验结果显示:即使是在早期计算轮次中; Core-set L₂方法仍然优于Cosine-based Core-set;但随着样本数量增加到一定程度后;两者的性能表现趋于一致;这些实验结果表明:在医学图像分析任务中采用基于距离度量的主动学习(AL)方法表现出良好的效果;具体而言;对于低预算场景来说; L₂距离可能是一个更为合适的选择;而在较大预算是一个关键转折点的情况下;Cosine-based Core-set可能成为更适合的选择

图表6展示了在三个主要数据集上L2距离与余弦距离之间的性能对比。本研究采用Core-Set方法作为基础算法进行实验分析。
7. 课题与未来展望
当前的数据标注不足已成为制约医学图像分析发展的主要障碍。主动学习(AL)通过有选择地查询信息含量最高的样本进行标注,并实现了更高的标注效率。本调查系统性回顾了深度主动学习领域的最新进展,并特别关注于以下几个关键方面:首先是对信息量评估的研究;其次是对采样策略的优化;再次是对与其他高效标签技术整合方法的探讨;最后是对主动学习技术在医学图像分析中的实际应用情况进行了深入分析。本节将重点探讨主动学习技术在医学图像分析领域所面临的主要挑战及其未来发展方向。
7.1. 走向具有更好不确定性的主动学习
在AL框架内,不确定性扮演着至关重要的角色。然而,在某些情况下(即当不确定性更加直接地凸显了模型的错误时),这种情况是有益的。我们可以通过系统性地查询那些具有不准确预测特性的样本来系统性地提高模型性能。
近年来的研究已广泛采用可学习性能估计技术来对深度模型输出的质量进行监控。例如,在医学图像分析领域中自动化的质量控制对于保障深度模型输出结果的可靠性和安全性具有重要意义(科尔伯格等人, 2012)。例如,王等人。(2020d)在心脏MRI分割任务中应用了深度生成模型来进行可学习的质量控制,在预测的 Dice 分数与真实分数之间显示出高度线性相关性。此外,Billot等人(2023)则通过引入额外的人工神经网络来预测脑组织分割结果中的 Dice 系数值。综上所述,在这种背景下基于不确定性的主动学习方法能够准确预测模型输出的质量特性;因此深入探索这些方法如何有效缓解过自信问题具有重要的理论意义。
此外,在缓解模型过度置信的问题方面,概率校准是一种具有潜力的方法。在这一领域中,在提高预测可靠性的方面取得了一定进展的研究表明,在缓解模型过度置信的问题方面概率校准是一种具有潜力的方法。在这一领域中,在提高预测可靠性的方面取得了一定进展的研究表明
第3节所提及的所有方法3.1
7.2. 迈向更具代表性的主动学习
代表性的主动学习方法充分运用了特征表达与数据分布特性来进行样本选择。覆盖类型的主动学习与差异类型的主动学习则通过间接反映数据分布特性。相比之下, 基于密度的概率模型所进行的数据聚类后直接计算其概率密度. 但后者仅靠简单的策略难以保证足够的多样性. 对于差异类型的主动学习, 我们可以采用两个概率分布之间距离的更好度量(赵等, 2022)。此外, 在医学图像分析中的应用尚不广泛. 考虑到医学图像的独特性, 寻找适合医学图像的数据相似度度量标准可能成为人工智能在未来在医学成像领域发展的一个重要方向.
基于密度的方法构成了AL的核心,在这种复杂的空间环境中进行概率分布建模仍然面临诸多挑战。常用的用于估算概率分布的方法包括核密度估计和混合型高斯模型(GMM),但这些方法在处理高维数据时往往面临性能瓶颈,在未来的研究中应当着重探索适用于高维数据的概率建模技术;其中一种有潜力的方向是归一化流模型(Papamakarios等人, 2021年),这种模型可能成为解决这一问题的有效方案
7.3. 走向弱注释的主动学习
在本节4.3中, 我们将探讨基于区域的主动学习方法, 其核心特征在于仅需对样本进行区域级注释即可实现目标识别功能, 而无需深入标注区域内每个像素点的信息。当前已有研究尝试将弱标注技术与主动学习相结合, 以减少注释负担并提升效率。在目标检测领域, Vo等人(2022)提出了一种基于图像级别的标注策略, 通过框内边界框预测结果来辅助模型训练。他们选择具有显著框内预测效果的对象进行详细标注, 这种方法显著提高了训练效率的同时保证了模型性能表现。随后,Lyu等人(2023)则采用分歧机制来优化对象选择过程, 即仅需对具有代表意义的对象进行框级标注即可满足需求, 这种策略有效降低了整体标注难度并提升了标注效率。针对实例分割任务中的主动学习问题,Tang等人(2022a)提出了一种只需标注对象类别及边界框的新方法, 完全避免了繁琐的细粒度分割掩码操作, 这一创新思路为后续研究提供了新的思路方向
7.4. 通过更好的生成模型实现主动学习
在部分4.4中, 我回顾了生成模型在AL领域的应用现状。当前的研究主要聚焦于基于GAN的技术作为样本生成器, 但这一领域已取得显著进展。近期, 扩散模型(Kazerouni等人, 2023年)凭借其卓越的生成质量获得了突破性发展, 并带来了根本性的转变。此外, 基于稳定扩散(Rombach等人, 2022年)的方法不仅提升了图像质量, 还实现了更具灵活性的图像合成能力。通过借助ControlNet框架(张等人, 2023a), 扩散模型得以深入理解和遵循更为复杂的条件设定, 如草图指示或分割掩模等细节信息。探索深度AL中扩散模型的应用前景正成为未来研究的重要方向之一
7.5. 通过基础模型实现主动学习
随着视觉基础模型的兴起而出现新的研究方向与技术突破,在这一领域中我们可以看到多个具有代表性的研究范式和发展路径。具体而言,在对比语言-图像预训练(CLIP)等([拉德福德等人, 2021]...)以及山姆([Kirillov等人, 2023]...)和大型语言模型(LLM),如GPT-4([OpenAI, 2023]...)的基础上,在医学图像分析与计算机视觉领域的深度学习正经历着范式的转变。值得注意的是这些基础研究不仅为艾尔的发展提供了新的机遇而且推动了相关技术的进步
AL在计算机视觉及医学图像分析领域的深度学习训练模式中扮演着重要角色。涵盖自监督预训练模型辅助下的"预训练-微调"策略及其从零开始的初始方法之间存在显著差异。基础模型所承载的知识极为丰富,在结合最近提出的参数有效性微调(Peft)或快速调整技术(胡等, 2022年, 贾等人, 2022年))时,则仅可微调模型权重中最小比例(如5%)以迅速转移至下游任务。当微调参数数量缩减时,在一定程度上AL可能进一步降低所需标注样本的数量(白等人(2023)在肝脏肿瘤分割领域进行了相关研究,并将快速调整技术融入其中。通过新型提示更新器将基于公开可用数据集分割的模型转移到内部数据集上进行优化。采用融合不确定性和多样性的混合型AL策略,在仅使用约5%样本及6%可调参数的情况下达到了与完全监督调整相当的表现水平([胡等, 20XX]([白等人(XXXX)]([贾等人, XXXX])))。因此,在现有条件下探索PEFT或其他快速调整技术下AL的有效性具有重要意义,并需聚焦于PEFT最适合哪种类型的AL策略。
在自然语言处理领域中, 大多数研究者已经广泛使用大型语言模型 (LLM). 由于大多数研究者无法对LLM进行微调, 他们主要依靠自身经验进行学习, 这一过程为LLM在复杂任务中的应用能力提供了限制. 我们相信, 视觉上下文学习将拥有巨大的潜力, 并将在未来的研究中发挥至关重要的作用. 因此, 如何设计有效的提示信息以促进视觉上下文学习将成为人工智能领域的关键研究方向之一.
8. 结论
深度神经网络技术在医学图像分析中发挥着重要作用。
因为其能够有效降低人工标注的成本。
本次研究全面回顾了基于深度神经网络技术的核心方法。
这些方法结合了高效的多标签技术,并为医学图像分析量化的个性化设计提供了支持。
通过对不同医学影像数据集和任务进行的实验性评估,
我们得出了各方法在实际应用中的表现情况。
我们进一步探讨了当前面临的技术挑战以及未来的发展方向。
总结而言,
深度神经网络技术和其在医学图像分析中的应用具有重要的学术价值,
并且具有巨大的应用潜力和发展空间。
