Advertisement

Switching Temporary Teachers for Semi-Supervised Semantic Segmentation 论文阅读

阅读量:

naver-ai/dual-teacher: 官方代码集用于实现2023年神经信息处理学会论文《切换暂时教师:半监督语义分割中的应用》(github.com

该论文提出了一种创新性算法,在实验中经过详细验证显示出良好的性能特征,并在理论上对其收敛性和稳定性进行了严格证明。该方法能够在有限的计算资源下实现高效的资源分配策略,在实际应用中展现出显著的优势;经过实验验证表明该算法能够在有限时间内完成复杂问题的求解任务;实验证明该方法能够显著提升计算效率的同时保证系统的稳定性与可靠性

在流行于半监督语义分割领域的师生框架中(...),主要基于学生的权重进行指数移动平均(EMA)更新单个教师的权重;然而(; ; ;),EMA更新确实存在一个问题(; ; ;),即(; ; ;)教师与学生的权重正在耦合(; ; ;),从而导致潜在的性能瓶颈(; ; ;)。此外(; ; ;),当采用更为复杂的标签(如分割掩码)进行训练时(; ; ;),这一问题可能会变得更加严重(;;;),但注释数据相对匮乏(;;;)。本文提出了一种简单而有效的解决方案:即通过引入双临时教师来缓解学生与教师之间的耦合问题。(;;;)具体而言(;;;),双临时教师会轮流工作并逐步提升能力(;;;;),从而始终防止两者过于亲密。(;;;;)具体而言(;;;;),两个临时教师会周期性地轮流生成伪标签用于学生模型的训练,并在每个阶段保持学生模型鲜明的特征。(;;;;)因此,在PASCAL VOC、Cityscape和ADE20K基准测试中与最先进的方法相比(;;;;),所提出的Dual Teacher方法不仅具有竞争力(; ;; )而且训练时间显著缩短。(;;;)此外我们证明了所提出的方法具有模型不可知性,并且能够与基于CNN和transformer的模型兼容。(;;;;)完整的代码已可通过https://github.com/naver-ai/dual-teacher获取。

1 Introduction 介绍

近年来深度神经网络技术的进步推动了计算机视觉领域的快速发展,在这一过程中语义分割作为视觉理解的关键任务之一也持续得到优化与创新[8,9,55]。传统的基于监督学习的方法虽然有效但仍然面临数据标注耗时高昂的问题。为缓解这一挑战半监督学习方法逐渐受到研究者的广泛关注[22,36,41]。其中成功的关键在于如何从未标注数据中获得可靠的一致标签尤其在复杂任务中表现更为突出[17,26,41]。伪标记法因其简便易行而成为主流选择将现有模型预测结果直接用于未标注样本作为伪标签进行训练这种方法虽然简化了流程但也暴露出潜在缺陷即教师模型权重与学生模型存在直接关联可能导致性能下降[17]这一问题被称为教师-学生耦合问题已被广泛讨论并提出多种解决方案以缓解这一挑战[17,16,6]。然而由于计算需求与可扩展性的限制单独引入另一个深度神经网络并非理想选择为此我们提出了一种创新性框架——双教师框架通过交替管理教师与学生模型的关系从而有效规避耦合问题同时保证两组教师模型间的独立性与协作性。

图1: 半监督语义分割框架。(a)教师模型为学生模型生成伪标签,并同时采用学生的权重进行指数加权移动平均更新。(b)双模学生不仅具备两种不同的学习模式,且能够彼此轮流担任教师角色。(c)我们的"双轮式"教师团队根据需要进行交替安排以完成教学任务。

Semi-supervised学习。 半监督学习(SSL)方法明显受益于一致性正则化[2,31]和伪标记[22],一致性正则化鼓励模型在输入受到干扰时产生相同的预测。伪标记法使用模型的预测作为标签进行训练。最近,半监督学习方法[2,3,32]表明一致性正则化和伪标记可以和谐地协同工作。最重要的是,FixMatch[32]从弱增强的未标记图像中生成预测标签,并在将相同图像的强增强版本输入同一模型时将其用作伪标签。在利用SSL中的未标记数据时,这种简单而有效的方法在最近的研究中被广泛使用。半监督语义分割。最近半监督语义分割方法的成功可归因于一致正则化和伪标记的有效结合。例如,CPS[6]和GCT[16]构建了两个具有相同结构的并行分割网络,并对相同输入的不同初始化的两个网络施加一致性。最新的作品[41,26,15]没有使用两个不同的网络进行繁重的训练,而是采用了一个师生框架,其中只训练学生模型,通过学生模型的EMA来更新教师模型。在这个简单的框架,GTA-Seg [15], U2PL[41]和ReCo[24]引入了额外的表示头,GTA-Seg进一步附加了一个与学生模型相同大小的教师助理模型。另一方面,产生标签保持扰动的简单有效的数据增强[49,29,50]在半监督语义分割的一致性正则化中发挥了关键作用[6,41,24,46]。此外,AEL[13]和AugSeg[53]通过引入更先进的自适应数据增强技术,有助于提高性能。然而,与之前的研究不同的是,我们在没有任何横向网络或复杂数据增强的情况下,通过在新颖的师生框架中利用基本增强实现了相当的性能。同时,PS-MT[26]提出了一种集成策略,利用多个教师来提高未标记图像的分割精度。相比之下,我们不是将它们组合在一起,而是以顺序和独立的方式使用多个教师模型。这种方法确保了每一种具有不同特征的教师模式都对学生模式有明显的贡献。整体学习。网络集成[19]因通过组合不同模型的输出来改进模型预测而受到欢迎。最近的研究[21,52,42]已经成功地通过模型集成提高了性能;也就是说,对单个模型进行训练,使其多样性最大化,从而使集成模型不太容易过度拟合。尽管这些直接的显式集成方法已经显示出显著的性能改进,但它们都有承担计算和内存成本负担的缺点。显式集成的影响也被间接利用,通过dropout[33]、dropconnect[40]或随机深度[14],通过激活网络的一个子集来训练单个网络,因此,完整的网络可以被视为训练后的子网络的隐式集成[34,37]。特别有趣的是,Temporal Ensembling[20]使用在不同时期在不同正则化和输入增强下训练的网络输出,形成了对未标记数据的一致预测。在此方法的基础上,Mean Teacher[36]用学生模型的EMA权重更新了教师模型,而不是作为集成视角与学生模型共享权重。尽管这个师生框架显示出了显著的影响,但一个关键问题是耦合问题,其中紧密耦合的权重会降低性能。或者,我们通过引入双临时EMA教师来解决这个问题,这些教师利用临时和隐式集成视角。

3 Method 方法

3.1 Preliminary 初步

师生框架[36]是一种广泛应用的方法,在半监督学习领域得到了广泛关注。该方法通过未标记数据来提升模型性能,具体而言,在半监督语义分割任务中展现出显著的优势(如图1 (a)所示)。该框架由教师模型与学生模型组成,在这一架构下(如图1 (a)所示),每个子模块均包含编码器与解码器两个组件。具体而言,在半监督语义分割任务中(如图1 (b)所示),我们主要关注于如何利用少量标记样本对目标类别进行分类训练(如图2所示)。具体来说,在这一过程中(如图3所示),我们首先使用未标记样本对教师网络进行预训练;随后利用预训练好的教师网络作为知识蒸馏的 Teacher, 通过对比 teacher 的输出与 student 的输出之间的差异来进行微调优化;最后再利用标注样本对 student 进行进一步的微调优化以提高分类精度

式中,在训练批次中具有分辨率为H×W且被标注的对象图像数目为l_{i,j};Lce则代表了应用于第i个被标注对象图像上、每个像素点j处所计算出的一个逐像素交叉熵损失值。其中p_{1,i,j}是对学生模型所赋予被标注对象图像的结果预测;y_{1,i,j}则是相应被标注对象图像的真实标签映射结果。在本研究工作中,默认地将这种有监督的学习损失整合到学生模型架构之中;而未被标注的数据所对应的无监督学习问题将在下一小节详细阐述。教师网络参数θ_t通过采用学生网络参数θ_s经过指数移动平均(EMA)算法计算得到:

半监督语义分割技术近年来备受关注。在半监督语义分割过程中,复杂的数据增强技术和网络架构设计对于提高像素级标签处理的有效性具有关键性作用。然而,在面对有限数量的训练实例时(相较于丰富的掩码标签而言),如何优化模型性能仍需进一步探索与突破。我们主张应采用比半监督学习更具多样化的学生模型分类策略来应对这一挑战。此外,在综合运用繁琐的数据增强技术[13,53]和额外的头部结构[41,15,24]时(例如结合多尺度特征提取),可能会对整体效率产生不利影响而限制其潜力的最大化释放。重新审视时间序列预测方法的基础上开展研究工作是我们的出发点:我们研究工作受到时间序列预测方法[20]启发,在通过对不同时间段进行特定正则化处理获得集合预测的基础上实现了单模型内隐式集成效应(即所谓的间接集成预测)。这一集成预测机制在每个训练epoch结束后都会将网络预测结果逐步累积起来形成最终集成预测结果。然而由于该过程因训练速度较慢而受到质疑:每次epoch仅更新一次集成预测结果;我们重新评估并论证其作为一种有效手段来注入多样性以解决耦合问题的优势所在。

3.2 Dual Temporary Teacher 双挂职教师

在半监督语义分割的背景下,我们的目标是缓解耦合问题[17],该问题是由传统的师生框架中使用的单一EMA更新例程引起的。在改善教师模式的关键因素[17,32]中,我们主要注意到的一个因素是学生模式的多样性,正如之前的作品[17,25,44]所指出的那样。我们努力防止教师模式和学生模式在培训过程中变得过于相似,通过建立学生模式的多样性来增强教师模式的良性循环。反过来,改进后的教师保留了学生的不同观点,有效地指导了学生的模式。 由于学生更新了每一位EMA老师,因此,由于整体效应,教师在使学生多元化的同时也得到了提升[19,36]。强化后的教师模型可以为学生模型提供更精细的监督信号。
从这个角度来看,我们引入了一个简单而有效的框架——双重教师:一种临时EMA教师模型交替生成伪标签来指导学生模型的方法;同时,学生模型使用自身权重的指数移动平均更新教师模型的权重。我们声称,引入额外的EMA教师通过提供独特和多样化的监督来促进学生的多样化。如图1 (c)所示,双教师由一对师生模型组成,其中两个临时教师模型在训练期间的每个时期都被切换,以教授单个学生模型。
与之前的研究相似[32,26,41],我们采用强增强图像作为学生模型的输入,弱增强图像作为教师模型的输入 ,以确保伪标签的可靠性。然而,与传统的依赖单一永久教师模式的师生框架不同,我们引入了每个时代交替激活的双临时教师,为学生模式提供了多元化的指导。临时的EMA教师获取学生模型的不断发展的时间知识,在不同的时间步长表现得像一个时间集合。
强增强池。为了使学生模式更加多样化,我们超越了仅仅依靠EMA教师模式,尽管有交替的双重教师。为了进一步确保多样性,我们在每个时代转换临时教师模型时,通过改变应用于学生模型的强增强类型来提供多样性。 我们通过构建一个预定义但不确定的强增强池来实现这一点,包括精细类级和粗糙区域级增强(即ClassMix[29]和CutMix[49])1。每个训练历元从池中随机抽取一个增强,约束了连续历元不使用相同的增强。
更新学生和老师。简而言之,临时教师模式的使用有助于将多样性引入学生模式,而学生模式所获得的多样性特征有助于教师模式的增强。形式上,学生模型的目标函数定义如下:

其中Bu代表用于训练的一批未标注图像的数量尺寸为H乘W 在第i个图像中的第j个像素位置 使用经过强增强处理的未标注输入的学生模型能够生成pu_ij值 并从教师模型获得相应的伪标签y_u^ij λu被视为调节无监督损失权重的重要超参数 每个时间段都将启用一名临时教师 并通过EMA机制保持学生特征 第k位暂时 teacher(k属于1到tn)将在每个时间段轮流切换状态 基于学生的当前参数θ_s 根据公式(2) 采用EMA方法更新每位暂时 teacher 的相关参数θ_k^t

3.3 Implicit Consistency Learning 内隐一致性学习

我们从一致性正则化的视角出发,在现有研究的基础上引入了一种新的隐式集成方法以提升学生模型的表现。基于[14,38,10]的研究成果,在学生模型及其相关子模型中推广了一种激励机制促使特定层子集保持活跃状态,并进一步促进该层子集在各个子模型中的活跃度以实现一致性的预测结果。值得注意的是,在先前的研究中[38,2]仅要求完整教师模型与其内部各子模型之间的预测保持一致性而我们在此基础上提出的新方案则是要求学生教师之间与教师各分支模块之间的预测表现具有一致性这一创新点使得提出的方案更具适用性和普适性我们可以利用多用途随机深度这一技术构建具备多任务能力的学生教师架构使其能够适应从基于卷积神经网络到基于Transformer架构的各种深度学习框架因此我们通过设计以下目标函数来进行系统的优化与训练:

在式中, θs表示掉落比例τ的学生模型子模型参数,其中B代表训练批次中的图像数量。特别地,在此研究工作中,默认情况下仅对教师网络和学生网络的输入施加弱化增强处理,这一做法与方程组(Equation)3中的处理方式不同:方程组(Equation)3则采用了不同的策略,即针对学生的强化学习方法结合 teacher-student知识 Distillation框架进行数据增强处理。最后,最终所提出的损失函数将被整合到Lunsup框架下协同优化学生的网络参数更新过程。

全部评论 (0)

还没有任何评论哟~