自监督论文阅读笔记 SAENet: Self-Supervised Adversarial and Equivariant Network for Weakly Supervised Object D
SAENet:用于遥感图像中 弱监督目标检测的 自监督对抗和等变网络
Abstract :
大部分研究倾向于基于对影响最大区域的利用来优化检测模型,并由 目标最具鉴别力的部分 主导这一过程。然而这类方法忽视了同一图像在不同空间变换下的内在一致性,并且总是使用不同的类别标签来标识这些变化区域,在这种情况下容易产生分类模糊性。
为了解决这些问题, 本文提出了一种独特的自监督对抗等变网络 (SAENet), 旨在学习RSI中WSOD任务中视觉模式的互补性与一致性。为此而言, 我们设计了一个具有自我适应特性以突出关键区域并抑制干扰区域的抗干扰激活机制, 从而增强整体目标检测效果。
此外,在基于多种空间变换的情况下 开发了一种灵活的新机制。
从大量RSI中为每个实例手动标记极其精细的注释会耗费大量精力、耗费宝贵时间甚至难以实现。为了降低繁琐的人工标注负担,近年来已经广泛研究了弱监督目标检测(WSOD)。
基于一系列先进的方法 [6, 22-31] ,首先通过多实例学习(MIL)约束将 WSOD 问题转化为多标签分类问题,并将其冗余目标建议作为输入特征。随后认为具有最高影响力的建议被视为伪实例级标签以便构建性能更优的目标检测器。
本文的工作还遵循上述 两阶段策略 来训练 端到端 MIL 网络。
WSOD 方法有两大障碍 需要立即解决。
以前的 WSOD 方法主要倾向于 过分关注关键目标区域 而不是整个目标域, 进而导致 部分支配问题得以出现. 这一现象成为 WSOD 方法与完全监督学习间显著性能差距的主要原因之一. 当处理具有 复杂背景 的 RSIs 时, 这些方法的表现会进一步下降.
现有方法也 未考虑不同图像的数据增强间的统一性。然而,在实际应用中的一些常见数据增强手段(如图像翻转与缩放操作)往往会导致显著的不同结果,并在弱监督学习场景中 可能导致模型误判 ,因为同一实例经不同空间变换后可能被误判为不同的类别。
对于完全监督范式而言,在存在不一致的情况下也不必过于担忧。这是因为 instance-level labels 直接引导至一致性。
针对第一个障碍问题,《抗性 drop out 激活(ADA)块》被提出以解决这一挑战。该结构旨在鼓励检测模型去激活整个目标区域而非仅仅关注那些高度有别能力的部分。具体而言,《参数空间 drop out 块》被引入以便通过自适应的方式抑制那些高度有别能力的区域从而实现抗性的最大效果。随后《激活块》被进一步引入以利用跨通道交互来提取与特定实例相关的特征《参数空间 drop out 块》与《激活块》之间的协作形成了一个有效的抗性机制从而能够突出显示目标特征并为训练更加鲁棒的目标检测器提供了有力支持。
为了克服第二个障碍,在此基础上我们进一步开发了一种新颖灵活的自监督变换等方差(SSTE)机制,并确保具有不同空间变换的同一实例能够实现信息交互
经过特定变换处理后, 同一组图像中的不同变换版本会被同时输入到检测框架中. 通过等方差正则化处理从不同变换图像中提取出的正样本特征, 可以获得空间一致性的自监督学习效果.
接下来,在获得监督信息后将其应用于学习阶段,并采用一种通过强制手段使具有多个空间变换的不同实例彼此靠近的方法来构建目标检测器。基于此,在不管实例之间的转换如何的情况下都能够提取更加鲁棒且独特的特征,并进一步提升WSOD在RSI环境下的性能表现。
ADA 与 SSTE 的联合协作 开发出一种灵活的 全连接自监督对抗网络(SSAN)与等变网络(EquivNet)结合使用的端到端模型 (SAENet)
ADA 旨在通过 对抗机制 强制 检测器模型 追踪整个实例;
SSTE 专注于 捕获更一致的信息 并 减轻空间转换引入的潜在歧义。
Contributions :
本文提出了一种基于 对抗式架构 的独特且具有学习能力的 ADA块 ,能够有效地激活整体目标。
• 开发了一种新颖灵活的 SSTE 机制 来解决不同空间变换引入的潜在歧义。
全面的研究性定量与定性分析结果明确显示了该网络(SAENet)在提升现有最佳结果方面所表现出的显著优势。
多实例学习 :
在MIL中, 目标提议方法通过为每个训练图像创建 目标提议 而被划分为不同的 类别. 然后 逐步地 选择来自 每个正样本 的 高分提案 来学习相应的检测器. 多种 先进 的 WSOD 方法被提出并取得了显著进展. 然而, 由于 RSI 的 复杂程度 和 混乱 的 背景 , 上述工作不能直接用于解决 RSI 中的 WSOD 问题.
该文献提出了一种创新性的实例提取方法[29]。通过基于负样本的迭代过程不断精炼出相应的正样本,并随后优化相应的目标检测器以解决RSI中的WSOD问题。该研究首次在弱监督框架下探索解决RSI中的目标检测问题。
自监督学习 :
该自监督特征增强方法主要应用于大规模图像物体检测领域,并主要通过采用不同比例下采样图像作为输入的方式,在自监督学习框架下生成更多可比较的特征。
我们的工作受到 [43]的启发。
相较于以往研究,在本文中首先构建了一个 新的ADA模型 ,致力于实现 全物体范围 的目标。此外,开发了一种灵活的 自监督机制 ,用于检测模型从各种变换图像中 识别出的正实例 ,而非专注于捕获图像内容的具体细节。本文提出的方法是首次尝试解决弱监督环境下 RSI转换问题 的解决方案。

图1展示了SAENet 的可视化解析结果。针对RSI中多重空间变换引入的部分控制与潜在歧义问题,在本文中我们首先通过自适应地隐藏最具辨别力的区域来实现对目标的有效追踪;随后通过强制不同转换下的相同实例间的信息交互进一步优化目标识别效果;最后我们成功缓解了空间转换带来的歧义问题。
模糊监督机制与实例级目标检测器之间存在显著冲突,在这一过程中导致定位过程出现不稳定现象。该机制通过干扰计算机视觉模型的训练过程使其倾向于聚焦于RSI中最能辨别的区域,并在处理复杂的背景环境时也表现出明显的局限性。
同时
同时
同时
同时
同时
同时
为了针对这些难题,在研究领域中开发了一种全新的 SAENet 系统。该系统的主要目标是缓解部分控制问题,并且其核心机制在于通过识别并融合互补与一致的特征模式来实现对转换后不变的目标检测器进行系统性学习。
具体来说,随后构建了ADA模块。通过抑制最具辨别力的区域,并激活其余与实例相关的区域来捕获互补模式。从而能够提取整体特征数据以训练更加稳健的目标检测器。
然后,在SAENet中通过引导不同空间变换下的同一实例之间的互相通信,并强制它们形成紧密关联的方式进行操作;这样一来,在这一过程中就能够学习到更加一致且独特的特征以进一步提高目标检测器的效果
ADA 块:由于缺乏实例级标签,在当前的 WSOD 方法中会偏向于识别出目标中最能区分的部分。
抑制最具判别性的区域 有一些缺点 :
现有的 dropout 操作对连续区域的效果较差 ;
舍弃关键区域,在某种程度上会影响特征表达,并可能将杂乱无章的背景当作目标进行处理
因此,在对抗范式的框架内设计的ADA块旨在根据需要隐去判别区域,并激发与实例相关的剩余区域以捕获互补模式。

图2展示了参数空间中的随机缺失机制块,在识别度最高的区域进行零点设置以影响模型行为,并使得该区域在对抗测试中尽可能提高目标指标。

通过设计一个激活块来突出与实例相关的区域以防止由判别域引入的杂乱背景控制问题
该方法表明,在采用降维策略时能够获得更高效的通道注意力机制;通过引入适当的跨通道交互机制可以显著提升模型的性能指标,并有效降低计算复杂度
通过结合 dropout 和 activation modules 的设计策略来实现一种对抗机制。其中 dropout module 的作用是通过抑制敏感特征区域来降低模型对这些特征的依赖;而 activation module 则专注于增强与实例信息相关的区域;这种双重设计有助于使目标检测器能够更准确地识别并追踪整个目标物体。
SSTE机制 :
对于相同的输入图像来说,在空间变换时会带来与各类之间特征分布不相关的新特征变化。由于WSOD方法在面对不同类别下的不同空间变换时总会标记相同的实例这一现象会导致检测器出现严重的问题从而严重削弱了检测器的区分能力为此我们在本文中提出了一种基于弱监督学习的SSTE机制即 WSOD模型预测的具体实例标签不应受到空间变换的影响
如图 1 所示, 所有的 proposal 特征被划分为 两个独立的功能模块 称为 MIL 模块与检测模型, 用于生成分类分数 Xc ∈ R^{H×C} 和检测分数 Xd ∈ R^{H×(C+1)}。
对于图像中的每个类别c(yc=1),我们首先利用MIL模块筛选出得分最高的候选框以确定具有最高置信度的区域。然后,在这些候选框中挑选那些与目标区域有足够的空间重叠度,并且与其他候选区域的空间重叠较低的部分,并将前者标记为正样本和后者标记为背景区域。
一方面,标记的实例 被定义为 伪实例级标签 来学习检测模型。
另一方面,还引入了一种 SSTE 机制 来促进一致的 目标检测器学习。
基于前面所述的潜在等变约束 ,我们可以实现额外的自监督能力。经过几何变换后的实例仍能保持一致的标签。
本文提出了一种简单的但高效的等方差正则化方法 ,该方法通过基于自监督的方式使具有多个空间变换的相同实例被强制映射到相近的空间位置上 。因此,在特征提取过程中能够更好地捕获更加丰富且独特的表征信息 ,从而构建出更具鲁棒性和空间一致性目标检测器

空间变换是在网络前馈之前进行的,它们共享同一个网络 。
模型训练的损失函数 :




MIL损失 LossMIL 用于粗略诊断实例的定位 ,
等方差正规化
检测模型 LossDet 来促进精确的目标定位。
实验 :
CorLoc被用作评估训练集定位精度的一种方法;AP被用来衡量测试集上物体检测准确性的一种指标。
消融实验:
ADA :
1)Dropout block 可以在一定程度上缓解WSOD中的part domination问题。
2)通过将Dropout模块与激活模块协作 可以 具有自适应能力地追踪与实例相关的区域,并 进而 减轻因判别区域的丢失而引入的背景噪声的影响。
等方差正则化能够有效促进检测模型识别变换导致的特征变化。它还确保了前后特征通过映射保持对应关系。从而可以在一定程度上减轻不同变换带来的潜在不一致性。
显著提升的主要原因是本文提出的方法能够有效地应对由RSI中的多重空间变换所引入的局部控制以及潜在的空间歧义问题。
我们获得了与某些完全监督方法相当甚至更为出色的表现,并且弱监督与全监督的目标检测性能差距进一步收窄
尽管平均性能尚可,在实际应用中,“烟囱”与“储罐”的检测性能因其特殊的形状特点未能得到明显提升。此外,在准确检测的关键领域中,“桥梁”、“大坝”以及“立交桥”等类别的表现同样不尽如人意。这种现象的主要原因在于缺乏足够的监督信息会误导模型去寻找共存的目标或特殊的背景环境。在实际操作中,“模型容易将更具视觉吸引力或体积较大的特殊背景误认为是目标主体”。这也成为RSI中的另一个挑战问题,在一定程度上削弱了这类目标对象的检测效果。
总之,与基线方法相比,本文在准确性和速度之间取得了更好的平衡。
本研究提出的方案能够精准实现目标任务,并全面涵盖所需处理的内容。然而,在应对小型物体及其与复杂共存场景的共同挑战方面仍面临着诸多困难。单类检测的失败主要源于检测模型倾向于将显眼的且面积更为庞大的特殊共存背景作为首要关注对象。未来的研究工作重点将探索如何通过引入因果干预来解决上述难题。
Conclusion :
本文构建了一个SAENet 来捕获 RSI 中 WSOD 的互补和一致的 视觉模式。
具体而言, 本文首先阐述一个 ADA块 的概念, 旨在促进检测器模型通过 自适应地隐匿最具鉴别能力的部分 并 强调与实例相关的区域来进行目标追踪.
此外,在经过多种图像变换之后的应用中引入了 SSTE 机制 ,从而实现了额外的自监督学习效果 。该机制促使从转换后的图像预测的检测模型达到了高度一致性,并能够提取出更具鉴别性的特征以进一步提升目标检测系统的鲁棒性。
