自监督论文阅读笔记 Multi-Task Self-Supervised Object Detection via Recycling of Bounding Box Annotations
为了更有效地利用有限数量的标注信息,
我们开发出一种创新的目标检测技术,
该技术不仅结合了多任务学习 (MTL) 和自监督学习 (SSL),
还设计了一系列辅助任务来提高检测精度。
这些辅助任务通过自监督学习恢复边界框注释的过程来生成独立的学习信号,
并以多任务学习的方式与目标检测模型协同训练。
我们的方法已被广泛应用于基于区域建议的各种检测系统中
构建一个实用的目标检测模型 依赖于大量高质量的边界框标注 ,这些注释不仅费时生成,而且容易出现低级错误
在目标检测背景下探讨多元任务学习与自我监督式学习作为应对这一挑战的两种主要策略
- 多任务学习(MTL)的主要目标是通过较少的标注来联合训练多个相关任务。
- 该方法如Mask RCNN(参考文献21),它通过共同执行实例分割任务来提升目标检测能力。
- 然而,在实际应用中存在一个局限性:需要提供比边界框标注更昂贵的分割掩码标签。
在目标检测文献中,SSL 已被广泛用于替代 ImageNet 预训练方案[34、53、36、25]。其目的是旨在创建像 ImageNet 这样的大型数据库因其高度具有挑战性且需要大量的人力资源。因此它试图从无需人工标注数据的相关任务(如拼图游戏[34]或着色)中对网络进行预训练。然而尽管SSL算法在性能上不如ImageNet预训练方案显著但它们大多未能为目标检测任务提供实质性的帮助。(这篇文章发表于19年尚未出现MoCo等改进算法)

我们的方法的核心在于提出一组 与目标检测 密切相关却非同质 的辅助任务。这些辅助任务通过 从SSL视角提取边界框标签 (即模仿主目标任务所使用的标注信息) 来生成自己的标签,并将边界框视为元数据 。随后,在多任务学习框架下将这些辅助任务 与主目标任务进行联合训练 。值得注意的是,在此过程中 我们的 核心关注点 是提高主目标任务(即目标检测)的表现水平 ,而非对所有主目标任务及伴随辅助任务均加以重视 。
该研究旨在为双阶段目标检测系统构建多元任务自监督学习方案,并标志着此类技术应用领域的首次探索尝试
本文开发了一组三个辅助性任务,并包含多目标、接近度以及前景标记相关的辅助性任务 ,这些工作有助于提升目标检测的性能,并且无需额外的人力即可复用边界框标注。据我们所知,在自监督学习领域中尚无先人对边界框标注进行如此系统化的回收工作。
1.MTL :根据如何在不同任务模型之间共享参数,MTL 方法可以分为两类。
硬参数共用,在各任务模型中 一致地共享 完全相同的特征提取器,并由每个分支头各自负责处理自己的特定任务。由此的关键问题在于合理设定各任务的具体目标与评价标准。
soft parameter sharing mechanism, where each task is equipped with its own model architecture and corresponding parameter configurations. While this approach ensures task-specificity, the category of methods under consideration focuses on exploring how to achieve efficient weight sharing strategies. Specifically, in the implementation process, one can adopt which constraints or metrics to optimize the effectiveness of weight sharing among parameters.
重用一项任务的标签不仅有助于创建新任务及其标签,并且能够在 预训练 阶段显著提升主要任务的性能。我们的研究重点在于提取目标检测中的边界框标注信息。
基于我们的假设,在线注释仅专为完成目标检测中的边界框标注而设计。辅助任务模型能够自主提取边界框注释数据,并通过自监督学习方法构建自身的目标真实标注(GT)标签。
该辅助方案在特征提取与预测方面均具显著价值。三个协同学习型辅助模块旨在提升共享特征的质量。其输出结果则为目标检测预测提供了更为丰富的上下文信息,并特别增强了候选框分类准确率
多分类标注方案通常包含两种信息形式:一种是围绕目标对象最小包围矩形边界的坐标信息;另一种是对应类别的一热编码表示。为了提高灵活性与准确性,在传统基于单一类别的一热编码约束下引入了多分类标注方法;该方法通过在图像中随机抽取多个候选边界框窗口,并对每个窗口赋予相应的概率分布(软标签),而不是像传统的一热编码那样给定明确类别标签;这种方法的主要优势是可以显著增加高质量正样本的数量;同时这种设计可以缓解传统目标检测算法中存在的正负样本不平衡问题;
接近度标签:若辅助任务强制模型基于候选框的特征来学习预测类及其相关类别,则该模型可能捕获图像区域的上下文信息。具体而言,在这种情况下,接近度辅助任务通过分析预测框周边区域来识别可能的对象;而多目标标记任务则专注于识别位于窗口内部的目标。
前景标签:识别图像中的前景与背景区域。此任务有助于提升特征学习中候选框定位的精度
我们设计辅助任务的模型使其架构与主任务模型的头部完全相同。两者的主要区别在于是否包含框回归这一模块
这种共享架构在多个方面具有显著优势。首先,在将该架构整合到多任务方法中时非常方便。因为辅助任务的实现相对简单,在实际应用中只需少量代码即可完成相关功能。其次,在初始化辅助模型权重时也变得更加容易:我们可以通过复制预训练检测器的权重来完成这一过程,并且这种初始化方式在经验上比从零开始训练辅助任务的效果更为出色。
辅助任务有助于提升特征提取和预测的效果。在 region proposal 阶段被采用联合训练的方式进行训练,在 RoI 池化之前被设计用于学习与目标检测相关的 共享特征。其输出结果可 用于进一步细化检测预测结果,并特别关注候选框分类。
多目标标记模型能够估计给定proposal及其周围区域的软类别标签;接近度标记模型则能够估计附近物体同时出现的概率,并能有效推断这些物体的存在与否。本文提出的方法核心在于通过将主要任务单元(即目标检测器)与两个辅助任务集成起来进行训练,并利用其生成的语义信息来提升检测性能。具体而言,在针对候选框进行分类判断的过程中,多目标标记模型会针对该候选框周围区域及其全局语义特征生成软类别标签分布;而接近度标记模型则会根据该区域内的潜在物体分布情况生成对应置信度评分。值得注意的是,在这一过程中我们并未采用前景标记任务 的输出结果
作为细致化的损失项,在模型训练中我们采用了与主任务相同的交叉熵损失函数作为基础 Loss. 为了确保细粒度学习的有效性, 我们在关键层面上引入了梯度终止操作. 这一设计使得细粒度 Loss 对整体模型各分支预测器及特征提取器均无直接影响. 具体而言, 主任务及其辅助分支各自拥有独立的 Loss 函数, 而只有在细节层上的参数更新会受到细粒度 Loss 的影响.
损失函数:


我们的方法能够支持所有具备区域建议框的两阶段目标检测系统。特别地,在主干网络能力较弱的情况下,“我们方法的优势可能会更加显著”。特别值得注意的是,在采用任何类型的主干CNN时,“均能显著提升检测性能”。
不管基础检测模块、主体网络以及数据集如何变化,我们的方法都展现出极好的稳定性.
辅助任务依次按(多对象)、(接近)、(前景)三个子项对目标检测产生更有利的效果。其中(多对象)是最具优势的子项,因为其能够灵活地根据具体需求生成多个窗口;而其他两个子项则仅能固定生成一定数量的目标框标注;在每幅图中,子项(接近)所涉及的目标框数量会受到ground truth框的数量限制,而子项(前景)则始终保证每幅图仅有一个目标框标注。
我们的方法一般情况下能够识别并纠正一定数量的 误报样本 ,例如通过分析背景区域、识别相似物体以及监控冗余特征来实现这一目标。
Conclusion : 我们开发了一种新型的 多任务 自监督学习系统 ,专门针对目标检测领域进行了设计与优化。该系统通过引入三个辅助任务来显著提升目标检测性能,并实现了与传统目标检测模型的有效结合。实验结果表明,在采用多种架构与基础网络进行联合训练的过程中,该方法能够有效提升检测精度。不论数据量多少的情况下 ,该系统都能提供可靠的检测支持 。
