自监督论文阅读笔记 Self-Supervised Feature Augmentation for Large Image Object Detection
由于内存受限,在处理大型图像时很难实现效率的最大化。这项研究深入探讨了目标检测流程中的细节影响,并揭示出通过细节增强技术能够提升检测效果的方式。相比之下,在放大输入的同时仅进行简单的细节增强会带来显著的性能代价;相反,在保证一定性能基础上采用细节增强技术则能够实现更加显著的内存优化效果。
在此基础上
但在特定领域内,如自动驾驶系统中,
输入图像具有较高的分辨率。
其中决策组件严重依赖于视觉数据分析,
并对准确且及时地解析视觉信息有严格要求 [3]。
由于 GPU 的内存容量及其计算能力,
这些高分辨率图像无法直接作为当前先进检测/分割架构的输入。
处理该问题的一种常见方法是通过技术手段将高分辨率输入 分割为 若干子图像 ,以便供深度学习流程使用。随后将这些 子图像输出的结果进行综合汇总 ,从而得到最终的预测结果。然而这种方法存在显著的效率低下和时间消耗高等问题。这一做法带来了新的难题——如何实现有效的 图像分割 ,既能保证性能又能兼顾速度。另一个关键挑战是如何有效地将不同实例的分割预测进行像素级融合,在各部分预测结果高度不一致的情况下达到理想的整合效果。
我们定义为经过下采样的图像是具有较高分辨率的图像,并将经过上采样的图像是具有较低分辨率的图像。
· 随着 输入大小 在一定范围内的增加 ,检测网络的性能也相应提高 。
对于相同的图像大小,在对图像进行上/下采样的过程中不可避免地会引入信息损失。因此,在相同尺寸的输入中采用高分辨率图像作为输入进行训练的检测器其性能显著优于采用低分辨率图像作为输入的检测器。
在优化检测器性能时应着重考虑两个关键因素:一是适当范围内对输入尺度进行提升;二是对输入图像的分辨率进行优化。以提升检测器性能为目标
然而,在不经济地占用大量内存资源的情况下,在当前系统资源条件下难以操作直接扩大输入规模。鉴于此,我们探索将特征图进行上采样处理而非简单地对输入图像实施放大操作。经过实验分析发现:上采样后的特征 相当于可以直接放大输入图像的效果。
在本研究中
我们是 第一人 在目标检测框架中进行深入系统性研究的第一个。
我们开发了一种名为 SFANet 的新型深度流程,并借助自监督学习实现大图像对象检测任务
我们成功地在MVD和CityScape标准上达到了最佳成果,并且在COCO数据集上以更高效率实现了可比较性。
在目标检测的研究方向中,依据是否需要 RPN 可将目标检测器划分为单阶段与两阶段
双阶段的目标检测系统或基于区域的方法:第一步是识别出感兴趣的区域 (RoI) ,随后通过分类和回归任务实现 对象边界 的 精确定位 以及 分类。
基于 YOLO [11]、[14] 和 SSD [15] 这些代表性的模型的单阶段流程 ,无需单独设计用于生成候选框的模块 ,而能够通过直接预测的方式实现目标位置和类别的一体化定位 。
• 基于显着性的方法 还可以检测和分割图像中的显着对象[16]。
目标识别技术:广泛尺度的目标检测主要用于识别物体、部件或场景中的元素。主要包含基于单个特征图和多通道卷积神经网络的两种核心方法。
一方面,在实现高效目标的过程中
• 另一方面,在研究领域中SSD [15]、MSCNN [23]、RFBNet [24] 和 DSOD [25] 等方法均通过整合多通道特征图的预测结果来应对不同尺度的目标检测问题。然而,在实际应用中仅依赖于低层检测结果可能会导致性能表现欠佳的原因在于 低层次语义信息量有限 ,难以捕捉复杂的物体类别与场景细节。
最近的研究工作重点围绕多层级目标展开,并提出了一种综合运用两种方法的理想特征提取方案[26]-[28]。具体而言,在每层级中所提取的特征不仅能够反映本层的关键信息属性,而且通过融合各层级特征信息构建特征向量,实现了跨层级信息的有效整合与优化。
自监督学习 :通过解决此类任务的方式使模型能够提取能为后续任务提供语义特征的能力
一种方法去除了某些视觉数据(如彩色信息),并使网络通过判别手段预测其余的部分(如灰度图像)中缺失的内容。
在本文中,我们探讨了一个 多任务框架 的设计。在该框架中整合了 有标签的主要任务 和 自动编码器辅助的任务,并通过结合 联合监督学习 的机制来实现两者的协同优化。为了提升计算效率和保持关键信息不失真,在输入层前对原始图像进行尺寸缩减处理,并将 缩减后的图像特征 作为补充监督信号。从而促进模型更高效地完成上采样过程。
特征上采样:在卷积神经网络(CNN)的架构中,各层的特征图通常位于不同时空尺度层次。由于融合自不同时空尺度的特征存在显著挑战性问题。为此可采用反向传播算法结合插值技术实现特征图的空间重构
上采样的方法主要包括两类,即 可学习的和无参数的 。
该方法能够实现自适应地进行反卷积运算,在内存占用和计算开销方面具有显著优势
• Unpooling、插值和“亚像素卷积” 不需要额外的参数。
这些方法均致力于 将原始低质量特征转化为提供更多细节的信息特征。借助残差设计 使网络训练得以简化 并将其应用于特征的上采样过程
我们可以深入剖析该目标检测框架内部存在的尺度异质性问题;随后,我们开发出一种名为SFANet的新架构设计;这种架构旨在最大限度地减少在增强特征表达能力过程中所导致的信息丢失;通过这一改进措施的应用,在处理超大尺寸图像时的目标检测效果得到了显著提升。
在异构尺度上实施的检测:将关键细节融入异构尺度架构有助于提升检测效果,并且将其纳入架构的越早阶段能够带来更好的效果。
2.自监督特征增强 :SFANet利用自监督机制将高分辨率数据融入框架中。基于FPN架构的Mask R-CNN作为基础模型,并开发了一个引导式上采样模块以有效提取与原始图像尺寸匹配的大尺寸特征。此外,我们还设计了一个残差亚像素卷积块来辅助该模块实现上采样这一技术整合了丰富的信息量,并有效提升了模型的学习性能。
内存不足使得极大图像难以优化到最佳分辨率。鉴于此原因,在本研究中我们选择了对特征图而非模型输入进行上采样处理。
1. 异构尺度 • 增加特征表示的尺度 确实可以提高检测性能。
较早实施上采样将表现出色。然而,在实施上采样时出现的特征可能导致模型复杂度急剧上升。这种情况反映了计算复杂度与性能之间的权衡。
2. 自监督特征增强 • 我们开发了一个引导特征损失模块,并采用unsupervised learning的方式训练模型。该模块旨在通过将下采样后的图像作为输入,在尽量减少信息损失的前提下学习丰富的特征表示。
• 残差亚像素卷积块 ,它是引导特征上采样模块中的基本上采样操作。

图2所示。本研究中所设计的引导采样模块位于骨干网络自下而上的路径后方,并通过学习由主要特征C1引导的各个层级{C2-C5}上的上采样特征完成提取。这些特征均源自大规模图像数据。随后提取的学习到的特征({F2-F5})被输入到第二个自上而下的传播路径中,在检测块处完成最终识别。
我们提取较大图像对应的 C1 特征作为辅助监督来指导特征学习。

2.2 在内存和计算成本增长幅度可控的情况下,在这一前提下提供的是一种替代方案,在适用于大规模图像目标检测任务中具有一定的适用性。然而,在未附加额外监督信息的前提下进行简单的特征上采样难以发挥预期作用。
我们未采用完整的特征图进行监督;转而仅考虑与proposal相关区域损失的影响,并旨在降低计算负担同时排除无意义的数据干扰。
借助于 水平方向上的上采样机制 ,这些关键特征在自下而上的传输线路中得到了显著增强。每一个水平连接都会对沿自下而上的传输线路中的特征图执行上采样操作,并将其结果与沿自上而下的线路融合。经过大量实验表明,在实际应用中所使用的网络架构往往非常深(即深度很大),这导致在基于顶部向下传播的学习过程中遇到了诸多挑战和低效性。所提出的水平方向上传输机制不仅能够提升基于底部向上传播的学习效果,并且有助于在前馈传播过程中将各个层级的信息高效地聚合到高分辨率的表征。
2.3 残差亚像素卷积模块整合了自上而下的信息流和横向连接的路径,并将其巧妙地整合到上采样特征中。
与现有研究[23]中通过反卷积层实现的特征上采样方式相比,
我们采用了精细的亚像素卷积机制以实现对特征图的高精度放大。
Deconvolution 和 亚像素卷积 的对比:
Deconvolution : 在对特征图进行采样时,在反向传播过程中(或称为逆向过程),反向传播不仅利用当前层级的部分参数(或元素)来重构上一层的特征图。相比于正向传播中的标准卷积操作,在反向传播过程中(或称为逆向过程),不仅利用当前层级的部分参数(或元素)来重构上一层的特征图,并且这种策略不可避免地会导致部分信息在重建过程中无法被完全恢复。
亚像素卷积模块:首先通过 3 \times 3 \times 4 内核将数据嵌入到通道中,并在此基础上有规律地重新排列位置以生成放大图像。值得注意的是,在这一过程中所设计的模块 区域承载了关键的信息内容 ,并且在上采样过程中具有良好的合理性。换言之,在更大的感受野环境下这一技术表现得更加卓越。
参考文献[6]中提到,传统的深度神经网络架构具有较高的训练难度;然而通过残差学习框架的设计能够显著地简化模型的训练过程。
残差型亚像素卷积组件由两大功能单元构成,在深度学习模型中实现高分辨率信息的精准融合与特征重建。其横向连接通路内通过应用深度可分离卷积层实现对编码器输出的高效解码,并有效减少计算资源开销。
我们 提取更大规模图像的 C1 特征作为引导特征分支的辅助监督。
我们的模块采用了基于带有skip connections 的U-Net架构来实现功能提升。*这些特征仅包含有限语义信息**并不足以处理复杂的高级识别任务。*因此*我们在现有体系中加入了另一个自上传递的道路*****即FPN结构**以促进**在神经网络中将低层提取的信息与高层抽象的内容进行有机融合**这一过程我们称之为**神经元间的协同工作机制**这证实了一条更加完善的神经网络架构设计道路的存在是有必要的。*尽管如此*在某些特定场景下通过简单的特征上采样得到的效果仍然能够满足基本需求*但我们仍需依赖更高分辨率图像提供的详细细节
相较于简单的线性插值方法而言,反卷积网络和亚像素卷积层的性能提升较为有限。相比之下, 我们提出的残差亚像素卷积模块能够显著地增强特征提取能力
额外的监督有利于特征增强以实现良好的检测性能;
引导特征上采样模块可以提高这些最先进架构的性能。
Conclusion: 本研究提出了一种名为SFANet的新方法。特别针对超大尺寸图像这一领域问题,在上采样特征和引入高分辨率图像信息两个方面展开研究。我们设计了一个称为"引导特征上采样模块"的技术方案。该模块通过采用所提出的残差亚像素卷积块来放大特征,并通过结合引入高分辨率信息的关键路径来实现这一目标。
该上采样模块主要致力于 在较大规模特征的指导下 学习 并捕获 大图像与其对应的 小网络输入之间的 多数量化特征关联关系
为了避免特征上采样与检测器间的混合影响, 我们增加了 一个自上而下的补充路径 , 这一改进使网络架构变得稍微复杂了一点. 在未来的研究中, 我们将深入研究如何在尽量避免语义混叠的前提下将这两种技术方案有效结合. 当前阶段, 我们的系统仅支持升级 2 倍的特征维度. 针对更高倍数的上采样技术, 我们将继续进行深入探讨.
