计算机视觉研究院 | YOLOv9
本文来源公众号**“计算机视觉研究院”** ,仅用于学术分享,侵权删,干货满满。
原文链接:YOLOv9
现在的深度学习方法更关注如何构建合适的损失函数以使模型输出尽可能贴近真实数据分布的同时也必须设计一种合理的架构以确保能够有效地收集和整合足够的数据来提升预测能力
**PART/**1 前言
现有方法忽视了一个关键点:即当输入数据经历逐层特征提取和空间变换的过程时会不可避免地损失大量信息。本研究将深入探讨数据在深度网络传输过程中信息丢失的核心问题——即所谓的"信息瓶颈"以及如何实现可逆的数据传输。为此我们提出了可编程梯度信息(PGI)这一新概念旨在应对深度学习模型在实现多重目标时所面临的各种变化需求。PGI能够为每个目标任务提供完整的输入信息从而准确评估目标函数的完整梯度信息这有助于更有效地更新网络权重。此外我们还设计了一种新型轻量级网络架构——广义高效层聚合网络(GELAN)。该架构通过创新的梯度路径规划方法实现了对传统卷积操作的有效替代并显著提升了轻量级模型的性能表现。我们在基于MS COCO数据集的目标检测任务中对提出的GELAN架构及其与PGI结合的具体实现进行了全面验证实验结果表明与基于深度卷积神经网络开发的最先进方法相比GELAN利用传统的卷积操作实现了更好的参数利用率并且能够在轻量化模型中获得更好的性能表现。值得注意的是PGI不仅适用于轻量级模型也适用于大型复杂模型其独特的特性使其能够从头开始训练以获取比使用大型预训练数据集训练的传统模型更为优异的结果如图所示即使用小规模训练集也能达到与大型训练集相当甚至更好的效果

**PART/**2 前言
在深度学习架构中,当输入数据经过前馈通道时会发生数据降维现象这种现象常被称为信息瓶颈效应其工作原理可通过下图直观展示

目前主要解决方案有以下三种:(1)可逆架构方案:该方案通过引入额外的层来组合数据反馈机制,在重复馈送输入数据的同时有效维护信息完整性;(2)掩模建模方案:该方法通过重建损失函数实现特征提取,并采用隐式重建机制以最大化保留输入信息;(3)深度监督机制:该方案利用浅层特征建立目标预测映射关系以辅助深层特征学习,并尽量减少关键信息丢失风险。然而上述方法在实际应用中均存在局限性:第一种方案需要增加额外的数据处理环节从而明显提高了推理成本;第二种方案由于限制了信息传递路径深度可能导致高阶语义建模能力受限;第三种方案若浅层监督机制无法有效捕捉关键特征则会导致深层特征提取出现偏差影响模型性能表现。这些现象在复杂任务场景尤其是小型模型训练中表现得尤为突出
为了解决这一问题,我们提出了一种新的概念——可编程梯度信息(PGI)。这种核心机制的设计目的是通过辅助可逆分支来生成可靠的梯度信息,并以确保深层特征仍能维持执行目标任务的关键特征。具体而言,在实现过程中我们尽量避免传统方法中集成多路径特征所带来的任务意义丢失的问题。换句话说,在这一过程中我们实现了不同层次的任务意义进行梯度传播编程的能力,并且这种设计能够灵活地选择适合于当前目标任务的最佳损失函数形式。值得注意的是,在这种架构中所需增加的成本非常有限;此外由于PGI机制本身具有高度灵活性特点因此它不仅能够应用于任意规模的深度神经网络而且还克服了传统深度监督架构在某些特定场景下难以适应的问题。
**PART/**3 相关工作
Reversible Architectures
可逆架构中的运算单元必须具备可逆转换特性,在以往的研究中传统上将可逆单元划分为多个层次以便扩展不同层单元表达语义的能力。研究发现许多高性能架构都展现出不同程度的可逆性质。例如RevCol 通过分层次的方式实现了对不同输入分区与后续分区间的有效结合,并在所有转换分区传递之前将其内部连接起来以获取完整信息。CBNet 则通过引入复合主干重新整合原始输入数据并通过多种合成手段构建多层次的可逆信息体系这一设计使得相关网络架构在参数利用效率上表现优异但额外引入复合层会导致计算速度较慢DynamicDet 则融合了CBNet的优势并结合高效实时目标检测器YOLOv7 在速度与精度之间找到了良好的平衡点本文着重介绍所提出的体系结构即为设计可逆分支提供理论基础同时将其应用到一种新型架构中该新架构无需额外连接即可实现快速推理从而充分保留了速度参数数量与准确性三者的优势
辅助监督
深度监督是应用最广泛的辅助监督方法之一,在神经网络架构中扮演着重要角色。具体而言,在中间层加入额外的预测模块以促进模型训练是一个典型的做法。值得注意的是,在基于变换器架构中使用多层解码器作为辅助 supervision的主要手段之一已经被广泛认可并取得了显著效果。此外,在强化学习领域中还提出了多种辅助 supervision策略以提升模型性能的表现质量。例如,在增强目标检测模型性能方面,分割损失和深度损失等指标被广泛采用。然而,在实际应用中发现大多数现有的辅助 supervision机制主要针对大型复杂模型设计而缺乏普适性解决方案;这使得当此类机制应用于轻量级模型时往往难以满足需求而导致性能下降的问题较为突出。针对这一挑战性问题我们所提出的PGI方案则是一种创新性地重构多层次语义信息的技术方案旨在为不同规模模型提供统一适用的基础框架
**PART/**4 问题陈述
一般而言,在深度神经网络领域中对收敛困难的解释往往集中于梯度消失或梯度饱和等现象。值得注意的是,在传统的深度神经网络架构中这些挑战确实存在一定的表现形式。然而随着现代神经网络的发展通过引入各种归一化技术和激活函数等手段已经从根本上解决了上述问题。尽管如此深度神经网络在收敛速度和最终收敛效果上仍存在显著不足。本文进一步深入探讨了上述问题的本质属性通过对信息瓶颈效应的细致分析我们得出了结论即最初来自极其深邃网络模型的初始梯度在传输过程中未能充分携带实现目标所需的关键信息从而导致了这一困境的发生机制。为了验证这一假设我们采用了前馈不同架构深度网络并结合图示进行了详细说明实验结果表明PlainNet在目标检测任务中失去了大量关键信息而ResNet CSPNet和GELAN则能够较好地保持相关信息比例与训练后的模型准确率呈正相关关系在此基础上我们进一步提出了解决方案即基于可逆网络架构的设计。
**PART/**5 方法论
可编程梯度信息
为了应对这一挑战,我们致力于构建一个新型的辅助监督架构——可编程梯度信息(PGI),如图(d)所示。该架构由三个关键模块构成:主分支、辅助可逆分支以及多级辅助信息网络。通过观察图(d),我们可以看出PGI的核心推理逻辑仅依赖主分支进行运算,因此其运行效率并未受到影响。此外,在其他两个组件中设计了相应的解决方案以应对深度学习中的关键挑战:其中一项是为了缓解神经网络深化导致的信息瓶颈问题;另一项是为了处理深度监督带来的误差积累问题特别是适用于多预测分支架构和轻量化模型的情景。
具体而言,在主分支的基础上增加了辅助可逆分支以解决神经网络深化所带来的计算瓶颈问题;同时引入了多级辅助信息机制以有效缓解多预测分支带来的误差积累问题;特别地,在轻量级模型设计中我们巧妙地平衡了模型复杂度与推理效率的关系。

辅助可逆支路
在PGI框架中构建了辅助可逆分支以可靠地传递梯度并更新网络参数这一机制能够通过从数据到目标信息的映射为损失函数提供指导从而避免因前馈特征与目标关联不足而产生虚假相关性的风险值得注意的是引入可逆结构以维持完整信息的同时主分支的设计会显著增加计算开销对于图(b)所示架构我们发现当添加从深层到浅层的额外连接时推理时间将提升20%进一步研究表明将输入数据注入高分辨率计算层(用黄色框标注)会导致推理时间超过双倍鉴于我们的目标是通过可逆结构获取可靠梯度因此"可逆"属性并非唯一必需条件基于此观察我们将可逆分支视为深度监管分支的一种延伸并据此设计辅助可逆分支(如图d所示)主要特征中深层丢失的关键信息将能够通过辅助可逆分支接收可靠的梯度信息这些梯度信号将驱动参数学习过程从而帮助模型提取更加准确和重要的特征此外与传统架构相比较浅层网络在执行复杂任务时表现欠佳的原因在于信息瓶颈效应可能导致关键特征丢失我们提出的方法并不强制要求主分支保留原始完整信息而是通过引入辅助监督机制生成有用梯度来实现更新这种设计理念的优势在于所提出的方法不仅适用于较深网络架构而且也适合于较浅架构应用
Generalized ELAN
我们将在介绍一种新型网络架构——GELAN的基础上展开详细讲解。基于对CSPNet和ELAN这两种神经网络架构的设计理念与构建模式的深入分析与整合,我们设计了一种综合考虑计算资源消耗、推理速度和分类精度等多维度因素的新一代高效聚合网络(GELAN)。我们的目标是设计一种广义有效的层聚合网络(GELAN),该架构综合考虑了计算资源消耗、推理速度和分类精度等因素,并如图所示展示了其总体架构。
为了实现这一目标,我们在此基础上进一步开发出了一种更具通用性的新架构方案,在这种新方案下不仅可以继承并优化原有的ELAN模型性能(基于卷积层堆叠),还可以灵活支持其他类型的计算模块。

**PART/**6 实验及可视化

上表列出了我们提出的YOLOv9与其他从头开始的实时物体探测器的比较。总体而言,现有方法中性能最好的方法是用于轻型模型的YOLO MS-S,用于中型模型的YOLO-MS、用于通用模型的YOLONV7-AF和用于大型模型的YOlonv8-X。与轻型和中型型号YOLO MS相比,YOLOv9的参数减少了约10%,计算量减少了5~15%,但AP仍有0.4~0.6%的改善。与YOLOv7 AF相比,YOLOv9-C的参数减少了42%,计算量减少了21%,但实现了相同的AP(53%)。与YOLOv8-X相比,YOLOv9-X的参数减少了15%,计算量减少了25%,AP显著提高了1.7%。上述比较结果表明,与现有方法相比,我们提出的YOLOv9在各个方面都有了显著的改进。


本节将介绍信息瓶颈问题及其可视化表示。此外,在本节中我们还将探讨所提出的PGI如何利用可靠的梯度来揭示数据与目标之间的关联性。在图中展示的是不同架构下使用随机初始权重所得特征图的可视化结果:通过观察我们可以看出,在各架构中随着网络深度的增长逐渐丧失了原始特征的信息量。具体而言,在PlainNet 50层时难以辨识物体位置,并且只有极少数可区分特征会在100层时消失殆尽;而ResNet则表现出更强的优势,在50层时仍可识别物体位置但边缘细节逐渐消失;当深度达到100层时整体图像变得模糊不清;相比之下 CSPNet 和 GELAN 均展现出良好的性能特征:它们都能维持足够的清晰度持续支持物体识别功能直到200层存在;经过比较实验发现 GELAN 的表现更为稳定其边缘细节也更加清晰。
THE END !
结束之际,请您耐心阅读。您的点赞、收藏与评论是我继续更新的核心动力。期待您的推荐!在评论区留下您的关注与建议,在共同学习中不断成长。
