YoloV9 论文翻译:Learning What You Want to LearnUsing Programmable Gradient Information
摘要
当前的深度学习方法聚焦于构建最优目标函数的方式,并旨在使模型预测值尽可能贴近真实数据。同时要求架构具备足够的信息获取能力以便有效支持预测过程。现有技术忽视了一个关键事实即经过逐层特征提取与空间变换的数据会丢失大量有价值的信息。本文深入探讨了深度网络传输过程中存在的核心问题即信息瓶颈与可逆性问题并提出了可编程梯度信息(PGI)这一全新概念以应对多目标优化需求PGI能够完整还原输入数据的所有相关信息从而提供可靠的梯度计算基础以更新网络参数并优化性能表现为此我们还开发了一种新型轻量级网络架构广义高效层聚合网络(GELAN)。GELAN结构证实了PGI在轻量化模型训练中的有效性优势主要体现在其在仅使用基本卷积操作的情况下实现了超越现有基于深度卷积方法的最佳参数效率实验结果表明GELAN不仅达到了与复杂模型相当的性能水平还能有效缓解计算资源限制带来的挑战特别适用于从轻量级到大型模型迁移应用其中PGI不仅可以提升轻量化模型的训练效果还能使基于小规模数据预训练的传统模型获得与大规模预训练模型相当甚至更好的性能表现具体对比结果见图1来源代码已发布至GitHub仓库:https://github.com/WongKinYiu/yolov9

1.引言
近年来,在计算机视觉、语言处理以及语音识别等多个领域中,深度学习技术已经取得了显著超越传统人工智能系统的表现。研究者们致力于探索更具竞争力的系统架构与学习机制,在这一过程中主要聚焦于提升模型性能的关键要素:包括卷积神经网络(CNNs)[21–23, 42, 55, 71, 72]、Transformer[8, 9, 40, 41, 60, 69, 70]、Perceivers[26, 26, 32, 52, 56, 81, 81]以及Mambas[17, 38, 80]等前沿架构的设计与优化工作。此外,在算法层面的研究者们还试图拓展更加通用的目标函数体系,在这一方向上已形成了包括损失函数[5,45-46][50-77][78]、标签分配机制[10-12][33][67-79]以及辅助监督学习[18-24][28-54][68-76]等多个创新性框架与方法。然而,在现有研究中仍存在一个共同局限性:传统的前馈模型往往忽视了输入数据在传播过程中可能携带的重要信息丢失现象;这种信息损失会导致梯度传播出现偏差,在更新网络参数的过程中产生偏差;这种偏差最终会导致模型在建立目标与输入之间的关联时出现失准现象;因此所训练出的模型容易产生预测误差与不准确结果

在深度网络中,输入数据在前馈过程中丢失信息的现象通常被称为信息瓶颈[59],其示意图如图2所示。目前,缓解这一现象的主要方法有以下几种:(1)使用可逆架构[3, 16, 19]:该方法主要通过重复输入数据并以显式方式保持输入数据的信息;(2)使用掩码建模[1, 6, 9, 27, 71, 73]:主要通过重建损失并采用隐式方式来最大化提取的特征并保留输入信息;(3)引入深度监督概念[28, 51, 54, 68]:使用尚未丢失过多重要信息的浅层特征来预先建立从特征到目标的映射,以确保重要信息能够传递到更深层。然而,上述方法在训练和推理过程中存在不同的缺点。例如,可逆架构需要额外的层来组合重复输入的数据,这将显著增加推理成本。此外,由于输入层到输出层不能有太深的路径,这一限制使得在训练过程中难以对高阶语义信息进行建模。对于掩码建模,其重建损失有时与目标损失相冲突。此外,大多数掩码机制也会产生与数据的错误关联。对于深度监督机制,它会产生误差累积,如果浅层监督在训练过程中丢失了信息,后续层将无法检索到所需的信息。上述现象在困难任务和小模型上会更加明显。
为了针对这一问题,在深度神经网络中引入了一个新的概念——可编程梯度信息(PGI)。该概念通过设计一种辅助可逆分支以避免传统深度监督整合多路径特征所带来的语义损失,并确保深层特征在执行目标任务时仍能保持关键特征。换句话说,在不同语义层次上编排梯度信息传播的方式被程序化设计出来以达到最佳训练效果。PGI架构基于这种辅助结构构建而成因此不会带来额外的成本由于PGI能够自由选择适合目标任务的最佳损失函数从而克服了掩码建模所面临的问题这种基于任务自适应的设计能够让PGI机制适用于各种规模大小不同的深度神经网络而不仅仅局限于那些非常深的网络结构因此具有更强的普适性
在本文中, 我们在此基础上提出了广义ELAN(GELAN)模型, 该模型综合考量了参数规模, 计算开销, 精确度以及推理速度等多个关键指标. 通过整合PGI与GELAN技术方案, 在此基础上构建了一个全新的YOLO系列版本nine(YOLOv9). 为了验证该方法的有效性与优越性, 在进行实验时采用了公开的MS COCO数据集作为基准测试用例. 实验结果显示, 在各项评估指标上我们的模型表现最优
本文的贡献总结如下:
从可逆函数这一角度出发进行研究后,成功揭示了过去未能被解释的现象本质.在此基础上开发出了PGI模型及辅助逆向结构,并取得了显著成果.
我们开发的PGI成功克服了仅适用于深度极深神经网络架构的深度监督局限性,并使新型轻量化架构得以在日常生活中真正实现应用。
本研究开发的GELAN模型仅通过常规卷积模块就实现了其参数利用效率超越现有的深度卷积方法,并展现出轻量化、高效性和精确性
融合了PGI与GELAN技术后,YOLOv9在MS COCO目标检测基准上的性能表现显著超越了现有技术中的实时目标检测算法。
2. 相关工作
2.1. 实时目标检测器
当前广泛采用的实时目标检测器主要基于YOLO系列框架(如文献中的参考文献所示)。这些模型通常采用CSPNet[64]或其衍生版本(如ELAN[65])作为核心组件。在特征融合模块中,则主要依赖于改进版PAN[37]或FPN[35]技术,并通过优化设计进一步提升了检测精度。值得注意的是,在特征提取环节上仍面临诸多挑战。受限于DETR系列模型通常需要领域特定预训练数据这一特点,在实际应用中往往难以直接迁移至新领域场景。因此,在现有研究中仍以YOLO系列算法为主流方案。为了提升现有算法的性能瓶颈问题,在本研究中我们选取了经过验证成功的YOLOv7[63]算法选作本研究的核心基础,并在此基础上引入了GELAN结构以优化网络架构设计,并结合创新性提出的PGI技术实现全场景目标检测能力显著提升
2.2. 可逆架构
可逆架构[3, 16, 19]的操作单元必须具备可逆转换特性以确保各操作单元层输出特征图均能完整保留原始信息以往RevCol[3]将传统可逆单元推广至多层架构从而扩大各层单元所表征语义层次回顾现有神经网络架构文献发现许多高性能架构均不同程度地具有可逆性例如Res2Net模块[11]采用分层策略将不同输入分区与下一区域能够结合并在回路传输前整合所有变换后分区CBNet[34 39]则通过引入原始输入数据以确保完整原始信息并采用多种组合手段获取多层次可逆信息这些架构通常展现出优异参数利用率但新增复合层导致推理速度有所下降DynamicDet[36]融合了CBNet[34]与实时目标检测器YOLOv7[63]实现了速度参数数量及准确度的良好平衡本文在此基础上引入了DynamicDet架构作为设计可逆分支的基础此外可逆信息还被进一步融入所提出的PGI中所提新架构在推理过程中无需额外连接从而充分保持了速度参数量及准确度优势
2.3. 辅助监督
深度监督机制[28, 54, 68]主要采用主动式的设计模式,在网络训练过程中通过在中间层附加额外的预测网络来实现训练过程。值得注意的是,在Transformer架构中引入多层解码器作为辅助监督手段的现象尤为常见。另一种辅助监督方法则是利用相关元信息来指导中间层生成具有特定属性的目标检测相关属性[18, 20, 24, 29, 76]。如分割损失与深度损失等指标的应用则有助于提升目标检测模型的效果。近年来的研究表明[53, 67, 82]通过引入不同标签分配策略可设计出多样化的辅助监督框架以加速模型收敛速度并增强其鲁棒性能力。然而这类技术通常只适用于大型模型架构当其被应用于轻量化设计时往往会导致参数不足的问题进而影响性能表现。为此本文提出了一种名为PGI的新颖设计思路旨在通过重新规划多级语义信息使轻量化模型同样能够受益
3.问题陈述
一般认为,在深度神经网络中引起收敛困难的主要原因在于梯度消失或梯度饱和等问题。这些现象确实在传统的深度神经网络架构中有所体现。相比之下,在现代深度神经网络的发展过程中,则通过引入多种归一化技术和激活函数设计等手段已基本实现了上述问题的解决。尽管如此,在实际应用中发现深网仍面临收敛速度较慢以及结果质量不甚理想等问题。
本文进一步深入研究了该问题的本质。
细致研究发现:源自非常深网络的初始梯度在传输至较浅层时已丧失大量关键数据。
通过构建不同架构模型进行前馈训练,并采用原始权重参数,在图2中展示了具体结果。
显然,在深层架构中PlainNet失去了大量关键数据。
其保留的比例与其训练后的准确率呈现显著正相关关系。
我们设计了一种基于可逆网络的新改进措施,并详细阐述其改进原因及理论依据。
在本节中将重点介绍对信息瓶颈理论以及可逆函数机制的具体分析过程。
3.1. 信息瓶颈原理
根据信息瓶颈理论框架,在经过数据转换过程时,可能存在一定的信息损失情况;以下公式表明了这一现象的具体表现形式
其中I表示互信息,f和g是转换函数,θ和ϕ分别是f和g的参数。
在深度神经网络架构中f_θ(·)和g_ϕ(·)分别表示连续两层的操作。根据式(1)的结果看随着模型变得更深原始数据可能会更容易丢失特征。与此同时模型会通过损失函数计算新的梯度值来调整其参数进而优化性能。当模型变得更深时深层结构难以保持完整的预测相关信息这将导致训练过程中信息利用效率低下
一种可能的方法是通过增大模型规模来实现问题的解决。当模型采用大量参数设计时,这种架构能够更充分地完成数据转换过程。该方法允许即使在前馈过程中存在信息损失的情况下仍能保留足够的信息以执行目标映射任务。然而这一结论并未彻底解决深度神经网络中梯度计算不可靠的问题
3.2. 可逆函数
当函数r具有一个逆变换v时,我们称为可逆函数(如式(2)所示)。

其中ψ和ζ分别对应于r和v的参数。数据X经过可逆函数转换后仍然保持完整信息。

当一个网络的转换函数基于可逆函数构建时,则能够获得更加可靠的梯度以更新模型。如今几乎所有流行的深度学习方法均遵循可逆架构设计,并如式(4)所示展示其特性。

其中l标识PreAct ResNet的第l层,并以转换函数f进行处理。该网络通过显式设计将输入数据X在各层之间循环传递。尽管这种设计能够使深度神经网络在数百甚至上千层时仍能良好收敛。然而这却成为了一个关键问题阻碍深层神经网络发展的原因之一。此外这一现象也说明了为何较浅层结构往往难以超越更深架构如ResNet[21]的表现。
此外,在这一研究框架下,并非仅限于简单的模型设计;我们还尝试采用掩码建模技术(Mask Modeling),这一技术使得Transformer模型能够展现出显著的进步。为了实现这一目标,在研究过程中我们主要采用了近似策略(如图5所示),旨在寻找r变量的逆变换v';通过这种策略设计可以使处理后的特征得以利用稀疏特征保持足够的信息量。根据上述方法设计得到的结果形式如下:

其中M被定义为一个动态二进制掩码变量。在执行上述任务的过程中,扩散模型与变分自编码器通常被采用作为替代方案。这些替代方案均具备反函数计算的能力。然而,在将这一方法应用于轻量化模型时会遇到问题;这是因为由于轻量化模型在处理海量原始数据时往往会陷入参数不足的状态。因此,在将输入数据X映射至目标Y的过程中所包含的关键信息量I(Y, X)也会受到影响出现相应的问题。为了深入探讨这一挑战性问题,在此我们计划采用信息瓶颈理论进行深入研究分析;其对应的数学表达式如下所示:

通常情况下,I(Y, X)仅占I(X, X)的比例非常小。然而,在任务目标上起着至关重要的作用。因此,在前馈阶段丢失的信息量虽然不显著但一旦覆盖了I(Y, X)就可能导致较大的训练效果下降。由于轻量级模型本质上属于欠参数化架构所以在前馈过程中容易失去大量关键信息因此我们提出了一种新的深度神经网络训练方法该方法不仅能够稳定地生成可靠的梯度来更新模型而且特别适用于处理浅层和轻量化神经网络结构以期达到更好的训练效果
4. 方法论
4.1. 可编程梯度信息(PGI)
为了应对上述问题,我们提出了一种称为可编程梯度信息(PGI)的新辅助监督框架。如图3(d)所示,PGI由以下三个部分构成:(1)主分支;(2)辅助可逆分支;以及(3)多级辅助信息。从图3(d)可以看出,在这种情况下PGI的工作机制仅依赖于主分支这一部分,并不需要额外增加任何计算开销。然而,在其他两个组件中存在重要的作用:其中一个是用于缓解神经网络深度所引发的关键挑战;另一个是用于应对因深度监督导致的误差积累问题特别是适用于具有多预测分支架构以及轻量级模型的情况。随后我们将逐步详细阐述这两个功能模块的工作原理及其设计思路。

4.1.1 辅助可逆分支
在该框架中提出了一种辅助反向分支策略来可靠地生成梯度并优化网络参数。基于数据与目标之间的映射关系设计了损失函数能够引导优化过程并有效避免因前馈特征不完整性而导致的目标相关性较低的结果出现。我们提出了一种通过可逆架构维持完整信息的新方法然而在可逆架构中加入主分支会导致较高的计算开销。
通过对图3(b)架构的深入研究发现, 当在深层节点向浅层节点增加额外连接时, 推理时间预计增长约20%. 当持续向网络的高分辨率计算层(用黄框标注的部分)注入更多输入数据时, 推理速度较之前提升了超过一倍.
为了实现目标可靠地获取梯度信息
最后,在考虑到辅助可逆分支在推理阶段能够被去除,则原始网络仍具备推理能力的情况下,在PGI中则能采用任意选定的可逆架构作为辅助可逆分支。
4.1.2 多级辅助信息
本节将深入探讨多层次辅助信息的作用机制。图3(c)展示了具有多个预测分支的深度监督架构。在目标检测任务中,我们可以采用不同尺寸的特征金字塔来处理各类目标。因此,在此基础上,在连接到主分支后,深层特征将被引导学习小尺寸物体的检测。这会导致系统将较大尺寸的目标视为背景。然而,在这种情况下,在更深层的特征金字塔中可能会丢失一些关键信息。对此问题而言,在设计每个层次的特征提取器时应确保其能够整合所有目标类别信息,以便后续的主分支能够保留完整的信息以实现精准的目标预测
多级辅助信息的概念是在辅助监督与主分支之间的特征金字塔层次结构层间设计了一个集成网络框架,并以整合来自各预测头的返回梯度为目标展开工作流程。具体而言,在这一过程中, 多级辅助信息不仅能够聚合所有目标对象所具有的梯度信息, 并通过传递机制将其有效地传递给主分支来进行参数更新, 这种机制使得主分支所形成的特征金字塔层次结构能够避免被某些特定对象的信息单方面主导其特征提取过程。基于此, 我们的系统架构得以有效缓解深度监督体系中存在的梯度断裂问题, 并且由于可选集成网络方案的多样性, 该方法还提供了高度灵活的设计空间以适应不同复杂度的任务需求
4.2. 广义ELAN(GELAN)
在本节中, 我们介绍了新提出的GELAN架构。通过整合基于梯度路径设计的两种神经网络架构CSPNet[64]与ELAN[65], 我们开发了一种称为GELAN的广义高效层次聚合网络, 该架构综合考虑了轻量化、推理效率与准确性。The overall structure of this network is illustrated in Figure 4.The capability originally limited to convolutional layers in ELAN[65] has now been expanded to accommodate any computation block within the new architecture.

Figure 4 illustrates the architecture of GELAN, which comprises three components: (a) CSPNet [64], (b) ELAN [65], and (c) our proposed GELAN. By borrowing the structure from CSPNet, we build upon ELAN to create GELAN that supports a variety of computational modules.
5. 实验
5.1. 实验设置
基于MS COCO数据集的方法进行了有效性验证。实验设置主要参考YOLOv7 AF[63]框架,并采用自定义的数据集来源于MS COCO 2017版本划分。所有模型均采用了从零开始训练的方式,在总计500个训练周期内完成了参数优化工作过程的学习率配置方面,在前三轮采用了线性预热策略,并根据模型大小动态调整学习率衰减幅度。经过测试,在最后15轮中禁用了马赛克数据增强技术以避免过度拟合问题的影响。详细内容可参考附录部分
5.2. 实现细节
我们利用YOLOv7系列框架开发了YOLOv9的通用版本与扩展版本。在网络架构设计中,我们采用具有计划性的RepConv替代传统的ELAN单元,并构造了新型网络结构GELAN。通过重新设计降采样模块,并提升了无锚点预测头的性能,在PGI辅助损失处理上则严格沿用YOLOv7的设计理念。更多信息请参考附录部分
5.3. 与最先进技术的比较
表1展示了我们提出的方法YOLOv9与从零开始训练的实时目标检测器的性能对比。综合来看,在现有方法中表现最为突出的是轻量化模型YOLO MS-S[7]、中型模型YOLO MS[7]、通用模型YOLOv7 AF[63]以及大型模型YOLOv8-X[15]。相较于轻量化及中型模型YOLO MS,在应用方面我们的方法实现了显著的进步:参数降低了约10%,计算开销下降了5%-15%,但平均精度(AP)却提升了0.4%-0.6%;相比之下,在通用性能方面则与之形成对比:通过降低42%的参数规模和22%的计算负担即可维持与基准方法相同的平均精度水平(维持在53%)。而在大目标检测任务中,则通过减少16%的参数规模并牺牲部分计算效率(降 computation by 27%),实现了比当前最优方案高出约1.7个百分点的平均精度水平(AP)。综合以上对比可以看出,我们提出的方法YOLOv9在多个方面均显著超越了现有方法

同时, 我们还在与ImageNet预训练模型的对比中纳入了评估, 具体结果可见于图5. 在这一领域占据领先地位的是RoBERTa-Base [43]. 需要指出的是, 在参数效率方面,默认卷积架构在YOLOv9中的表现超越了深度可分离卷积设计在YOLO MS中的应用. 进一步研究表明, 在经过ImageNet预训练后的RoBERTa-Base [43]同样表现出色. 更值得强调的是, 在深层架构设计中,默认卷积方案展现了显著的优势.

在计算能力方面(运算速度),按规模递增排列表现最突出的是YOLO MS[7]、PP YOLOE[74]以及RT DETR[43]等主流模型。实验结果表明,在计算复杂度方面YOLOv9显著优于传统训练方法(Traditional Training Methods)。此外,在目标检测任务中相对于深度可分离卷积框架(Deep Separable Convolutional Frameworks)以及ImageNet预训练模型框架(ImageNet Pretrained Model Frameworks)而言YOLOv9展现出更强的优势。
5.4. 消融研究
5.4.1 广义ELAN
我们在开发GELAN的过程中首先展开了消融实验。针对不同类型的计算模块(包括ResBlock [21]、DarkBlock [49]以及CSPBlock [64])进行了系列测试。经过测试发现,在多种替代方案中采用CSPBlock(即深度可分离卷积模块)表现出色。通过将ELAN中的卷积层替换成不同类型的模块(如ResBlock [21], DarkBlock [49], 和CSPBlock [64]),系统的性能始终保持在较高水平。开发者能够灵活地更换各种类型的模块,并在各自适用的推理设备上实现应用。经过测试发现,在多种替代方案中采用CSPBlock(即深度可分离卷积模块)表现出色,并且这种模块不仅显著降低了模型的参数数量和运算开销,并且还提升了整体精度水平。因此我们决定将基于CSP-ELAN的设计方案作为YOLOv9中GELAN组件的核心模块

接下来,在不同规模的GELAN架构中展开了关于ELAN块深度与CSP块深度的研究实验,并将研究结果列于表3所示表格中。通过观察发现,在将ELAN的结构由1层提升至2层时能够明显提高模型性能;然而当其深度达到2层及以上时(不论是增大ELAN结构还是CSP结构),系统参数数量、计算开销以及输出精度都将呈现线性增长的趋势。这一研究结果表明GELAN架构对于网络深度具有良好的适应性特点;换句话说,在设计复杂的网络架构时用户无需进行特殊化设计即可获得稳定性能表现的结果;具体而言,在表3中的YOLOv9-{S,M,C}配置下我们设置了各层次组合的具体参数设置为{{2, 3}, {2, 1}, {2, 1}}。

5.4.2 可编程梯度信息(PGI)
针对PGI方案,在主干部位及颈部区域分别采用了辅助可逆分支与多级辅助信息消融技术的研究工作

进一步研究了PGI与深度监督概念在不同规模模型中的应用,并进行了对比分析。如同最初所讨论的那样,在引入深度监督后会导致浅层模型精度下降这一现象依然存在。值得注意的是,在通用模型中引入深度监督会带来性能不稳定的问题;而根据设计理念,在极深的网络架构中才能充分发挥其优势。本文提出的方法——PGI——通过有效缓解信息瓶颈以及信息断裂问题,在多个规模模型上均实现了精度提升的目标;这一创新性概念不仅提供了两项重要贡献:其一在于扩展了辅助监督方法的应用范围至浅层神经网络;其二则在于为深层网络训练过程提供了更为可靠的梯度支持;这些梯度使得深层网络能够更加准确地建立数据与目标之间的关联关系


最后,在表格中我们详细比较了基于基准的YOLOv7逐步提升至YOLOv9-E各组件的效果表现。通过开发创新的GELAN模块与PGI架构设计方案,我们成功实现了模型性能的整体显著提升。
5.5. 可视化
本节将深入分析信息瓶颈问题,并通过可视化手段展示关键发现。同时, 本节还将重点展示如何利用可靠梯度来揭示数据与目标之间的关联机制, 并对比现有方法的优势与不足。通过可视化结果可以看出, 在不同架构中使用随机初始权重时各层的特征图呈现出显著差异: 在浅层网络中, 特征图包含较多低频信息; 而深层网络则表现出较强的高频特性, 这一现象在各实验条件下均成立且具有统计学意义。研究发现, 当模型深度逐渐增加时, 在各层中被保留的信息量显著下降: 对于传统的全连接网络(PlainNet), 到第50层时仍能清晰辨识物体的位置特征, 但到了第100层则完全丢失了可区分度较高的对象特征; 而ResNet虽然在第50层仍能清晰辨识物体的位置特征, 但其边界信息已经变得模糊不清; 相比之下,CSPNet 和我们提出的方法GELAN则展现出良好的性能: 它们能够在相对深层(如200层)依然保持足够的判别能力以实现准确分类; 同时,GELAN方法表现出更强的稳定性: 其生成的结果不仅判别能力更强, 边界信息的表现也更为清晰且稳定

图7用于分析PGI在训练过程中的表现是否能提供更可靠的梯度,在这种情况下参数更新能更好地反映输入数据与目标之间的联系。图7展示了GELAN模型以及加入PGI后的YOLOv9(GELAN + PGI)在PAN偏置预热任务中的特征图可视化结果。通过对比图7(b)和(c),我们可以清晰地看到PGI能够准确且简洁地捕获包含对象的区域特征。而未采用PGI的GELAN则表现出在检测边界时出现发散现象,并在某些背景区域产生了非预期的响应效果。这些实验结果表明,在参数更新阶段使用PGI不仅提升了梯度质量,并且使得主分支前馈层能够保留更多关键特征信息

6. 结论
在本文中,我们提出采用PGI技术针对信息瓶颈问题以及针对轻量级神经网络的深度监督机制不适用性进行解决方案的设计。经过我们的研究开发出一种高效率且低计算复杂度的神经网络架构GELAN。该模型能够适应多种推理设备的需求并展现出卓越的目标检测性能,在不同计算层次均能稳定可靠地运行。通过引入PGI技术处理策略,在精度上均取得了明显提升。具体而言结合GELAN架构优化使对比于YOLOv8,在参数规模缩减49%、计算开销降低43%的同时,在MS COCO数据集上的平均精度(AP)提升了0.6%。
