【论文阅读】YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7: A trainable bag of freebies establishes a new benchmark for real-time object detection systems
YOLOv7:一个可训练的免费包为实时目标检测系统设定了新的标杆
发表时间
平台
来源
文章链接
开源代码
Alexey Bochkovskiy 大神亲自背书。
摘要
在5至160帧每秒(FPS)的范围内,YOLOv7在速度与精度方面均超越了现有所有目标检测技术;其在GPU V100上的30 FPS及以上实时目标检测器中展现出最高水平的AP值(56.8%),这一成绩远超其他同类技术。具体而言,在基于Transformer架构的目标检测器SWINL Cascade-MASK R-CNN(9.2 FPS A100设备、AP为53.9%)的基础上,YOLOv7-E6实现了显著的速度提升(快约5倍多),同时精度提升达2个百分点;相较于基于卷积神经网络架构的目标检测器ConvNeXt-XL Cascade-MASK R-CNN(8.6 FPS A100设备、AP为55.2%),YOLOv7-E6的速度提升了约5.5倍多,并且精度高出大约一个百分点半。此外,在包括但不仅限于YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR及其变种等在内的众多目标检测器中,YOLOv7-E6的表现同样优异;值得注意的是,在本研究中仅采用MS Coco数据集进行端到端模型训练,并未引入其他外部数据集或依赖预训练权重以提升模型性能
6. 结论
我们开发了一种新型实时目标检测架构及其优化策略。在此基础上,揭示了传统目标检测技术演进中所面临的新兴研究议题。在探索过程中,识别出可重参数化模块替换方案与动态标签分配机制尚存在优化空间.针对上述挑战,在现有框架下设计并实现了自适应标签聚合策略.基于该改进方案,在实际应用中构建了YOLOv7系列目标检测系统,并验证其优越性.
1.引言
实时目标检测作为[计算机视觉]的核心议题之一具有重要意义。因为这一技术往往构成计算机视觉系统不可或缺的关键组件。其具体应用领域涵盖智能交通系统(编号94-93)、自动驾驶技术(编号40-18)、工业自动化(编号35-58)以及医疗影像分析(编号34-46)等多个方面。在实际应用场景中用于执行实时目标检测的关键计算设备多为移动CPU、GPU等硬件配置。这些边缘设备均专注于加速特定类型的操作包括基础卷积运算(vanilla convolution)、深度卷积操作(depth-wise convolution)以及多层感知机运算(multi-layer perceptron)等基本计算单元以提升处理效率与模型性能。本文提出的目标检测器旨在支持从边缘至云端跨越不同计算环境的需求
近年来,在不同类型的边缘设备上开发实时目标检测器仍处于活跃研究阶段。具体而言,在移动边缘计算领域中具有重要应用价值的MCUNet [49, 48] 和 NanoDet [54] 等算法着重于降低功耗并提升单芯片推理效率。相比之下,则是专注于提升各类GPU推理速度的YOLOX [21] 和 YOLOR [81] 等方法。近期研究重点转向高效架构设计方面取得了突破性进展。值得注意的是那些能够在传统CPU上实现高效运行的目标检测算法(如[54, 88, 84, 83]),它们通常基于MobileNet [28, 66, 27]、ShuffleNet [92, 55] 或GhostNet [25] 这些基础网络架构设计而成。另一方面,则是以GPU为计算核心的传统算法(如[81, 21, 97])为主流,在其框架设计中多采用ResNet [26]、DarkNet [63] 或DLAS网络[87]作为基础模块,并结合CSPNet策略优化架构布局。与现有主流方法相比,本文提出的方法在发展方向上存在显著差异:它不仅关注于架构优化这一方面的工作内容,更将重点转移到训练过程优化这一全新方向上来实现改进效果。为了实现这一目标我们将需要重点关注并深入研究一些具有创新性的优化模块以及相应的优化方法论——这些技术手段虽然可能增加一定的训练开销但始终不会影响到最终推理过程中的性能表现
最近的研究表明,在网络训练与目标检测领域中出现了诸多挑战(此处指基于上述新概念的提出过程),主要集中在以下几个方面:一是针对模型重参数化策略的有效实现问题;二是针对多级模型输出层之间复杂关系的理解问题;三是针对不同分支输出合理配置动态目标的问题(此处指当采用动态标签分配技术时所面临的问题)。针对这些问题,在本文中我们进行了系统性研究,并提出了相应的解决方案:对于模型重参数化问题,则通过梯度传播路径的概念深入分析了适用于不同网络层的不同重参数化策略;对于多级模型输出层之间的复杂关系,则提出了创新性的解决方案;而对于如何为各分支输出合理配置动态目标的问题,则在此基础上提出了新的标签分配方法。
本文的主要贡献如下:
- 开发了多种可训练的 bag-of-freebies 方法学派,在不提升推理成本的前提下显著提升了实时目标检测的技术性能;
- 在目标检测技术演进历程中提出了两个关键问题:如何替代传统的模块设置以及动态标签分配策略如何优化多级输出层配置等问题,并据此构建了解决方案框架;
- 针对实时性与准确性之间的权衡矛盾开发了"扩展( extend)"技术和"复合缩放(compound scaling)"方法;
- 所提出的技术方案较现有主流实时目标检测算法降低了约40%的模型参数规模和50%的运算消耗量的同时显著提升了推理效率与准确性水平。
2. 相关工作
2.1 实时目标检测器
当前最前沿的实时目标检测系统主要依赖YOLO[61-63]和FCOS[76-77]等技术基础。这些技术的基础是[3, 79, 81, 21, 54, 85, 23]这一组参数配置集合。要构建达到国际前沿水平的实时目标检测系统必须具备以下关键要求:如计算效率优化、模型轻量化及多尺度特征提取等。
- 该网络架构运行速度显著提升且计算能力更强。
- 该特征集成方法具有较高的效率(采用编号法列出相关研究)。
- 该检测方法具有更高的准确性(具体指标包括…)。
- 该损失函数性能优越(列举多个优势)。
- 该标签分配算法效率显著提升(详细说明优点)。
- 该训练策略具有较高的效率(具体优势列举)。
在本文中, 我们不打算研究那些需要补充数据或大型模型(如大模型的自我监督学习方案)以及知识蒸馏技术的知识蒸馏过程。转而, 我们将开发一个新的可训练 bag-of-freebies 方法, 以解决上述提到的第(4)、第(5)和第(6)相关问题中的现有技术中的问题。
2.2. 模型 re-parameterization
此方法通过参数化重塑将多个计算模块整合到单一推理阶段。此方法可被视为一种集成技术,并可划分为两大类:一类是基于模块的整合方式(module-level aggregation),另一类是基于模型层面的整合机制(model-level aggregation)。
为了获取最终推理模型, 主要采用两种基于模型级重参数化的策略. 其中一种策略是基于不同训练数据集分别训练多份结构一致的基础模型, 然后对各基础模型中的权重参数进行算术平均. 另一种策略则是通过加权平均各迭代阶段产生的参数更新结果来实现.
近年来, 模块级的重参数化技术已成为研究热点. 该方法在训练阶段, 将单个模块分解为若干个相同或不同结构的子模块; 在推理时, 则将这些子模块整合回一个功能完全等价的主模块. 不论是相同结构还是不同结构, 均可实现对主模型功能的一一映射. 然而, 仅凭简单的重参数化手段难以满足复杂多样的需求. 因此, 我们开发了一种新型重参数化机制, 并为不同架构设计了相应的适用策略.
2.3.模型缩放
该特定模型缩放方案采用索引[72;60;74;73;15;16;2;51]作为基准点来放大或缩小已有的设计,并将其适配至不同计算设备的需求。该类缩放方法一般采用多组独立的缩放因子组合来进行适应性配置,在实际应用中能够根据具体场景灵活调节各维度参数关系。这种设计能够在减少网络参数数量的同时保持较高的推理效率与较高的准确性水平,并通过优化后的配置实现对资源消耗的有效控制与性能提升之间的良好平衡。
网络架构搜索(NAS)是一种常用的模型压缩技术。它能够自动识别适合的压缩比例而不必为复杂的规则进行设计。然而其缺点在于计算成本高昂。通过查阅相关文献我们发现几乎所有模型压缩方法都专注于单独优化单个压缩比例即使是处理多个比例的方法也只能分别优化各个比例之间的关系因为现有的主流 NAS 架构处理的比例通常彼此之间关联性较弱因此难以形成统一的有效压缩策略为此我们需要开发一种新的多比例压缩框架以适应现有 NAS 架构的需求
3. 架构
3.1. 扩展的高效层聚合网络

如图2所示:扩展高效的层次聚合网络。所提出的 E-ELAN 模型并未更改原有梯度传递通路,并通过分组卷积机制显著增加了额外特征的数量(cardinality)。其将不同分组中的特征通过 shuffle 和 merge 机制整合到一起。这种方式能够有效提升各层级特征间的关联性,并优化模型参数与计算资源配置。
在多数关于高效架构设计的研究文献中,主要关注点受限于参数数量、计算强度以及计算密度等技术指标。基于存储器访问成本这一特性特征,Dolls ́ar等人提出了创新性的方法[15]。此外,他们还着重解决以下关键问题:如何优化模型缩放过程中的激活机制,即通过减少卷积层输出张量中的元素数量来提高效率[15]。图2(B)中所展示的CSPVoVNet架构是VoVNet系列的一个变体[79]。与基础设计相比,CSPVoVNet还深入探讨了网络梯度传播路径这一特性,通过优化不同层级权重的学习路径,使得网络推理速度更快且预测精度更为准确[79]。图2(C)所示的Elan模型则聚焦于"如何构建一个高效的深度学习模型"这一核心命题[1]。他们得出结论称:通过合理控制最深最长梯度路径,可以在不牺牲模型深度的情况下显著提升网络的学习效果和收敛性[1]。在此基础上,本文提出了一种新型架构,E-ELAN,E-ELAN以其独特的结构安排获得了显著的研究关注[见图2(D)]
不管梯度路径长度和大规模 ELAN 中计算块的堆叠数量如何变化,
该系统都能稳定运行。
当过量地增加计算块数量时,
可能会导致系统稳定性下降,
同时运算效率也会相应降低。
本研究提出了一种名为 E-ELAN 的改进方案,
该方法通过 expand、shuffle 和 merge cardinality
实现能在不破坏原有梯度路径的情况下,
显著增强网络学习能力。
在架构设计上仅修改了计算块的结构,
而过渡(transition)层并未发生任何改动。
我们的创新性策略是采用组卷积来扩展计算块中的通道数量以及基数大小。
具体而言,
我们将对所有计算层中的计算块应用统一的组参数和通道乘数。
随后,
每个计算块生成的特征图会根据预设分组数目 g 被拆分成 g 组,
然后这些特征图会被连接在一起形成最终输出。
这样处理后,
每组特征图所包含的信息量与原始架构相同。
最后,
我们会将这 g 组特征图合并起来以实现基数融合。
值得注意的是,
E-ELAN 在保持原有 ELAN 设计架构的同时,
还能够引导不同分组内的计算单元去学习更加多样化的特征表示。
3.2.基于级联(concatenation)模型的模型缩放

图3:基于Concatenation机制构建的模型架构进行了扩展与优化。从(a)至(b)的变化中可以看出,在对采用级联架构的模型实施深度放大操作时,在计算模块输出端增加了一定比例宽度的同时,在后续传递层中也相应地增加了输入端宽度。通过这种设计方式,在保证原有功能完整性的同时实现了资源消耗效率的最大化提升。具体而言,在这一改进方案中(记为方案C),我们采用了以下策略:仅在计算模块内部调整深度参数,在其他传递层中则同步实施相应的宽度调节措施以实现整体性能平衡。
模型缩放的核心目标是优化模型性能,在不同计算需求下构建相应的尺度(scale)模型。例如,在EfficientNet [72]的设计中,默认情况下考虑了宽度、深度和分辨率三个维度的因素进行综合考量。文献[79]则聚焦于scaled-YOLOv4这一特定场景,在其框架下仅通过调节阶段数即可实现尺度变化。参考文献[15]深入研究了卷积类型对宽度和深度缩放的影响,并在此基础上提出了相应的模型优化策略。这些方法主要应用于PlainNet或ResNet等传统架构设计中,在这类网络结构中每一层的入度(in-degree)与出度(out-degree)数量始终保持恒定状态。因此,在分析单个缩放因子对参数量和计算量的影响时可采取独立化的方法进行评估。然而,在基于concatenation模块的网络架构中应用这些方法时会遇到挑战:当对深度进行放大或缩小操作后,在紧跟concatenation模块后的翻译(translation)层将面临入度或出度数量相应增减的问题(如图3(a)和(b)所示)。
从该现象可以看出,在基于concatenation机制构建的模型中,默认的研究对象是无法全面分析各个独立缩放因子的作用关系的。以按比例放大深度为例说明其影响机制:这种操作会导致过渡层输入和输出通道数量的比例发生变化(如图3(b)所示),从而影响模型整体计算资源消耗水平(如图3(c)所示)。因此需要提出一种综合性的缩放方案。当调整一个计算块的深度缩放因子时,则必须同时考虑到其对后续模块的影响,并对过渡层进行宽度因子调整以维持整体结构的一致性(如图3(c)所示)。
4. 可训练的bag-of-freebies
4.1 Planned re-parameterized 卷积
尽管RepConv[13]在VGG架构上表现出色(达到68%的性能指标),但在应用到更深的网络结构如ResNet[26]和DenseNet[32]时效果却大打折扣。我们通过梯度流动路径分析如何将重参数化的卷积核与不同网络结构进行整合,并在此基础上开发了一种计划性重参数化卷积。
在单个卷积层中融合了3×3卷积、1×1卷积以及identity连接构成了 RepConv 。我们对 RepConv与其他架构的集成关系及其性能表现进行了深入研究。发现这种连接方式削弱了 ResNet 中基于残差连接的优势以及 DenseNet 中基于特征图拼接的优势 。基于上述发现 ,我们开发了一种无 identity 连接的设计方案 (称为 RepConvN ),用于构建 planned re-parameterized 卷积架构 。通过这种方法 ,能够有效避免 residual 和 concatenation 对不同特征图提供的梯度多样性带来的负面影响 。参考图4所示 ,在 PlainNet 和 ResNet 模型中采用了 “规划型重新参数化卷积”作为核心组件 ,这种设计能够更好地平衡模型复杂度与计算效率之间的关系 。关于该方法在消融研究环节的具体实现细节 ,将在后续章节中进行详细阐述 。

图 4展示了Planned-based parameterization模型。该模型采用Planned-based parameterization方法,并发现了具有残差或合并连接的一层。我们发现其中的RepConv层不应包含identity连接,并指出这一层可替换为不含identity连接的RepConvN结构。
4.2. Coarse(粗) for auxiliary(辅助) and fine(细) for lead loss
深度监督学习是一种广泛应用于训练深层神经网络的技术。其核心理念是通过在中间层引入辅助模块,并由目标损失函数指导这些模块的学习过程来提升整体性能。尽管基于ResNet等传统架构通常具有良好的收敛特性,在本研究中我们发现即使采用深度监督学习框架也能显著提升模型在多个任务中的表现度Yes/NoYes/NoYes/NoYes/NoYes/NoYes/NoYes/No
接下来的部分我们将重点讨论如何优化label分配策略。过去的研究中label分配通常基于以下两种方式:第一种直接参考ground truth并按照预设规则生成hard labels;第二种则是通过分析网络输出的质量与分布特征进而推导出soft labels[61 8 36 99 91 44 43 90 20 17 42]。值得注意的是这种方法往往缺乏对实际场景的深入考虑因而可能导致label分配结果不够稳定与准确。以目标检测领域为例研究人员通常会结合预测结果与实际场景匹配度等多维度因素采用一系列计算模型与优化算法来获得更加可靠的soft labels方案具体而言YOLO[61]就是通过包围盒回归预测结果与实际场景匹配度作为软label的基础依据在此基础上构建了其独特的label分配机制。在本文研究中我们提出了一种新的方法即通过将网络预测结果与ground truth进行深度融合最终将soft label分配为"智能label分配器"这一概念以实现更高的分类准确性与鲁棒性
在开发软标签分配器相关技术的过程中, 我们发现了一个新的衍生问题, 即: 如何为辅助头(Auxiliary Head)和引导头(Lead Head)分配软标签(Soft Label)? 目前尚无相关研究对此展开探讨. 现有主流算法的效果如图5(C)所示, 即将辅助头与引导头分开设置, 并基于各自预测结果与 ground truth 进行软标签分配. 本文提出了一种创新性的标签分配策略, 通过引导头预测结果生成层次化的分类标签 (从粗粒度到细粒度), 分别指导辅助头与引导头的学习过程. 图5(D) 和 (E) 则展示了我们提出的两种深度监督标签分配策略.

图5展示了粗粒度辅助头与细粒度lead head标签分配器的设计架构。相较于正常模型(a),(b)中引入了辅助头这一关键组件。与现有独立标签分配器(c)相比,在本研究中我们创新性地提出了两个新型模块:即(d)单级lead head指导型标签分配器以及(e)多级lead head指导型标签分配器。通过预测lead head并结合ground truth来优化标签分配器的同时也能获得训练得到的lead头与辅助头的相关标注信息。在附录部分我们将详细阐述基于从粗到细(coarse-to-fine)实现的具体方法以及相关约束设计细节
该系统主要基于_lead_head_预测结果与_ground_truth_情况计算,并通过优化过程生成软标签。这些软标签将成为辅助头与_lead_head的目标训练模型。主要原因在于_lead_head_具有较强的自适应能力,其生成的软标签能够更有效地反映源数据与目标数据之间的分布特征及其关联性。此外,这一过程可以被视为一种广义残差(Residual)学习方式。通过使较浅层辅助头直接继承并运用_lead_head已有的知识基础,lead_head能够更加专注于补充尚未掌握的知识点
从精细到粗糙的label分配器(g指导)还利用了预测结果与真实值之间的差异性信息生成soft labels. 在这一过程中, 本系统产生了两组不同的soft labels: coarse labels和fine labels, 其中fine labels与该label分配器生成的soft labels具有相同的soft label, 而coarse labels则是通过放宽正样本分配过程中的约束条件来允许更多的grid被视为正目标而被生成. 细究其因, 辅助头(auxiliary head)的学习能力较弱于label分配器(g指导). 因此为了防止丢失重要信息, 我们将在目标检测任务中特别关注辅助头(auxiliary head)在召回率方面的性能优化. 对于该label分配器(g指导)输出的结果, 我们将优先选择召回率较高的结果作为最终输出. 然而需要注意的是, 如果附加权重(additional weight)在coarse positive grids与fine positive grids之间存在较大的差异性, 可能在最终预测结果中会产生先验估计效果不佳的情况. 因此为了避免这种现象的发生, 我们在解码阶段加入了限制条件: 防止附加权重完全一致地影响最终结果. 这种机制使得两种类别的重要性能够在训练过程中动态平衡, 并保证了fine label在优化过程中的上界始终高于coarse label.
4.3. 其他可训练的 bag-of-freebies
在本部分中,我们将提供一些具备训练能力的 bag-of-freebies.这些 freebies 属于我们在训练过程中采用的一些技巧,但其最初的概念并非是我们提出.这些 freebies 的详细说明及其相关的技术细节将在附录中进行阐述,包括其详细说明内容.
- conv-bn-activation 拓扑中的 Batch normalization:该模块将 Batch normalization 视为与卷积层直接整合的模块,在推理阶段将 Batch normalization 的均值和方差参数融入卷积层的权重计算中。
- 在 YOLOR[81] 中提取隐含知识后与卷积特征图进行融合,在推理阶段通过预计算过程将隐含知识简化为向量表示,并采用加法与乘法相结合的方式将其与相邻卷积层的权重参数进行融合。
- EMA 模型:EMA 是 Mean Teacher[75] 中提出的技术方案,在本系统中我们选择纯 EMA 模型作为最终推理模型的主要方案之一。
5.实验
5.1 实验装置
基于Microsoft COCO 数据集 进行了实验验证 目标检测方法 我们采用了 train 2017 集合来进行模型训练 并利用 val 2017 集合作为验证和超参数选择的标准 所有实验均未采用经过预训练的模型 所有模型均从零开始进行了完整的训练过程 最终评估了目标检测方法在 test 2017 集上的性能表现 并将其与当前最先进的目标检测算法进行了对比分析
我们成功构建了边缘GPU(Edge GPU)、普通GPU(Main GPU)以及云GPU(Cloud GPU)的基础架构,并分别为其命名为 YOLOv7-tiny 、YOLOv7 和 YOLOv7-W6 。通过将基本模型应用于不同业务需求场景进行扩展优化后得到相应系列化的产品型号。针对 YOLOv7 模型,在其主干部分(neck)进行了堆叠式扩展,并引入了创新性复合扩展方法来同步放大整个网络的深度与宽度参数组合。以此为基础生成 YOLOv7-X 系列版本。而对于 YOLOv7-W6 型号,则通过应用新提出的复合扩展策略成功衍生出 YOLOv7-E6 和 YOLOv7-D6 两种形态的产品线。特别地,在 YOLOv7-E6 模型中集成 EELAN 技术实现了一种新型性能指标优化方案,在此基础上实现了 YOLOv7E6E 的完整构建流程。其中 YOLOv7-tiny 作为边缘计算设备的核心架构选择了一个独特的激活函数配置——采用 leaky ReLU 激活函数;而对于其他类型 GPU 则统一采用 SiLU 激活函数以提升整体性能表现。在附录部分我们将详细阐述各型号的比例因子设定方案以确保系统运行效率的最大化
5.2.基线
表1:基线目标探测器的比较。

采用早期版本的YOLO[3, 79]以及当前最先进制的目标检测器YORLDOR[81]作为我们的研究基础。结果显示我们提出的新模型YOLOv7在基于相同训练条件下的基线模型对比分析中取得了显著优势。
采用早期版本的YOLO[3, 79]以及当前最先进制的目标检测器YORLDOR[81]作为我们的研究基础。结果显示我们提出的新模型YOLOv7在基于相同训练条件下的基线模型对比分析中取得了显著优势。
研究表明,在实验结果的基础上表明
5.3.与 state-of-the-arts的比较
表2:最先进的实时目标检测器的比较。

1. 我们的 FLOPs 是按矩形输入分辨率计算的,如640×640或1280×1280。
我们的推理耗时是通过设置输入图像的长边尺寸为 640 或 1280 来实现计算效率优化的。
我们对现有目标检测器进行了对比分析,在表2中列出了详细的结果数据。从表2可以看出,在综合考量速度与精度的关系时,该方法实现了最佳权衡效果。将YOLOv7-Tiny-Silu与YOLOv5-N(r6.1)进行对比研究时发现:采用本方法可实现更高的帧率优势(达到127fps),同时在AP指标上的表现也更为卓越(准确率提升了约10.7%)。具体而言,在帧率为161fps时,该方法可获得51.4%的AP值;相比之下PPYOLOE-L在同一AP水平下却仅能维持78fps的帧率表现。此外,在模型参数规模方面本方法较PPYOLOE-L实现了显著缩减(减少了约41%)。通过将Yolov7-X与Yolov5-L(r6.1)进行推理性能对比发现:本方法在推理速度上提升了3.9%,而与之相比PPYOLOE-L则仅能保持相同水平(见表2)。进一步地,在参数规模及计算资源消耗方面本方法相较于PPYolovX系列实现了双管齐下的优化(减少了22%的模型参数以及8%的运算开销),但其对AP指标提升幅度略显逊色(增加了约2.2个百分点)。
在1280p分辨率下对比YOLO系列模型时发现,在测试集上的推理速度方面YOLOv7-W6相较于YOLOR-P6提升了8帧每秒(fps),同时其检测精度也有所改善(检测精度提升了约1%)。当对比YOLOv7-E6与YOLOv5-X6(r6.1)时前者相较于后者在多个关键指标上表现更为突出:具体而言,在参数数量上节省了约45%,计算负担减少了约37%,同时推理效率提升了约47%;此外,在性能对比中发现YOLOv7-D6的表现接近于YORLD-E6(注:此处应为YCOLOR-E),但其检测精度略高于后者约0.8个百分点;进一步地,在测试集上对YOLOv7-EED与其他模型的对比表明,在保证较高精度的前提下其计算开销显著低于现有方案
5.4.消融研究
5.4.1提出的复合 scaling 方法
表3:提出的模型 scaling下的消融研究

表3总结了通过不同缩放策略进行scaling up所获得的实验结果。其中我们开发出一种复合缩放方法其主要体现在将computational块的高度提升1.5倍同时优化transition块的宽度增加25%。相比于仅优化宽度的方法该方法不仅减少了参数规模还能降低计算开销并且显著提升了AP指标(具体提升了约0.5%)。与专注于深度优化的方法相比我们的方案在参数增长方面表现更为高效只需增加2.9%即可实现AP提升1.2%的效果。综合来看这种综合性的缩放策略不仅充分利用了模型参数还能有效提升计算效率从而实现了性能与资源消耗的最佳平衡。
5.4.2 提出的 planned re-parameterized 模型
为了检验我们所提出的改进型预参数化 planned re-parameterized 模型的普适性特性, 我们对连接型 concatenate 型与残差 residual 型两种不同架构进行了系统性对比实验.在实验过程中, 选取了级联结构与残差 residual 型两种典型架构作为测试对象进行分析, 具体包括3层 ELAN 网络架构以及CSPDarknet网络结构.
在 concate模型的实验环境中进行相关测试时发现,在ELAN架构中采用Re pet Conv替代了其中不同位置的多个3×3卷积层,并根据图6的具体配置完成了相关设置。通过分析表4中的数据可以看出,在所提出的 planned re-parameterized 模型下实现了所有指标均达到较高水平的状态。

图6: The planned implementation of RepConv features a 3-stacked ELAN structure. Blue circular markers indicate where Conv layers have been replaced with RepConv.
表4:Planned RepConcatenation 模型的消融研究。

在针对基于残差模型的一系列实验研究中, 我们面临一个问题, 即原始黑暗区域并未提供符合设计策略所需的一个标准3×3卷积模块, 因此, 在实验中我们特意增加了与其相对应的一个逆向黑暗模块, 如图7所示。经过分析发现, 在具有相同参数规模下, 带有暗块和反向暗块的不同架构结构具备完全一致的操作能力, 这种比较方式具有一定的公平性。通过表5的数据可以看出, 在经过重新参数化优化后, 所提出的 planned re-parameterized 模型对基于残差模型同样有效。我们发现RepCSPResNet[85]的设计也符合我们的设计模式

图7展示了反转后的CSPDarknet网络架构。我们在暗块内部重新排列了1×1和3×3卷积层的位置,并为了符合预设的重参数化模型设计策略而进行了此操作。
表5: planned RepResidual 模型的消融研究。

5.4.3 提出的 auxiliary head 的 assistant loss
为了验证辅助头辅助损失(Auxiliary Head Auxiliary Loss)方法的有效性,在本研究中我们设计并实施了一系列实验对比工作。具体而言, 通过对比传统的Lead Head和辅助头(Auxiliary Head)的独立标签分配策略, 并对提出的两种Label Assignment策略进行系统性分析, 我们能够更加全面地评估不同方法之间的优劣关系. 具体实验结果均在表6中详细列出. 从表6的实验数据可以看出, 通过引入辅助头辅助损失的方法, 在提升整体性能方面取得了显著成效. 进一步研究表明, 相对于传统Label Assignment策略, 在多个关键指标(如AP、AP50和AP75)上, 我们的Label Guided Strategy表现出显著优势. 在图8的可视化结果展示中, 我们可以看到不同方法在辅助头和主头预测对象之间的差异性分布情况. 这些结果显示了我们的Label Guided Strategy能够在各类场景下实现最佳效果.
表6:提出的auxiliary head 的消融研究。

如表7所示, 我们深入探讨了所提的基于coarse-to-fine引导标签分配方法对辅助头部解码器功能的影响. 具体而言, 该研究重点考察了引入与不引入上界约束两种情况下的效果对比. 通过表中的数据可以看出, 基于距离中心的目标定位方法作为基准进行评估后发现, 在保持较高定位精度的同时能够显著提升系统性能.
表7:约束 auxiliary head 的消融研究。

该方法采用多级金字塔架构以协同预测目标检测结果。为了便于后续训练过程,我们将其辅助头直接连接至中间层金字塔上。这种设计有助于弥补下一层金字塔预测可能出现的信息缺失问题。基于上述分析,在所提出的E-ELAN架构中设置了部分辅助头用于辅助任务。我们的方法是在合并基数(cardinality)之前,在一组特征图后连接辅助头;通过这种方式确保新生成的特征图集的权值更新不会直接由assistant loss负责。此外,这种方法允许每个lead head金字塔仍能从不同尺寸的目标中获取信息。表8展示了两种不同方法的具体效果比较:coarse-to-fine lead guided方法与partial coarse-to-fine lead guided方法之间的性能差异明显;其中后者在辅助效果方面表现更为突出。
表8: partial auxiliary head 的消融研究。

8. 更多的比较
YOLOv7框架(基于V100显卡运行)在每秒处理56个目标的同时实现了高达56.8%的AP测试指标和最小验证集下的同样优异表现(AP min-val)。该算法在GPU V100上的实时目标检测任务中表现出色,在支持最高帧率下保持最佳精度水平。与现有的Transformer架构如SWIN-L Cascade-Mask R-CNN相比(该模型每秒处理约9.2个目标且精度仅为53.9%),YOLOv7-E6框架在速度上提升了约488%,同时精准度也高出2个百分点。此外,在基于卷积神经网络的框架中表现更为突出:ConvNeXt-XL CascadeMask R-CNN模型虽然处理速度更快(8.6帧/秒),但其精度却低至55.2%,相比之下YOLOv7的表现更为优异。值得注意的是,在实验过程中仅使用MS COCO数据集进行模型训练,并未引入外部预训练模型作为初始权重
在COCO数据集上进行测试时发现,在保证实时性的同时,YOLOv7-E6E(56.8% AP)实时光模型较当前最优的 meituan/YOLOv6-s model (43.1% AP)在准确率上高出+13.7%. 我们开发的 YOLOv7-tiny (35.2% AP, 0.4ms)模型在相同测试条件下,不仅在COCO数据集上的表现优异,并且在使用 batch=32 和 V100 GPU的情况下较 meituan/YOLOv6-n(35.0% AP, 0.5ms)快出+25%,并在AP指标上超出+0.2%.
表9:更多比较( (batch=1, no-TRT,无需额外的目标检测训练数据)


图9:与其他目标检测器的比较。

图10:与其他实时目标检测器的比较。
表10:不同设置的比较。

参照meituan/YOLOv6及PPYOLOE等模型,在设定较高的IOU阈值时,我们的模型能够呈现更高的平均精度(AP)。

图11:与其他实时目标探测器的比较。
