Advertisement

深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

阅读量:

YOLO-MS: Re-conceptualizing Multi-scale feature learning for real-time object detection framework.
PDF: https://arxiv.org/pdf/2308.05480.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

基于一系列研究探讨不同Kernel-Size卷积在不同尺度目标检测性能中的作用基础上

在这里插入图片描述

YOLO-MS从两个新的角度考虑为实时目标检测编码多尺度特征:

  • 从局部视角出发, 我们设计了一个简洁且高效的分层特征融合模块. 这一模块借鉴了Res2Net的设计理念, 在MS-Block内部引入了多支并行分支来进行特征提取. 但值得注意的是, 我们采用了深度卷积反向瓶颈模块, 这一设计使得大尺寸内核能够得到更加充分地利用.
  • 从整体视角出发, 提出了逐步递增卷积核尺寸的设计方案. 随着网络深度增加, 在浅层结构中采用了较小尺寸的卷积核以高效处理高分辨率的空间信息. 另一方面, 在更深的部分则采用了较大尺寸的卷积块以捕获广泛的空间信息.

2 YOLO-MS

2-1 Multi-Scale Building Block Design

在这里插入图片描述

在对相关问题进行深入研究的基础上,在结合现有技术的基础上提出了一个新的块状结构设计,并命名为MS-Block。该设计采用了分层特征融合策略,并且提升了目标检测器在多尺度特征提取方面的性能。同时确保了推理过程的高效性。MS-Block的具体架构如图所示。

2-2 Heterogeneous Kernel Selection Protocol

本研究提出了一种多尺度特征提取策略,在该框架下通过异构卷积在网络不同阶段实现特征的动态扩展。具体而言,在编码器第一层使用最小尺寸的卷积核进行初步特征提取;随后各中间层逐渐提升其卷积核尺寸;最终将最大尺寸设置在最后一层以捕捉最宽广的空间信息。这种设计不仅能够有效提取不同粒度的语义信息,并且显著提升了编码器对多尺度特征的表示能力。

在这里插入图片描述

从实验结果来看,在深层区域中HKS协议能够实现感知域的扩展,并不会对浅层区域造成额外的影响。此外,HKS不仅能够有效提取多尺度空间中的丰富特征,还能保证整个系统的高效且可靠的推理过程

在这里插入图片描述

2-3 Architecture

该模型基于四段结构设计其Backbone模块,在每段之后配置一个步长为2的三维卷积层用于下采样处理。第三个子模块后引入了SPP结构,并与RTMDet架构相似地采用了PAFPN模块作为Feature Pyramid Network(FPN)的核心部分。整合自Backbone各层次提取的各种尺度特征信息。各层级 neck 块均采用MS-Block结构基础,并在此基础上应用深度可分离卷积机制以实现高效的推理速度。

不同尺度的YOLO-MS变体如下:

在这里插入图片描述

3 Experiments

在这里插入图片描述

Grad-CAM可视化:

在这里插入图片描述

与其他YOLO检测器集成:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~