Advertisement

深度学习论文: RemDet: Rethinking Efficient Model Design for UAV Object Detection

阅读量:

深度学习论文: RemDet: Rethinking Efficient Model Design for UAV Object Detection
RemDet: Rethinking Efficient Model Design for UAV Object Detection
PDF:https://arxiv.org/abs/2412.10040
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

无人机(UAV)图像中的目标检测正成为研究热点,但面临两大难题:目标小而密集,以及计算资源受限导致模型难以实时部署。当前实时检测器未针对无人机图像优化,且小物体检测方法往往缺乏实时性。
在这里插入图片描述

为应对这些挑战,本文推出了RemDet(重参数高效乘法检测器)。本文的主要贡献包括:

  • 识别挑战:本文深刻认识到小型密集无人机图像对检测器的挑战,提出将信息损失作为设计高效模型的关键考量。
  • 增强小目标检测:引入ChannelC2f模块,通过高维表示有效减轻信息丢失,提升小目标检测性能。
  • 高效性能:设计GatedFFN模块,不仅性能强大,还能实现低延迟,满足实时检测需求。通过乘法运算,GatedFFN比传统前馈网络更具成本效益。
  • 融合优势:提出CED模块,结合ViT和CNN下采样的优点,有效减少信息损失,特别增强小而密集对象的上下文信息。

在Visdrone和UAVDT等大型无人机数据集上的实验表明,RemDet方法具有实时效率和优越性能。在极具挑战性的VisDrone数据集上,RemDet不仅取得了领先结果,将检测率提升3.4%以上,还在单个4090显卡上实现了110 FPS的高帧率。

综上所述,RemDet检测器为无人机图像目标检测领域带来了新突破,实现了高效、实时的检测性能。

2 RemDet

RemDet是一款专为无人机图像中的小且密集目标设计的目标检测器。本文的方法侧重于设计优化模块,旨在增强层间信息传递并有效减轻信息损失。

为满足实时检测的需求,本文深入探索了成本效益高的乘法运算,并运用了重新参数化技术,同时精简了不必要的组件。这些措施确保了RemDet在保持高性能的同时,也能实现高速推理。
在这里插入图片描述

2.1 Design Efficient Modules 高效模块设计

在这里插入图片描述
Design for Enhanced Information Interaction

在确立了层间设计原则的基础上,本文着重探讨如何加强层内的信息流通。传统上,多层感知器(MLP)常被用作维度扩展的首选方案。为此,本文引入了ConvFFN,这是一种创新的架构,其核心在于包含两个1×1卷积层。ConvFFN在结构上与前馈神经网络相似,但通过灵活调整隐藏层的维度,实现了性能的优化。实验结果显示,ConvFFN在显著降低参数数量和计算负荷的同时,其性能表现与那些依赖于密集计算和残差连接的基线模型相当。

ConvFFN 具体的PyTorch实现如下:
在这里插入图片描述

Multiplication Resulting in Higher Representations

在深度学习的应用中,多层感知器(MLP)是一种基础且常用的建模工具,尤其适用于处理输入输出数据。然而,面对像素稀疏且相关性低的图像数据时,MLP的操作可能显得冗余且效率低下。因此,寻找一种更为高效的维度映射方法变得尤为关键。

在自然语言处理领域,门控线性单元(GLU)作为循环神经网络(RNN)的一种替代方案,已展现出其独特的优势。本文特别关注GLU中的门控机制,该机制通过逐元素乘法来实现信息的筛选和传递。在探索MLP和GLU的维度扩展过程中,本文发现乘法操作在保持计算成本不变的同时,能够显著提升模型的维度和表示能力。这一发现促使本文采用乘法作为主要的设计策略。

进一步地,在ConvFFN架构的基础上,本文引入了Multiplication操作,对输入x进行分割处理。其中,一部分输入通过非线性激活函数进行“遗忘”处理,而另一部分则经过激活函数进行主要处理。最终,这两部分通过乘法运算相结合,并经过一个1×1卷积层输出。

综上所述,本文基于乘法操作的独特优势,将其作为核心设计方法,旨在提高深度学习模型的效率和性能。

Multiplication 具体的PyTorch实现如下:
在这里插入图片描述

Module Design 模块设计

如图5所示,本文的模型设计直观地呈现了本文所提出的方法。在C2f的基础上,本文巧妙地引入了双分支乘法机制,成功避免了瓶颈结构的出现,并在主分支中融合了1×1和3×3的深度卷积,形成了重参数化卷积。值得注意的是,直接的通道压缩可能会削弱模型的表达能力。为了克服这一挑战,本文特意将通道扩展因子设定为3,旨在增强层与层之间的信息传递。
在这里插入图片描述
在模型的最后阶段,本文精心设置了一个1×1的卷积层,其作用是压缩层内的信息,从而实现高效且精准的输出。这些精心的设计元素共同构成了本文独特的轻量级结构——GatedFFN。

此外,在颈部层的设计中,本文专注于C2f通道的扩展,创造了一个全新的结构——ChannelC2f。具体来说,本文将整体的通道扩展比例从0.5提升至1.0,同时,为了降低计算密集度,本文将瓶颈结构的扩展比率从1调减至0.25。通过这样的调整,本文仅通过优化通道扩展的方式,就有效地增强了层内的信息处理能力。

2.2 Context Enhanced Downsample Module 上下文增强下采样模块

在神经网络中,下采样模块负责降低特征图分辨率,但易导致信息丢失。为解决此问题,研究者们尝试了不同方法。EfficientViT和RepViT通过加深模块并增加FFN来压缩信息,但模型复杂度增加。轻量级CNN使用步长为2的3×3卷积,虽速度快但可能因深度不足而性能下降。ViT引入Patch Merge层增加通道扩展,Convnext则尝试融合ViT与CNN设计,但Patch Merge在分类任务中未完全超越卷积。

为此,本文提出CED模块,结合深度可分离卷积与Patch Merge。采用倒置瓶颈结构,步长为1,输入维度扩展。为克服深度可分离卷积的信息丢失问题,本文在深度卷积后插入Patch Merge层,增强逐点卷积的信息捕获能力。

CED模块设计如下图,通过合并不同通道并沿维度拼接,实现特征图尺寸减半、通道维度四倍增加,增强信息交互,减少信息丢失,同时保持高速推理。
在这里插入图片描述
综上所述,CED模块创新地结合了深度可分离卷积与Patch Merge,为神经网络下采样提供了高效且准确的解决方案。

3 Experiment

在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~