深度学习论文: Improved YOLOv5 network for real-time multi-scale trafficsign detection及其PyTorch实现
该研究提出了一种增强型YOLOv5网络架构,专为实时多尺度交通标线检测设计。该研究提供了一份详细的论文PDF文件:https://arxiv.org/ftp/arxiv/papers/2112/2112.08782.pdf。其对应的Python实现主要包含两个关键部分:一个是基于深度学习框架的算法优化库https://github.com/shanglianlm0525/CvPytorch;另一个是针对复杂场景下的目标检测优化方案https://github.com/shanglianlm0525/PyTorch-Networks。
1 概述
本文提出了一种优化版的YOLOv5网络系统,在保证车辆侧设备部署需求的同时,并显著提升了多尺度目标检测能力,并以实现快速检测目标。
- 开发了一种创新性的特征金字塔网络架构。
该网络通过引入自适应机制实现多层级特征融合,并结合优化后的感受野设计,在信息传递过程中最大限度地保留通道细节。
系统能够根据各层特征图的具体特点自主调整各自的感受野范围,
从而显著提升了多尺度目标检测的精确度; - 基于AutoAugment的成功案例,
本研究提出了一个集成最新数据增强技术的新策略。
该方法不仅有效提升了模型训练效率并增强了抗干扰能力,
而且展现出更大的实用价值。 - 相较于现有的YOLOv5网络,
本系统进行了全面优化升级后版本。
主要改进包括降低了多尺度检测中的不变性问题,
并实现了对交通标志等常见场景的高度实时识别能力,
完全适用于车载移动设备平台的实际应用需求。
2 Improved YOLOv5

2-1 AF-FPN
AF-FPN基于传统特征金字塔网络,在此基础上加入了自适应注意力模块(AAM)和特征增强模块(FEM)。其中一种设计降低了由于 feature channels 数量减少而导致 high-level feature maps 中缺失 context information 的现象。另一方面,在提升 feature pyramid 表征能力的同时也提升了推理速度,并且这种设计能够达到 state-of-the-art 的性能水平。如图所示为 AF-FPN 的具体架构

Adaptive Attention Module (AAM)
AAM生成的特征图包含了复杂的多尺度背景信息,在一定程度上缓解了通道数量缩减导致的信息损失问题。

Feature Enhancement Module (FEM)
FEM通过灵活地应用扩张卷积来适应不同特征图中的感受野变化,并能够有效地提升多尺度目标检测的准确率。

2-2 Data Augmentation
在搜索空间中将增强学习策略问题转换为离散优化问题并使用强化学习方法作为搜索算法的基础

2-3 损失函数
采用Generalized IoU (GIoU) Loss作为BBox损失函数,并结合加权的非最大抑制(NMS)方法。
3 Experimental

