【论文阅读笔记】ThunderNet: Towards Real-time Generic Object Detection
《ThunderNet: Towards Real-time Generic Object Detection》
-
(一)论文地址:
-
(二)所解决的核心问题:
-
(三)ThunderNet的理论基础和技术创新:
-
(四)Backbone模块——SNet:
-
- 1. 感受野的概念及其对特征提取的影响:
- 2. 早期特征与后期特征的差异及其重要性:
- 3. 网络架构的设计思路及其特点:
- 1. 感受野的概念及其对特征提取的影响:
-
(五)上下文增强模块(CEM):
-
(六)压缩RPN及检测头:
-
(七)位置敏感的区域自适应池化:
-
(八)空间注意力机制(SAM):
-
(九)实验验证结果:
(一)论文地址:
https://arxiv.org/pdf/1903.11752.pdf
(二)解决的问题:
随着卷积神经网络技术的发展,目标检测的准确率显著提升,然而,相应的计算开销也随之急剧上升,这使得目标检测技术在实际应用中面临诸多限制。
尽管一些one-stage方法(如SSD)在计算开销和运算复杂度上相对较低,但它们在目标检测框的预测精度方面仍与two-stage方法(如Faster-RCNN)存在显著差距。
因此,作者在这里进行了深入研究,将具有高准确度的 two-stage 方法成功应用于嵌入式系统及资源受限的环境,经过一系列实验验证,ThunderNet开发出了能够在ARM平台上实现实时检测器并保持最快的单线程速度的解决方案。

(三)ThunderNet 的核心思想:
研究者指出,目前大多数实时目标检测器的主干网络主要采用复杂分类网络配合较大尺寸的输入图像,然而,这种做法会导致计算资源消耗显著增加。
此外,在目标检测与图像分类网络之间存在显著差异:目标检测依赖于宽广的视野范围和浅层特征来增强定位能力,相比之下,图像分类则依赖于更深层的语义信息。
为此,作者在 ThunderNet 中提出了以下几点:
- 基于 ShuffleNetV2 开发了一种新型主干结构 SNet,专为目标检测任务设计,具备显著的广域感知能力和多级信息融合特性。
- 基于 Light-Head R-CNN 的研究,进一步优化了 RPN 和 R-CNN 子网络,成功降低了模型参数并扩大了感受野范围。
- 开发了 Context Enhancement Module(简称 CEM),取代了传统图像金字塔的复杂操作,整合了不同尺度特征层,显著提升了感受野。
- 设计了 Spatial Attention Module(简称 SAM),旨在强化训练过程中的前景信息表达,并优化了特征层的空间分布。

(四)Backbone Part——SNet:

SNet 的设计理论基于以下几点:
1. Receptive Field(感受野):
感受野的范围在 CNN 模型中具有重要意义,这主要是由于局部感知特性的影响,卷积神经网络中的卷积层仅能接收感受野范围内的输入信息。
因此,显著的感受也关联着更多的上下文信息,并且使得像素之间的联系更为紧密,这对目标检测和语义分割任务至关重要。
2. Early-stage and Late-stage Features:
在主干网络中,浅层的(Early-stage)特征层较大,其包含了更多关于边缘、角和颜色等浅层描述空间特征的信息;而深层的(Late-stage)特征层则较小,但能够捕获更为深入的语义信息。
就整体而言,目标检测(Localization)对于浅层信息表现出显著的敏感度差异,相比之下,目标分类(classification)对于深层信息则展现出更高的敏感度。
在研究中发现,目标检测(Localization)相较于分类任务更为复杂,由此可见,浅层特征对于模型性能的提升具有重要意义;此外,深层特征的提取对提升分类准确率和坐标框的精度同样具有不可替代的作用。
3. SNet 的结构:
这里作者提出了可以使用 SNet49(更快)、SNet535(更准确)、SNet146(平衡)作为主干网络;
ShuffleNetV2 的结构如图:

对于 SNet49,我们将 3×3 的深度分离卷积(DWconv)全部替换成 5×5 大小的卷积核,在计算开销增加幅度可控的前提下,成功提升特征层的感受野,使其从121提升至193。同时,我们将 ShuffleNetV2_49 中的 Conv5 通道数缩减为512,并相应地提升浅层网络的通道数量,以在信息的表征层次和深度维度上实现均衡。
对于SNet146和SNet535,我们删除了ShuffleNetV2_49中的Conv5层并提升浅层网络的通道数量,从而进一步丰富了浅层网络的信息量;

(五)上下文增强模块——CEM:

该研究团队开发了一个高效可靠的模块,用于实现扩大感受野和融合不同层次特征的目标——Context Enhancement Module(CEM)。
CEM整合了三个不同尺寸的特征层:C_4、C_5和C_{glb},其中,C_{glb}是通过将C_5经过全局平均池化层(global average pooling)处理得到的,从而生成全局特征;
CEM 的结构如图:

各特征层(C_4,C_5,C_{glb})均经过1×1卷积进行降维处理,最终输出通道数为\alpha×p×p=245个,其中,参数α和p是Position Sensitive ROI Pooling(简称PSRoI)的参数,下面将详细介绍相关内容。
此外,C_5采用了双倍上采样,采用广播机制将特征放大至与C_4一致的尺寸,随后,将三个特征层进行叠加融合。
(六)Compressed RPN and Detection Head:

该方法将MobileNets框架中的3×3卷积模块拆解为一个5×5的深度可分离卷积模块和一个1×1的卷积模块,从而显著扩大了RPN模块的感受野范围,同时降低了整体计算复杂度。
同时预选框采用了 (32^2,64^2,128^2,256^2,512^2) 共 5 个大小,(1:2,3:4,1:1,4:3,2:1) 共 5 种长宽比;
其他的参数跟 RPN 网络相同;
(七)Position Sensitive ROI-Pooling:

在检测框架R-FCN中,位置敏感的候选区域池化(缩写为PSRoI)是其主要创新点,通过在候选区域中引入位置敏感性,该技术实现了对目标定位的高精度捕获。
其主要思路是,在特征聚合的过程中,人工地引入位置信息,从而有效降低了较深神经网络对物体位置信息的敏感度;另一方面,R-FCN的大部分操作都是直接作用于整张图片,这显著提升了网络运行的效率。

在图中,每个候选区域被划分为 k^2 个均等的矩形单元。随后,原始特征图通过一个1×1的卷积层生成了具有 k^2×(C+1) 个通道的特征图。
此时,k^2被表示为一个ROI里所有矩形单元的个数,而C+1则被表示为所有类别总数加上背景。
这些 k^2×(C+1) 张特征图按照每 C+1 张进行分组,总共分为 k^2 组,每组则负责向对应的矩形单元发送响应指令。
池化操作应用于每一个ROI时,每个点(共 k^2 个)均通过平均池化操作从上一层的同一分组的对应位置区域获取,从而生成一组包含 C+1 张特征图的输出集合。
在处理过程中,通过全局平均池化操作处理这些特征图,生成一个 C+1 维的向量,即为目标分类(包括背景类)的预测向量;
注意 ThunderNet 中 C+1 不再代表目标分类数目,而是记为参数 \alpha ;
(八)空间注意力模块——SAM:

Spatial Attention Module(空间注意力模块,简称 SAM)用于增强训练过程中的前景信息表达,并通过调整特征层的空间分布来优化其特征表示。
SAM 的结构如图:

经过 RPN 网络的输出 F^{RPN} 经 \theta 映射(即 245 个通道的 1×1 卷积处理模块)进行降维处理,经BatchNorm和Sigmoid函数激活后,其矩阵值分布限定在区间 [0,1] 内。随后,该结果再与 CEM 的输出 F^{CEM} 进行点乘运算,最终得到 F^{SAM}。
(九)实验结果:
简单来说,又快又准:


