【目标检测论文阅读笔记】Small object detection in remote sensing images based on super-resolution
Abstract
遥感图像中的精确目标识别意义重大。军事领域以及民用领域中的安全、交通管理与救援行动均能通过充分提取与利用这些图像信息得以实现。针对遥感图像中小尺寸目标难以检测这一关键挑战,在本研究中我们提出了一种改进型S2ANET-SR模型。该模型基于S2A-NET网络构建,在处理小尺寸目标检测任务时展现出显著优势。具体而言,在模型架构设计中我们开发了专门针对缩小图像的超分辨率增强模块以优化特征提取效果。此外还创新性地引入了感知损失与纹理匹配损失两项监督指标作为训练依据最终验证结果表明在DOTA通用遥感数据集上的评估显示该方法在平均精度方面较基准模型提升了0.79%(达到74.47% mAP)。
1. Introduction
遥感技术的发展开启了立体、多层次、多方位的对地观测新时代 。遥感影像数据处理可用于军事、气象等不同领域 。然而,在遥感图像中存在许多复杂的空间场景和大量不同类型的对象。在遥感图像中进行目标检测与传统方法不同:存在大量小尺寸、杂乱无章且呈旋转状态的目标。这使得识别行人及车辆等小型目标变得更具挑战性。
目标检测是计算机视觉领域的一个核心问题,在环境监控、入侵检测、人机交互等多个领域得到了广泛应用。其目标是实现快速准确的目标识别,并为计算机视觉应用提供关键信息支持。从发展历程来看,在传统的人工特征提取方法上,其性能自2010年以来几乎没有突破性进展。而基于卷积神经网络的目标检测技术已逐渐成为研究热点,并在实际应用中取得了显著成效。随着计算能力的快速发展和优秀网络结构的出现,基于深度学习的目标检测技术取得了突破性进展并得到了广泛应用
深度学习的发展为遥感图像中的目标检测领域带来了前所未有的机遇。然而,在各个研究领域取得成果的同时仍存在诸多亟待解决的问题。小目标检测被公认为这些关键问题之一 ,因此亟需持续改进与突破[1,2]。在此背景下,在本文中我们以S2A-NET [3]为基础提出了一种新型的小目标检测算法S2ANET-SR ,该算法旨在显著提升遥感图像中小目标的检测精度。鉴于所构建框架的高度通用性 ,我们的算法不仅适用于遥感图像的小目标检测 也可推广至其他小目标检测相关应用场景
该工作的贡献总结如下:
本文利用超分辨率方法开发了S2ANET-SR模型,并开发了一个损失函数以优化遥感图像中小目标的检测性能。
本文取消掉了FAM模块内部的分类功能模块;通过这一措施得以维持了模型整体复杂度水平与S2A NET基本持平。
本文在DOTA 数据集上的定向对象检测任务中达成了74.47% 的平均精度(mAP),相较于该领域的基线模型S2A-NET 实现了0.79% 的提升。
2. Related work
2.1. 遥感图像中的目标检测
在过去的十年里,自然场景的目标检测已取得长足进步[1]。然而,在遥感图像领域这一领域的进展一直较为缓慢的原因在于航拍场景中缺乏标注得良好的数据集[2]。为此提出了基于大规模数据集的航拍图像目标检测(DOTA)[4]这一研究方向,并采用Faster R-CNN (FR-O)作为基线模型[4]。值得注意的是,在Faster R-CNN模型的回归分支增加了额外的回归目标θθθ来表示旋转的对象[4]。RoI Transformer算法不是通过密集采样不同角度的锚框来提取旋转不变特征[5]而是基于轻型全连接层在RPN阶段学习出旋转RoI的变换参数并提取感兴趣区域(RoI)的旋转不变特征[5]。最近提出的S2A-NET算法通过一种创新性的对齐卷积(Aignment Convolution)提取细化锚框的位置信息并通过AnchoreRefinementNetwork锚框细化网络生成高质量锚框[3][6][7]这些显著的进步为特征对齐提供了新方法从而帮助算法学习更精确地提取特征然而遥感图像中仍面临密集物体与小尺寸目标检测等挑战
2.2.小目标检测
自动驾驶系统必须精确识别交通信号灯以及行人
2.3. 超分辨率方法
超分辨率是一种利用低分辨率图像生成高分辨率图像,同时恢复尽可能多的详细信息的技术 [9]。 SRCNN 是首次成功尝试仅使用卷积层进行超分辨率 [10],其结构简单明了,因为它仅由具有 ReLU 非线性的卷积层组成。与线性网络相比,残差学习利用跳跃连接来避免梯度消失,并使深度网络的设计成为可能。Enhanced Deep Super-Resolution 增强型深度超分辨率 (EDSR) 去除了 ResNet 每个残差块中的批归一化层,因为它们摆脱了网络的范围灵活性,并提出了一种新的多尺度深度超分辨率系统,其中大部分参数共享 [11]。受基于注意力模型的成功启发,提出了残差通道注意网络(RCAN)[12],具有 残差中残差residual in residual(RIR)结构 以形成非常深的网络 ,通道注意机制以通过通道之间的相互依赖性重新缩放通道特征。然而,大多数方法为了追求更好的超分辨率结果而采用规模大、参数多的模型,导致计算资源消耗较高,网络运行速度较低 。
3. The proposed method
3.1.

A-NET 分析
深度学习算法近年来在计算机视觉领域展现出显著的应用前景,并被广泛认为是遥感图像处理的主要技术之一。 S2A-NET 被视为遥感图像分析中性能卓越的端到端目标检测方案,在DOTA基准数据集上实现了令人瞩目的实验结果[4]。 该算法通过创新性地解决anchor框与轴对齐卷积特征之间存在的错位问题,在此基础上提出了独创性的Alignment Convolution方法。 值得注意的是 ,与现有研究中普遍采用密集采样策略不同的是 ,S2A-NET采用了更为简洁的方式——为特征图中的每一个位置仅配置一个方形锚框 ,并通过其细化网络将其转化为高质量旋转特化的高精度旋转锚框。
基于深度学习的应用通常依赖于从图像中识别潜在特征的能力。随后,在神经网络架构中执行前向传播运算以生成预测结果。能够提供丰富输入信息且配置合理的神经网络架构被认为是获得理想检测结果的关键因素。然而,在遥感图像中占据相对较小比例的小目标可能导致边缘特性和纹理信息被显著抑制或完全丢失。与此同时,其基础模块通常包括多个层级的空间缩减操作以减少计算量并提取高阶抽象特征。这些操作可能使得在处理过程中被压缩至仅有几个像素的高度从而影响其后续检测效果
3.2. S2ANET-SR
目前最先进的检测方法在处理大型目标时显示出较高的准确性(现有的先进检测方法在处理大型目标时显示出较高的准确性)。这表明这些方法具备准确识别目标的能力(这表明这些方法具备准确识别能力)。然而,在实际应用中发现小物体(小目标)的检测精度较低(因此,在实际应用中发现小物体(小目标)的探测效果较差)。Perceptual GAN通过将大规模物体作为正样本以及小型物体作为负样本生成大规模物体来增强小型物体的表现(Perceptual GAN采用大物体作为正样本、小物体作为负样本生成大的物体从而增强了对小型物体的表现刻画)。受此启发我们在此基础上提出了新的改进方案(在此基础上我们提出了新的改进方案)。具体而言我们利用遥感图像中的相同特征但不同尺度的大规模物体信息来提升小型物体特性的捕捉能力(具体而言我们采用该算法提取的大规模车辆特征通过逐像素叠加的方式进一步提升了小型车辆特性的捕捉能力)。在基于FPN的检测算法[6]中经过特征求取后的大小规模对象前向传播网络架构以及参数设置完全一致(在基于FPN的检测算法[6]中经过特征求取后的大小规模对象前向传播网络架构以及参数设置完全一致)。由此可见输出差异主要由输入的目标特异性所导致(由此可见输出差异归因于输入的目标特异性)。在此基础上本文提出了一种改进的方法将在后续章节详细探讨其具体实现及效果评估(在此基础上本文提出了一种改进的方法将在后续章节详细探讨其实现方式及其效果评估)。
3.2.1. 图像的多尺度前向传播
以前的检测网络主要依赖最后一层特征图进行预测,在面对图像中目标不同尺度时表现出较差稳定性。为了应对这一挑战,FPN提出了一个创新性解决方案。如图1所示左侧部分展示了输入的不同分辨率特征图分别包含256、512、1024及2048个通道信息。而经过FPN处理后输出的所有特征图统一缩减至256个通道(如图1右侧)。为此方案中采用多级特征提取策略作为最终表征手段,有效解决了多尺度检测问题并显著提升了检测性能。

大物体和小物体的区别在于尺度维度上的明显差异。
通过将图像尺寸减半操作,则其中所包含的物体尺寸也会相应减半。
卷积神经网络中,感受野定义为特征图某一点对应原始图像区域的大小。
本文基于特征图的感受野特性,在FPN自下而上四层特征图中分别设置了用于回归检测任务的方形锚框宽度分别为32、64、128及256个像素单位。
这样设计使得模型能够更加灵活地适应不同尺度的目标检测需求。

在本文中,在网络结构中进一步增加了两个前向传播过程(如图2所示)。其中输入I₂代表了原始图像按两倍缩小后的版本;而输入I₄则代表了原始图像按四倍缩小后的版本。通过这种处理方式,则使较大的物体被缩减为较小的物体,并获得了不同尺度下的特征表示。在此基础上可以看出,在放大层的存在下,在检测较大目标时能够辅助识别较小的目标位置。
3.2.2. Feature enhancement module

FPN 的较低层(如图 3 所示右侧)能够识别边长大约在 32 像素附近的物体。随后上部两个层级则分别专注于探测稍大的物体——其中第二个层级专注于识别约 64 像素边长的物体。至于更高层次则能够分辨出更大的目标——分别为128像素和256像素边长的物体。为了便于后续操作我们将图像 I 中飞机区域用变量 o 表示。假设我们将原始图像按比例缩小至二分之一大小生成新图像 I₂那么原图中被标记的对象 o 在新图中将被重新定位并标记为此处我们将其命名为 o₂ 并具有较小的空间分辨率即大小仅为 32 × 32 像素。此外 FPN 在处理原始未缩放图像时所提取出的关键特征图可记为 FM 而在处理缩放后图像时提取出的关键特征则标记为 FM'

和

分别代表FPN输入端与输出端所对应的特征图,在这种体系中i标记自上而下第1至第4层特征图的位置(即i=1对应最底层特征),这一设定与FM’保持一致性。预测模块则用Pi表示,在此框架下同样遵循相同的层级划分方式。针对图像I而言,在FMout2层能够识别出目标o(如图3所示的一个飞机)。然而当处理图像I2时,则需要考虑其缩放比例的问题:由于该图像尺寸仅为原始大小的一半,在此情况下物体o2的实际尺寸被限制为32×32像素级别。因此,在进行预测时需要特别注意这一变化带来的影响范围。

该层被检测到。然而由于图像尺寸缩减会导致整体图像分辨率下降,并且缩小后的物体o2所包含的特征信息相对较少。这使得对小目标物体的检测精度受到影响,在实际应用中可能导致该检测方法可能会影响小目标的检测效果

处可能检测不到o2。
因图像分辨率降低而导致的特征信息缺陷可能进而导致检测算法失效,在本研究中我们开发并引入了一个基于S2A-NET架构设计的超分辨率模块来显著地增强小目标的特征提取能力,在模型训练过程中这些细粒度的目标特征能在FPN的深层部分中被有效提取

经检测显示(如图3所示),超分辨率技术旨在将输入图像转换为更高分辨率的输出图像(记号:SR)。其中输入与输出之间具有高度关联性[9]。(如图3所示)该超分辨率模块的设计目的是实现对该过程的有效重建

该系统具备更为详实地捕捉小型目标特徵的能力。该模块由三个并列排列的全局残差块构成[13]。这些块专注于提取源特徵图中的关键信息。

和 目标特征图

之间的残差,以恢复缺失的高频细节,并以原始图像

的相应特征图作为

的监督。由于两个特征图

和

之间的大部分残差接近于零 ,因此残差模块的学习难度没有明显增加。
3.2.3.损失函数
大尺寸物体具有足够的特征,可以很好地检测到 。在本文中,我们以

和

通过 作监督手段来提升小目标检测的效果。当前最先进的检测网络在处理具备丰富特征的大物体时表现出良好的效果,并未影响到预测组件的工作状态。然而,在本文中我们采用的方法是直接利用特征图进行监督训练而不依赖于网络的整体输出层。这种设计有助于提升模型在不同尺度上的表现。

和

该模型呈现出相似的属性;进一步说明的是,在这种情况下,两个特征图具有相同的维度, 从而能够从像素级别的视角进行损失计算
Geirhos等人对卷积神经网络技术[14]进行了系统性的实验研究,并指出,在目标检测领域中,深度学习技术主要依赖于纹理而非形状。相较于较大的目标而言...然而较小的目标与较大者之间..." 如图1所示, 我们提出了一个综合考量原始分类损失和回归_loss_ 的超分辨率_loss_ 模型.通过采用Enhance Net[15]提出的感知_loss_ 和纹理匹配_loss_ 作为本文特征图的主要评估标准.
(1) Perceptual Loss 感知损失
我们用FLR来表示待增强的低分辨率特征图,并以FHR为例说明用于监督学习的高分辨率特征图。这两个特征图均被输入至同一个可微函数中,在其中通过等式(1)计算得到的结果即为所求。

本文采用FM2out 和FM1'out 作为损失函数的输入参数 ,分别代表低频重构(FLR)和高频重构(FHR)。我们采用像素级均方误差(MSE)损失函数来训练模型 。
(2) Texture Matching Loss 纹理匹配损失
采用纹理特征损失作为优化目标,并如式(2)所示,在实验中验证了该方法的有效性。

在等式(2)中,

在FPN架构中,F代表某一层特征图。如公式(3)所示,在该层特征图F中存在每对通道之间的特征点积关系。其中fi表示该层通道i处的特征响应值。两个通道fi和fj之间响应值的关联程度能够反映其间的高级纹理细节信息。因此通过构建Gram矩阵G能够有效提取图像整体上的纹理特性信息

4.实验与分析
4.1. 数据集
该数据集DOTA-v1.0是一个具有定向边界框标注的大规模遥感图像目标检测基准库。它整合了来自Google Earth、GF-2卫星以及中国JL1等多源平台的大尺寸遥感图像样本。这些图像涵盖不同分辨率层次,并具有丰富的类别信息:共有15个类别共计18,882个实例包括飞机(SV)、棒球内场(BD)、桥梁(BR)等技术指标类型以及田径场(GTF)等运动场景设施类型的小型车辆(LV)等交通工具类型和其他复杂物体类型如大型车辆(LV)船舶(SH)等水上交通工具类型以及存储设施类型的储罐(ST)足球场(SBF)环岛(RA)海港(HA)游泳池(SP)和其他静态设施类型如直升机(HC),这些分类依据具体场景属性特征进行了科学划分以满足多样化的研究需求
4.2. 实现细节
目标检测任务和分类任务在网络的图像特征提取部分遵循相同的流程。在本文中,基于预训练好的分类模型,并通过微调的方法对DOTA数据集进行进一步优化;同时保留了特征提取网络的参数
基于 PyTorch,在配备有4个12G显存的GeForce RTX 2080 Ti服务器上实现了一种新的算法设计。为了构建该算法框架,我们选择并采用了S2A-NET ResNet50-FPN模块作为核心模块,并参考了MMDetection [16] 的训练配置方案。在实验过程中,我们移除S2A-NET中的FAM模块中的分类组件这一决定是出于以下原因:由于该组件对主网络训练无显著贡献且未提升检测精度。此外,在针对Dota数据集的学习迭代周期设定为12个 epochs的过程中我们也进行了详细测试。为了提取更丰富的特征信息输入图像按比例缩小至原图尺寸的二分之一和四分之一从而生成多尺度特征图用于模型训练。整个模型经过32,000次迭代进行了优化其中初始学习率为0.01并且采用了学习率预热技术进行了500次迭代更新之后逐步将学习率衰减到原来的十分之一以加快收敛速度。在实际应用中我们采用了四个GeForce RTX 2080 Ti GPU并设置了总批大小为8来进行分布式训练与推理过程同时使用SGD优化器来最小化损失函数以评估模型性能我们采用平均精度(mAP)[17]这一指标来衡量所提算法的有效性
4.3.消融研究
为了检验本文所设计模块的实际效果, 我们通过一系列消融实验来评估所提出的两个损失函数. 使用 S2A-NET 作为基准模型, 其在 DOTA 数据集上达到了 73.89% 的平均精度(mAP)水平
因为占据主要部分的是那些无需学习且计算量较大的背景区域
4.4.与 S2A-NET 的比较

S2A-NET与S2ANET-SR算法对遥感图像中各类别目标的检测性能及mAP值如表2所示。研究表明,在大多数场景下所提出的改进型算法S2ANET-SR展现出显著的优势 。值得注意的是,在小型车辆类目标上(约为所有测试样本数量的30%),该算法实现了比传统方法更高的平均精度(AP)提升幅度;而在飞机类目标上的表现同样突出,在同类测试集上也获得了更高的准确率(Recall)指标数值。综合来看该改进型算法不仅能够有效提高整体检测精度 ,还能够在特定复杂场景下实现显著性能优化效果

图4展示了小型车辆与飞机的对比检测试卷结果。其中图4a与d分别代表待检测试卷图像源数据集中的样本图像;而图4b与e则对应于基于S2A-NET算法进行过的检测试卷运算结果;同理可得图4c与f是基于S2ANET-SR算法处理后的检测试卷输出数据集。通过对比分析可以看出,在图4b与e中存在3个以及2个未能被S2A-NET算法成功检测试试看出的目标物体;这些未检测试试看出的目标物体均以红色字体进行了特别标注以供进一步研究分析。为了进一步提高小尺寸物体如车辆与飞机等目标项目的检测试试看效利用率,在本研究工作中特意引入了一个超分辨率模块并合理配置了一组优化损失函数参数设置以实现目标项目的精准检测试试看。”
基于原始图像与缩小图像之间的普遍特征信息具有相似性可知 可比而言 超分辨率损失 其初始损失水平明显低于 检测损失 曲线 即蓝色 橙色和绿色曲线 这一现象较为显著
5.结论
在本文中
