Advertisement

Image Enhancement Guided Object Detection in Visually Degraded Scenes

阅读量:

Abstract

在视网膜病变等视觉退化场景中进行目标检测的准确率出现了明显下降。针对退化图像的处理方案通常是先对其进行增强处理然后再执行目标检测流程。然而这种方法并非最佳选择,在实际应用中难以通过这种方式显著提升目标检测的准确率。经过深入分析发现,图像增强与目标检测这两个任务存在本质差异性导致单纯依靠图像增强难以有效提升检测精度为此我们提出了一种创新性解决方案即通过图像增强引导的目标检测方法以端到端架构整合了一个检测模块与一个额外的增强分支模块具体而言这两个模块采用并行结构设计并引入了特征引导机制用于优化检测模块输入图像的浅层特征使其能够更贴近增强图像所具有的特征特性由于在训练阶段增强分支被预先冻结状态因此这种设计不仅能够充分利用增强图像所带来的高质量信息还能够指导主干模型更好地理解和定位目标物体在整个测试阶段删除了特征引导模块后仅需对主干模型进行常规的目标检测操作从而实现了计算开销的有效降低

Introduction

通常,有三种方法可以将图像增强和目标检测任务结合在神经网络中。

  • 首先是对图像增强网络进行系统性训练,在此基础上将经过增强处理的图像作为后续检测任务的输入数据。
    • 第二个方案采用了端到端的方式将增强网络与检测网络进行串联连接。
    • 第三部分深入探讨了本文所提出的一种新型并行架构设计方案,并通过图1展示了三种不同的组合配置模式。
在这里插入图片描述

对于第一种方法:已被实验证明,在许多情况下(如目标检测),增强后的图像无法确保所有高级视觉任务都能从中获益;其根本原因在于这些任务的核心目标存在根本性差异。

本文主要贡献如下:

  • 开发了一种新的系统用于视觉退化场景的目标检测任务。
    • 开发了一个特征引导模块, 通过强制其特征图与增强分支的特征图保持一致, 从而提升检测分支性能, 并使该分支能够学习获取更多类型的特征信息。
    • 在测试阶段仅需完成检测分支的任务, 同时不会引入额外的计算开销。
    • 经过大量实验验证, 我们的增强引导检测网络在2021年水下机器人采摘大赛(URPC2021)、中国机器人工智能创新大赛(ChinaMM)[27]、机器人技术挑战赛(RTTS)[28]、大型联赛联赛(LLVIP)[29]以及ExDark[30]等比赛中表现优异, 明显优于原始网络。我们所知这是首次采用通用框架来处理水下、朦胧和微光场景中物体的检测问题。

Method

在这里插入图片描述

原始图像I被用作模块E和模块D的信息源。随后,浅层特征FI被传递给G模块进行处理。经下采样处理后获得IE',其尺寸与原始特征FI一致,因为增强分支的所有参数在训练过程中均保持固定状态,因而保持恒定。在损失函数Lc的作用下,原始特征FI趋向于与IE'达到一致状态,而衡量过程则考察了这两个中间结果之间的相似性程度。为了防止增强模块过快地被检测模块吸收,我们固定了所有相关参数,从而确保后续的学习过程得以专注于提升检测模块的能力,使其能够更好地捕捉各类细节特征。特别指出,即使增强模块E能够输出清晰度较高的图像,但我们的主要目标仍是指导检测模块建立更为精确且丰富的表征空间,以便更有效地实现对象定位与分类任务

Overview of the Method

针对缺乏处理视觉退化场景中对象检测的通用框架的问题,在本研究中我们提出了一个模块化架构(module-based architecture),该架构由三个关键组件构成:检测组件(detection module)、增强组件(enhancement module)以及特征引导模块(feature guidance module)。其中前两个组件采用并行结构组织(parallel organization),而第三个组件则负责引导低层学习对象信息的丢失细节(lost details of low-level learning objects)。由于在视觉退化场景下所获得的对象呈现显著的特性退化(characteristic degradation),因此提升低级特征提取能力对提高检测性能至关重要(significance of feature extraction)。已有研究对此进行了深入探讨(detailed investigation),其中一项重要发现是将增强图像中的特定特征输入到以下部分:detection module。为了进一步优化本研究中的模型性能,在实验过程中我们采用了另一种策略:通过引入增强图像的特征作为指导信号(guide signal),使得检测组件中的低级特征图趋向于更加注重图像增强后的细节信息(high-level details from enhanced images)。值得注意的是,在不增加网络计算开销的前提下,在测试阶段移除了这两个关键组件:enhancement module 和 feature guidance module

Detection Branch

在不利条件下拍摄的照片中往往难以辨认主要物体及其位置信息,在这种情况下传统的基于区域的方法可能无法有效提取目标特徵进而影响整体性能表现为此我们需要一种能够适应复杂场景并持续优化特徵提取效率的方法为此我们提出了基于深度学习框架的新方案通过引入多级联接机制可以显著提升模型对复杂场景的理解能力和目标定位精度

Enhancement Branch

增强分支本质上是一个经过预先训练的图像增强模型;它接收原始图像并生成增强图像;同时应根据研究的具体成像场景进行选择。具体来说,在针对水下目标检测时;我们采用水下图像增强网络作为增强分支;而在雾天目标检测的情况下;则采用去雾模型来处理数据。

例如 UIEC∧2-Net 由两个功能明确且相互协作的连续模块构成 它们共同作用以生成最终的结果。单独从任一模块提取出的特征图往往会遗漏重要的信息 因此单独依赖某一层次上的特征图进行低级层次检测的方法在数据不足的情况下也难以奏效。

为了克服这种不匹配问题 我们提出了一种新的基于特征引导的新颖机制 并将在后续内容中详细阐述这一创新性的解决方案。

Feature Guided Module

图2展示了特征引导模块的结构。作为输入的两个部分是增强图像IE和平层特征图FI。分别沿通道轴执行最大池化操作和平均池化操作从而得到两个高度压缩的特征图。将它们连接后形成一个仅包含两个通道的特征描述符。通过沿通道轴应用池化操作能够显著地增强对重要区域的关注。该模块通过最大池化与平均池化的结合能够有效地提取主要特征

Loss function

我们所提出的方案中所涉及的损失函数由两部分构成:检测损失Ldet和一致性损失Lc;为此我们设计了一种用于计算F’I与I’'E之间一致性的MSE(均方误差)方法

在这里插入图片描述
在这里插入图片描述

λc设置为0.5

experiments

Details

batch size:4,没有使用数据增强,RTX3090,

DATASETS

haze image datasets 在RTTS中选取了3673张图像作为训练集,并将其中649张图像用于测试。

在这里插入图片描述

相较于基于微调的方法YOLOv3(Separate Way),将增强任务与检测任务分开实施导致物体检测性能有所下降。然而其增强后的图像更加贴近人类视觉系统的特点。值得注意的是仅用于视觉增强的部分可能对检测网络的关键特征提取产生了负面影响

  • 串行模式(cascaded way)未带来明显的性能提升,在多个指标中表现略不如前,并尤其AP值出现略微减少的现象。此外,在生成增强图像的过程中需要额外的时间开销。
  • 在相同计算成本的前提下,并行策略实测显示能带来显著的性能优化效果。URPC 2021 数据表明,在与基线模型相比时 mAP 提升了约 3 个百分点(具体数值从 42.3% 增长至 45.3%)。RTTS 测试中则实现了大约 2.6 个百分点的增长(数值范围从 47.4% 增长至 50%.)至于 LLVIP 场景下,并行策略较传统方法提升了约 2-个点于 AP 值 (具体数值从原来的 28,%, 上升至 36,%. 其中 AP_0,75 更是实现了8,%. 的增长)
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~