Advertisement

论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

阅读量:

Hello, 今天是我参与论文阅读计划的第19天。
同时也是我计划在接下来30天内介绍的最后一篇关于目标检测的论文。

一、背景

当前最先进的目标检测技术主要采用三角网或特征金字塔网络(FPN)作为其基础架构。然而,在编码器与解码器进行信息交互的过程中存在两大核心缺陷:一是该过程缺少有效的干扰抑制机制;二是未能充分评估各编码器模块之间的独特作用。针对这些问题,在本研究中我们设计了一种简洁有效的机制来同时弥补这两大缺陷

在编码器所提供的有效特征基础上,在解码器对高质量显著图表现出高度依赖性是众所周知的事实。然而,
尽管如此,
在上述方法中,默认将编码器与解码器之间的所有层级特征直接连接起来,
并未对不同层级特征融合的有效性进行量化评估。
这些缺陷不仅可能导致误导性的上下文信息被引入到解码器中,
反而导致真正有用的特征无法得到充分的利用。
从认知科学的角度来看,
杨等人所发现的现象表明,
抑制性神经元
在人类大脑如何选择处理呈现给我们的所有信息中最重要的信息方面起着关键作用。
抑制性神经元
通过抑制其他神经元以及平衡刺激神经元活动中的兴奋性神经元来实现对外部刺激适当反应的目的。
受到这一发现的启发,
我们认为在显著性检测机制中,
有必要在每对编码器和解码器块之间建立一个信息筛选单元。
它有助于区分显著区域中最强烈的特性和抑制背景干扰的影响区域。
由于受限于感受野的空间限制,
单尺度卷积操作虽然能够捕捉物体的基本形状信息,
但难以有效地捕捉大小变化物体所包含的复杂上下文信息。
当采用高膨胀率卷积时,
由于滤波核下填充了大量的零值以适应较大的卷积窗口尺寸,
这会导致滤波核内有效的相关性缺失问题更加严重。
这可能影响模型对外部细节结构差异的识别能力。

二、研究内容 & 贡献

本文设计了一种高效的显著目标检测网络架构,在此基础上提出了一个创新的门控双分支模块以促进多尺度特征间的协作关系。该模块通过融合多级门单元,在解码器与编码器之间实现了信息的有效交互,并增强了各子网络间的判别能力。具体而言,在特征提取过程中,我们首先利用卷积操作与非线性激活函数计算各层特征间的关联度,并对各个区域设定独立阈值参数。在此基础上,各区域间通过自适应权重机制形成了相互协调的关系模式。随后,在特征融合阶段,“折叠”操作将局部邻域内的信息整合成全局表示形式。“嵌套式”渐进卷积机制则能够有效提取图像中不同尺度的空间细节信息并加以放大。“映射型”注意力机制则实现了空间位置与深层语义表示之间的精准对应关系。最后,在这一系列处理之后,在每个解码层上引入动态自适应降采样策略以优化最终输出的质量表现

我们开发了一种简单的门控网络系统,在每个编码器模块与解码器之间实现了动态信息量调节的能力。该系统通过多级门单元实现了对各编码器块对解码器块贡献的均衡分配,并成功抑制了不显著区域的特征表现。
我们开发了一个Fold-ASPP模块,在捕捉更丰富的上下文信息的同时能够识别不同尺寸的关键点。
通过折叠操作能够生成更加高效的特征表达。
我们开发了双分支架构系统,在残差结构的基础上实现了各分支间的协同优化。

  • 基于五个具有挑战性的数据集,我们对所提出的方法与其他17种最先进的算法进行了对比实验。实验结果显示,在性能方面我们的方法表现出色,并且该方法实现了每秒30帧(FPS)的实时处理速度。

三、方法

在这里插入图片描述
在这里插入图片描述

选通网络架构如图2所示,在该架构中编码器块等分别表示为Ei等(其中i ∈ {1,2,3,4,5}用于标识不同级别的索引)。其输出特性图则分别为Ei等进行标注。预测结果则是FPN与并行结构融合后得出的结果。在本节中我们首先阐述了整个架构的基本组成随后深入探讨了门控双分支结构以及折叠式atrous空间金字塔池模块的技术细节

编码器架构 作为核心模块,在我们的模型中使用了一个公共预训练的基础网络。如VGG系列所示,在这种架构下构建了一系列深度学习模型。具体而言,在这种设计中包含十三个卷积(Conv)层、五个最大池化(max pooling)层以及两个全连接(fully connected)层级。为了适应显著性检测任务的需求,在原有架构的基础上进行了优化:舍弃了所有全连接层级,并去除了最后一个池化层级以保留最后生成的卷积特征图的空间信息。

解码器架构 。该系统由三个关键组件构成。第一部分是FPN分枝模块,在此过程中模型能够逐步整合不同层级的空间信息以提升编码精度。第二部分是并行连接机制,在这一阶段系统不仅能够整合各通道间的深层表示还能实现跨分辨率信息的有效传递。第三阶段则引入了门控机制,在编码器与解码器之间设置了多个门控单元(G1至G5)。特别地,在这一环节中还设计了一个特殊的折叠增强模块通过对ASPP结构进行优化重组从而使得空间金字塔特征提取能力得到了显著提升

门单元负责处理在比例匹配编码器与解码器块之间的信息传输关系,并根据这些信息动态调节其输出以实现精确的数据重构。在此过程中形成的门值变量能够量化当前编码块所作出的信息贡献程度,并据此优化整体数据重构效率。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

折叠操作图解:

在这里插入图片描述

效果可视化:

在这里插入图片描述

四、结论

我们提出了一种新型门控网络架构用于显著性检测。首先通过多级门单元实现各编码块之间的平衡,并抑制非显着区域特征的激活。从而在最小化干扰的同时为解码器提供有价值的信息源。由于其简洁高效的特点,在此研究中所提出的门控FPN架构可作为密集预测任务的理想基准模型。随后采用折叠ASPP模块来收集多尺度语义信息。随后通过折叠操作实现了局部对局部效果的同时扩展了感受野并保持了本地采样点间的相关性。最后通过并行整合各编码器提取的所有特征并构建残差连接以增强细节捕捉能力。

全部评论 (0)

还没有任何评论哟~