Advertisement

【论文阅读】【TIPRGB】WaveNet: Wavelet Network With KnowledgeDistillation for RGB-T Salient Object Detection

阅读量:

引言

任务:RGB-T显著目标检测

论文地址:

WaveNet: Wavelet Network With Knowledge Distillation for RGB-T Salient Object Detection | IEEE Journals & Magazine | IEEE Xplore

代码地址:

https://github.com/nowander/WaveNet

前置知识

一、摘要

从波函数表示的角度出发, 我们提出了一种基于小波变换的独特架构WaveNet. 该架构采用了新型基于小波变换的独特方法进行特征提取, 并特别适用于视觉任务. 为了实现显著目标检测, 我们设计了一种逐步级联的正弦-余弦模块来进行跨层特征融合. 此外, 通过多层感知机(MLP)处理低层特征以精确定位显著目标边界. 在模型训练过程中, 我们从最短路径理论的角度出发, 采用Kullback-Leibler距离作为正则化项, 使RGB特征尽可能与热红外特征相似. 这种离散小波变换的方法能够同时捕捉局部时域与频域特征的变化情况, 并被成功应用于跨模态特征融合任务中.

二、面临的挑战

CNN在网络池化层展示了平移不变性及信息损失特性;然而Transformer未能满足条件计算的需求;此外还提出了基于小波变换的一些改进方案[46];相比之下,在结构上更为简洁,在性能上仍能达到与当前最优模型相当的表现水平;因此我们选择Wave-MLP作为特征提取模块,并将其纳入整体架构中进行SOD;另一方面,在提升SOD性能方面采用了知识蒸馏技术对训练过程进行优化。

三、创新点

•我们建议采用基于Wave-MLP架构的WaveNet模型。

•受图信号转为波信号转换机制的启发,在RGB-T模态特征映射中应用离散小波变换(DWT)[30]以实现跨层特征融合,并设计了一个渐进拉伸型正弦余弦模块用于融合多模态特征。

•通过知识蒸馏技术提升RGB-T目标检测(SOD)性能,在预训练权重较轻的学生WaveNet模型中融入教师网络的知识表示,并显著提升了模型的有效学习能力。

•据我们的研究发现,在多个公共基准测试中所提出的WaveNet模型表现优异:相比现有最先进(SOTA)方法而言,在检测效率方面提升了15%,在检测精度上达到了相当水平的同时实现了网络规模缩减约10%。

四、DWT模块

在数字图像处理领域中,离散化的连续小波及其小波变换是一个必要的步骤。随后,则可采用二进制离散化方法。为了提高效率与准确性,这些离散的小波及其相关的变换被整合到一个全新的DWT模块中。这一过程通过将基本小波的尺度和平移进行离散化,并将图像分解为一系列的小波系数来实现。该方法使得我们能够在局部时域上检查频域特征,在局部频域上则能够观察时域特征的变化情况。这种自适应的时间-频率分析方法不仅提高了分析精度而且显著减少了计算复杂度。

基于RGB与热红外数据提取低频分量(xl, yl)及高频分量(xh, yh),并利用离散沃尔特变换(DWT)进行处理。不同数据中的低频分量具有重要意义,通常反映总体特性而非细节特性;而高频分量则携带图像细节信息。
我们通过将RGB与热红外特征的低频分量进行融合处理,并结合逆离散沃尔特变换(Inv-DWT)重构其完整的DWT信息。随后将重构后的完整DWT信息整合到网络架构中以提升其性能。

DWT模块成功地将RGB与热红外模式的特征映射进行整合,并将其输出应用于边界检测模块及解码流程中。

五、级联正弦波模块CSW

DWT模块提供了跨模式和级别的融合特性。高级特征分辨率小但通道多,包含丰富的语义信息,低级特征分辨率高但通道少,包含细节和边界。此外,上下文信息对RGB-T SOD至关重要。因此,我们采用渐进式扩展策略来获取全局和局部信息。正弦和余弦函数是可以用来分割信号的最简单的小波。尽管如此,它们仍然可以捕获大小不同的对象或各种突出的对象,从而提供上下文信息。

所提出的级联正弦波(CSW)模块的架构如图5所示,包含三个分支。对于前两个分支,接受野通过扩张性卷积扩展[78]以捕获周围信息。

通过正弦余弦模块提供跨尺度信息,对相邻的两个支路进行对齐,并将三个支路的输出相加,传递上下文信息。由于CSW模块可能会产生冗余信息,我们通过dropout将其丢弃,并使用转置卷积来调整特征的通道大小和数量[79]。我们将结果传送到下一层进行解码。

六、EAM

准确提取RGB-T场景物体检测(SOD)的关键在于边界信息的有效利用。这一过程不仅依赖于对物体边缘轮廓的精准勾勒(即边界检测),还需结合显著目标定位的基本需求。在边界检测模块中,我们通过融合多通道特征图来生成初步预测结果。输入图像数据经由并行分支处理后输出特征图序列,在各分支之间建立连接关系以促进信息交互与融合。随后将各分支输出的特征经过全局聚合层融合处理后得到整合特征向量。这些整合后的特征参数最终用于计算目标边界的精确位置信息。

式中,
MLP代表多层感知机,
Max为最大值池化操作,
⊗代表矩阵乘法运算,
remodeling对应重构操作,
normal即批处理归一化过程

七、监督策略

采用多策略监督机制来训练所提出的WaveNet:

  1. 监督学习中的目标跟踪(GT)指导,
    在基于标记的数据集上进行模型训练时生成预测函数。
    在图2所示的底部浅蓝色虚线箭头位置上,在模型训练期间, 我们对每个解码器附加目标跟踪(GT)指导, 以加快收敛速度. 考虑到整体性和局部性信息, 我们采用了交并比值(intersection-overunion, IoU)损失函数[80]用于衡量相似程度的同时关注重叠区域的重要性. 同时, 为了保证所有像素之间的平滑梯度, 我们应用了像素级二进制交叉熵(BCE)损失[81]. 其定义如下:

式中GT为GT, Lbce为BCE损失函数。

2)边界定位,

边界在显著目标的识别过程中起着至关重要的作用。我们利用EAM模型来识别目标边界。由于边界是由单像素级别的细节构成的而非区域属性,在这种情况下我们选择仅采用prime-level BCE loss来进行监督训练,并详细说明如下:

式中Edeg为GT的目标边界。

  1. 双模态相似性监督机制,
    双模态相似性监督机制:基于最短路径理论,在获取RGB通道值Ri和热红外通道值Ti之后, 通过最小化两组数据间的模态差异来消除冗余信息. 能够有效提取具有相同属性的显著特征组合. 因此我们使用Kullback-Leibler (KL)距离来测量两种模式间的差异:

尽管KL距离常被用于衡量概率分布间的相似程度,在本研究中我们采用模态分布来评估RGB与热红外特征间的相似程度。直观而言,在考虑Ri的Ti不确定性时会有所降低,并反之亦然。
在多模态SOD的情境下,则要求每个子模块都能够从其他子模块中学习到互补信息。通过最小化Lsimilarity这一目标指标,则可有效降低两个子模块特征间的不一致性。

4)教师指导。

算法1描述了基于知识蒸馏的监督学习。

高效率机器学习通常采用复杂架构或集成策略,并导致大量参数浪费。另外,在知识转移过程中侧重于将经验从大型教师网络转移到轻量级学生网络,并提升后者性能。
我们实行教师指导如下:

其中学生模型代表了建议采用WaveNet的方法,教师模型则基于更为复杂的Swin Transformer架构设计。
然而,尽管Transformer能够实现精确的目标分割(SOD),但由于其繁复的参数体系,导致训练过程难度较大。因此,我们将Transformer角色分配给教师角色,去引导学生模型深入掌握高级知识。
在监督学习过程中所使用的总损失值为

八、网络结构

我们采用了SOTA暹罗编码器与Wave-MLP模型,并将其应用于RGB和热红外模态的处理过程中。随后进行了多模态信息整合与多层次解码操作以获取深层特征表示。为了提升学习效果的目标,在模型训练中引入了知识蒸馏进行指导训练,并通过边界检测模块生成边界提示来辅助监督学习过程;同时,在各模态间引入了相似性约束来降低其间的特征差异。

全部评论 (0)

还没有任何评论哟~