Advertisement

A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection

阅读量:

A2dele: Adaptively with attention to high-efficient depth distiller aimed at RGB-D salient object detection

2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

存在的两问题

在双流架构中运行深度数据子网络会带来额外计算开销与内存占用
在测试阶段使用深度数据可能会导致RGB-D显著性检测的实际应用受限

解决问题的方法

开发了新的A2dele深度蒸馏器,并将其设计为通过预测网络和注意力机制充当连接RGB模块与深度模态的桥梁;该模型能够实现将深层知识通过将这些知识传递给RGB流的方式实现信息共享。

首先,在传输到 RGB 流的过程中实现了对像素级深度知识的预期控制的同时,在动态调整以最小化深度流与 RGB 流生成的预测间的差异方面也达到了预期目标。
其次,在将定位信息传递至 RGB 特征部分的同时,在空间扩展预测与注意力图之间的一致性上也实现了预期一致。

实验结果显示,在采用A2dele嵌入技术的情况下,在测试中不依赖于深度数据从而实现了轻量级架构的构建。

我们的目标是开发一种新的方法,在训练阶段利用RGB-D数据进行学习,并且同时确保在测试阶段仅依赖视觉信息以最大化提升系统的性能水平。

1. 网络预测

根据像素级别的** 深度知识**特征进行自适应调整后实现RGB流预测,并结合优化机制构建了一种新型自适应蒸馏模型架构

2. 网络注意力

将目标物体的 定位知识转移到RGB特征

自适应注意力蒸馏方法能够有效识别并剔除包含错误标记的深度知识样本,并旨在实现可靠地传递这些可靠的信息。

1. Depth

编码器采用了 VGG16 基础,并从中保留了五个卷积模块。随后舍弃了这些最终的池化操作以及全连接层。随后我们选择了高级特征包括 F3 Conv、F4 Conv 和 F5 Conv 来检测关键对象。随后我们通过在各个层级上引入感受野块(RFB)来提升深度特征的质量,并捕获适合深度流目标的关键对比信息。最后解码器将这些深度特征 作为输入,并进行最终预测。

2. RGB

RGB 流利用来自深度流传输的 RGB 信息以及深度知识。与之相比的是它们架构相同。区别在于我们替代了 RFB 为注意力模块。值得注意的是该模块是轻量级设计仅包含一个 3×3 卷积层。此外 RGB 流的训练由 A2dele 深度蒸馏器进行监督其中包含自适应深度蒸馏方案以及注意力机制驱动的深度蒸馏方案两部分

3. Adaptive Depth Distillation Scheme

网络预测 :用于将像素级深度知识转移到 RGB 流的预测中。

通过优化深度流与RGB流所诱导预测间的差异来实现RGB网络参数的有效更新。当深度流能够生成可靠的预测结果时,则可促进RGB流在显着目标与背景识别任务中的性能提升。相反地,在深度图质量不足导致预测结果不可靠的情况下,则提出了一种自适应机制以实现深度知识的有效迁移。具体而言,在这一过程中我们设计了一个自适应因子λ来调节各子网络间的影响权重,并将其定义为:

Y 被定义为真值,在设置参数 α 的值为70的情况下,默认会将 λ 的取值范围限定在0至1之间。λ 的大小与其相对于深度流输出以及相对于真值的损失程度呈反相关关系。基于此可知,在深度流预测结果具有较高可靠性时应优先由RGB流动向量去学习;而在预测效果不佳时则应由RGB流动向量直接继承真实标签信息。从而得到完整的损失函数表达式:

其中

基于Kullback-Leibler散度的扩散损失(divergence loss),其中温度超参数T被设定为20

是交叉熵损失。相较于强制将RGB流以固定权重模仿深度流输出的方法而言,我们的自适应深度蒸馏方案则赋予RGB网络从深度网络中可选择性地提取有价值的信息的能力。

4. Attentive Depth Distillation Scheme

我们采用了网络注意力技术,并将其用于将定位知识转移到RGB特征中。为了使深度流预测与RGB流中的注意力图保持一致并达成一致目标而采取的方法是:以减少不一致程度为目标优化两者之间的关系。当注意力图质量得到提升时(即其表现更加优异),RGB特征所携带的信息干扰会逐步减弱(即不再显著影响目标检测)。这种改进策略能够帮助模型更准确地识别出显着对象并提高定位精度(如图2(b)所示)。dilation操作是通过max-pooling操作实现的。

通过覆盖更为全面的关键区域,深度流动 的持续性增长能够进一步优化定位依据,并有助于提升RGB特征的表现力。注意力机制在深度蒸馏过程中的实现方式可被视为:

代表RGB流中的第 i 个注意图。N表示级别的总数设置为3。通过最小化损失

可以抑制来自显著对象外部的响应,从而将响应集中在显著区域上。

全部评论 (0)

还没有任何评论哟~