RGB-D Saliency Detection via Cascaded Mutual Information Minimization笔记
一、摘要
现有的RGB-D显着性检测模型并未明确鼓励RGB和深度实现有效的多模式学习。本文提出了一种新颖的多阶段级联学习框架,并以互信息最小化的方式进行建模RGB图像与深度数据之间的多模态关联关系。首先将每种模式的特征映射到较低维的特征向量空间中,并采用互信息最小化作为正则项来减少来自RGB外观特征与深度几何特征之间的冗余信息。随后通过多阶段级联学习策略,在网络各层施加互信息约束以进一步优化模型性能
二、解决的问题
在多模态学习任务中,在经过训练后的情况下,在不同模态之间应最大化其联合熵;而这一目标等价于最小化互信息;从而防止网络过多关注冗余的信息;针对RGB图像与深度数据中的互补性,在进行显式的建模时;通过引入基于互信息的多级联优化框架;从而实现两方面的关键优势:一方面能够明确地构建出外在特征与几何特征之间的冗余关系;另一方面则能够有效地将外在特征与几何特征与之相关的信息约束整合起来
主要贡献: 1) 我们构建了一个基于互信息最小化的多级级联学习框架,并将其应用于RGB-D显着性检测任务中。该框架通过显式捕捉RGB图像与深度数据之间的冗余特征来提升检测效果。2) 所提出的互信息最小化正则化器具备良好的扩展性,并能够有效地建模多模态间的冗余关系。3) 我们提出了一个包含15,625标记样本和5,000无标记样本的大型RGB-D显着性检测数据集,并实现了完全监督、弱监督以及无监督的学习方案。4) 作为一项重要工作成果,在这项研究基础上我们发布了新的基准测试平台,并系统地评估了不同监督条件下基于RGB-D的显着性检测性能
三、整体框架结构

通过RGB图像与深度信息向显着性编码器输入,并利用互信息正则化器项提取每种模式的独特显着性特征以确保各模式之间的区别性。随后将每个模式(za与zg)的低维表示与原始图像的ea与eg进行融合以便于对各模式互补信息进行建模最终推断出我们的预测结果P。“DenseASPP”模块代表密集atrous空间金字塔池模块而“DA”则为双重注意模块
基于ResNet50架构设计显著性编码器,在其四个卷积阶段s1至s4中均增加了核尺寸为3×3的卷积层。这些修改使得每个输入特征图经过相应处理后能够有效提取并缩减其通道数量至C=32,并最终生成特征图集合{e₁,e₂,e₃,e₄}。其中RGB显着性编码器输出特征集合{e₁a,e₂a,e₃a,e₄a}而深度显着性编码器则生成特征集合{e₁g,e₂g,e₃g,e₄g}。值得注意的是这两个显着性和深度显着性编码器共用同一网络架构但拥有独立权重参数
基于RGB显着性编码器的结果ea={e₁a,e₂a,e₃a,e₄a}以及深度显着性编码器的结果eg={e₁g,e₂g,e₃g,e₄g}的基础上,在低维空间中对RGB特性和深度特性进行嵌入提取具体方法如下:针对整个网络架构设计了一种多阶段级联学习策略,在网络每一级执行互补学习过程。对于较低级别的处理部分首先将RGB特性和深度特性分别通过三个不同的一系列操作映射到各自的通道空间中
通过提取RGB图像与深度数据中的特征向量za及zg后引入互信息最小化正则化器以明确减少这两种模态间的冗余基于假设具有显著外观特性和几何特性的特征对应同时携带公共部分(语义相关)以及不同属性(域相关)。而互信息MI则用于衡量这两个随机变量间的信息量差异

其中符号H(.)代表信息论中的熵;分别表示z_a与z_g的边际熵;而H(z_a,z_g)则表示这两个变量的联合熵;直观而言,在信息论中两个潜在变量(即条件 entropy)之间的 Kullback-Leibler 散度(KL 散度)被定义为:

其中

是交叉熵。然后对公式1、公式2、公式3求和,并获得:

基于RGB图像及其深度数据,在H(za, zg)其值非负的情况下,则可以通过最小化来实现对互信息的最小化。

直观上,在多模态学习任务中,在观察到zg时 za 中不确定性降低的程度可以通过 MI(za,zg) 来量化;而每一种模块都应当从其他模块中获取该任务的一些新属性。通过最小化 MI(za,zg),能够系统性地挖掘两个模块之间的相互补充关系。
基于二进制交叉熵损失Lce的目标函数被用于优化多阶段级联学习框架的过程;其中互补约束如式所示;将RGB图像中显著的特征分布与其深度数据中的显著特征分布进行区分;最终的目标函数即为:

四、结论
我们提出了一种基于多阶段级联学习机制的RGB-D显著性检测框架。该框架通过显式建模RGB图像与深度数据之间的互补关系,在训练过程中最小化两种模式间的互相关联程度,并将注意力集中在每一种模式的独特特征上。该方法能更加高效地整合多种模态的数据,并构建了一个涵盖全面、弱监督及无监督场景的最大规模RGB-D显著性检测数据集
