RGBD Salient Object Detection via Disentangled Cross-Modal Fusion
RGBD Salient Object Detection via Disentangled
Cross-Modal Fusion
IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 29, 2020
深度对于显着目标检测 (SOD) 具有其他显着性提示是有益的。 现有的RGB-D SOD方法侧重于剪裁复杂的跨模态融合拓扑,虽然取得了很好的性能,但在研究跨模态互补性时存在过拟合和不确定的风险。 与这些完全结合跨模态特征而不区分的传统方法不同,我们将注意力集中在解耦**(decoupling)**不同的跨模态互补以简化融合过程并增强融合充分性 。 我们认为,如果可以明确地分离跨模态异构表示,则跨模态融合过程可以保持更少的不确定性,同时具有更好的适应性 。 为此,**我们设计了一个分离的跨模态融合网络,通过跨模态重建暴露两种模态的 结构和内容表示。******对于不同的场景,分离的表示允许融合模块轻松识别和合并所需的补充信息,以进行信息多模态融合 。
structural contexts**:** 对于同一场景,不同的传感器通常会捕获相同的场景结构,对象布局和关系。场景理解需要structural contexts 来全局感知场景,例如对象定位和细节内容,以细化一些局部区域;
contents**:** 图像的外观、亮度、颜色分布、细节边界和噪声。结构语境更加不可知,而contents 跨模态更具体,
我们将每种模态嵌入到两个空间中:
1)相对模态无关的structural contexts 空间
2)更特定于模态的contents 空间
structural contexts 空间旨在捕捉结构上下文(包括场景布局和对象结构),其中相当一部分在RGB深度对中很常见
contents 空间则用于提取特定于模式的内容(例如颜色和亮度)。
跨模态重建 :满足跨模态重建的一个可能陷阱是,优化器可能会同时驱动两个结构编码器不学习任何有用的特征来共享。我们通过添加显著性预测损失来强制每个结构编码器从每个模态中学习鉴别特征,从而克服了这个问题
cross-modal disentanglement framework

目标 :从RGB和深度图两种模态中分离出与模态无关的结构表示 和特定于模态的内容 ,以使多模态融合能够自适应地结合所需的特征。
整体框架
输入 RGB、 深度图对和相应的显著性真值掩码 {
,
, Y}、
结构上下文编码器**{
,
}** :分别从RGB和深度图中提取结构上下文特征,是高级的并且可以跨模态共享
特定于模态的内容编码器**{
,
}** :负责提取特定于模态的特征
用于重建的生成器**{
,
}** :将四个表示片段解开
多模态融合模块和显著性预测层 :将分离的切片进行融合,最终进行集体推理。
