《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

阅读量：

参考代码：UC-Net

1. 概述

导读：这篇文章研究的是RGB-D数据的显著性目标检测问题，其中的D代表的是深度图，可以通过如Kinect之类的深度传感器/深度估计网络等得到。在之前RGB-D显著性目标检测算法中一般将显著性目标当成为决策性的像素点估计问题，因而对于每个输入的样本数据都只会生成一个固定的显著性目标检测结果。其实要是对于显著性目标的结果具有较为明确的判断准则，那么这样的方式本身也没有什么问题。但是关键却是在显著性目标的标注问题上，不同人对同一幅图的显著性目标确定可能会存在差异，这就导致了使用上述算法得到的显著性目标并不是很准确。对此文章将原来的决策性检测问题通过条件变分自动编码器（CVAE）变化为基于概率模型的检测问题，因而可以对于同一张图在latent space上进行采样，从而生成多个不同的显著性目标检测结果，之后通过多数投票的方式保持显著性目标的一致性（salient concensus）。此外，文章通过遮挡之后迭代进行显著性目标检测从而得到一张图的多个显著性目标结果。

通过在RGB图像基础上引入深度图像可以极大提升显著性目标检测的准确度，但是由于人员在标注过程中存在主观判断差异与评判标准模糊，使用传统的显著性目标检测算法可能会存在结果上的歧义问题，因为算法只呈现了一个结果。这篇文章通过CAVE引入概率模型，通过采样得到多个显著性目标的结果，见下图1所示：
在这里插入图片描述
文章的算法会得到多个显著性目标，之后会通过显著性目标一致性（投票机制）得到最后的显著性目标。对于CVAE中的条件部分文章是通过遮挡显著性目标多次进行检测得到的，从而使得对于单张训练图片有多个显著性目标检测结果。此外，由于直接引入深度信息会导致较多的噪声，因而文章还提出了一种深度信息优化网络（depth correction network）得到丰富的语义与几何信息。

2. 方法设计

2.1 整体pipline

使用 $\xi=\{X_i,Y_i\}_{i=1}^N$ 表示训练的数据对，其中 $X_i=\{I_i,D_i\}$ 由RGB图像和深度图像组成的RGB-D数据。文章的整体算法流程见下图所示：
在这里插入图片描述
上面复杂的算法pipline主要由下面的几个子功能模块组成：

1）由先验网络PriorNet和后验网络PosteriorNet组成LatentNet，分别去映射 $X_i$ （对于PriorNet）和数据对 $(X_i,Y_i)$ （对于PosteriorNet）得到latent space下的数据 $z_i\in R^K$ ，用来表示两者之间的数据分布；
2）使用 $I_i,D_I$ 输入到DepthCorrectionNet中得到优化之后的深度图像 $D_i^{‘}$ ，用以排除原始深度图像噪声，丰富语义和深度信息；
3）使用 $D_i^{‘},I_i$ 输入到SaliencyNet得到saliency的特征图 $S_i^d$ ；
4）使用在latent space采样得到的 $S_i^s$ 和 $S_i^d$ 通过预测网络PredictionNet得到最后的显著性目标结果；

其测试的时候使用的是在latent space进行多次采样得到多个显著性目标结果，之后使用saliency concensus（多数投票）的方式得到最后的结果，其pipline见下图所示：
在这里插入图片描述

2.2 网络的各组成部分

LatentNet：
文中的CAVE包含三个部分：

1）由PriorNet（由五个卷积层组成）将输入的RGB-D数据映射到先验概率分布 $P_{\theta}(z|X),z\sim\mathcal{N}(\mu,diag(\sigma^2))$ 。其中 $\mu,\sigma\in R^K,K=8$ ， $\theta$ 是可学习的网络参数；
2）由PosteriorNet将输入的 $\{X_i,Y_i\}$ 映射到数据分布 $Q_{\phi}(z|X,Y)$ ， $\phi$ 是可学习的网络参数；
3）由latent space采样得到的数据经过解码器得到真实显著性目标分布 $P_w(Y|X,z)$ ；

对于上面提到的LatentNet，其具体结构见下图所示：
在这里插入图片描述
之后根据CAVE的训练监督逻辑，可以得到下面的损失表达形式：
$L_{CVAE}=E_{z~Q_{\phi}(z|X,Y)}[-logP_w(Y|X,z)]+D_{KL}(Q_{\phi}(z|X,Y)||P_{\theta}(z|X))$
对于上面提到的条件部分（也就是一个图像中对应多个显著性目标）文章是通过遮挡之后再检测得到的，具体见下图所示：
在这里插入图片描述
在文章中通过上述的过程总共得到4个显著性目标用于训练CVAE。

SaliencyNet：
文章的这部分网络是通过VGG16与DenseASPP构建的，最后得到特征图 $S^d$ ，它是channel为 $M=32$ 的数据，其结构见下图所示：
在这里插入图片描述
输入的RGB-D数据经过LatentNet之后得到一个样本分布 $(\mu_{prior}^k,\sigma_{prior}^k)$ ，之后在其基础上通过 $\eta\in\mathcal{N}(0,I)$ 进行参数重采样得到抽样样本 $z^k=\sigma_{prior}^k\cdot\eta+\mu_{prior}^k$ ，之后将 $z^k$ 进行扩充得到包含 $K$ 个channel的样本数据 $S^d$ 。

PredictionNet：
将上述提到的 $S^d$ 和 $S^s$ 进行混合（channel上concat）得到channel为 $K+M$ 数据 $S^{sd}$ 。为了防止训练过程中网络天然偏向于saliency的特征，从而忽略了条件变量，文章还将其在channel上进行重排序，从而将其shuffle之后混合得到数据 $S^{msd}$ ，之后通过解码器得到显著性目标检测结果。

DepthCorrectionNet：
为了优化原始的深度信息 $D$ ，文章使用该网络进行优化深度信息的表达。该网络会预测得到一个新的深度信息 $D^{‘}$ ，它会与原始的深度信息计算 $L_1$ 损失 $L_{sl}$ 。为了使得在深度信息上能够体现出物体的边界信息，文章还引入了Boundary IoU损失 $L_{IoUb}$ ，对于这里提到的intensity图 $I_g$ ，其是在原始RGB空间变换过来的，其计算过程描述为：
$I_g=0.2126*I^{lr}+0.7152*I^{lg}+0.0722*I^{lb}$
其中， $I^{lr},I^{lg},I^{lb}$ 代表的是三个颜色通道上的变换结果，其变换过程描述为：
在这里插入图片描述

上面是对红色通道的计算，对于蓝绿通道的计算也是类似的。

之后计算 $I_g$ 和 $D^{‘}$ 的梯度信息，得到 $gD^{‘}$ 和 $gI$ ，因而上面的Boundary IoU损失描述为：
$L_{IoUb}=1-2\frac{|gD^{‘}\cap gI|}{|gD^{‘}|+|gI|}$
因而，深度部分的损失函数描述为：
$L_{Depth}=L_{sl}+L_{IoUb}$

2.3 显著性检测结果的一致性

在latent space经过 $C$ 次采样之后会得到预测结果 $\{P^c\}_{c=1}^C$ ，之后在这些结果上使用文章提到的自适应阈值方法得到二值结果 $P_b^c$ ，这些多个检测结果经过多数表决之后得到多数表决的结果 $P_b^{mjv}$ ，之后通过操作 $\mathcal{1}^c(u,v)=\mathcal{1}(P_b^c(u,v)=P_b^{mjv}(u,v))$ （内部条件满足为1否则为0）进行最后计算：
$P_g^{mjv}(u,v)=\frac{\sum_{c=1}^C\mathcal{1}^c(u,v)}{C}\sum_{c=1}^C(P_b^c(u,v)*\mathcal{1}^c(u,v))$

2.4 网络的损失函数

得到显著性目标检测结果之后使用下面的损失进行监督：
$L_{Smooth}=\sum_{u,v}\sum_{d\in\vec{x},\vec{y}}\Phi(|\partial_dP_{u,v}|e^{-\alpha|\partial_dI_g(u,v)|}||)$
其中， $\Phi(s)=\sqrt{s^2+1-e^{-6}}$ ， $\alpha=10$ 。则整个网络的损失函数描述为：
$L=L_{CAVE}+\lambda L_{Depth}+\lambda L_{Smooth}$
其中， $\lambda=0.3$ 。

3. 实验结果

全部评论 (0)

还没有任何评论哟~

《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

参考代码：UCNet 1\.概述导读：这篇文章研究的是RGBD数据的显著性目标检测问题，其中的D代表的是深度图，可以通过如Kinect之类的深度传感器/深度估计网络等得到。

RGB-D Saliency Detection via Cascaded Mutual Information Minimization笔记

一、摘要现有的rgbd显着性检测模型并未明确鼓励RGB和深度实现有效的多模式学习。本文通过相互信息最小化引入了一种新颖的多阶段级联学习框架，以显式地建模RGB图像和深度数据之间的多模态信息。

阅读笔记RGB-‘D’ Saliency Detection With Pseudo Depth

贡献 1.提出伪深度的测量方法。 2.提出伪深度背景先验。 3.提出基于伪深度的显著性检测算法PseudoDepthPrior（PDP）。 4.在RGB模型中套用PDP 介质传输模型中的伪深度介质传...

论文笔记：Variational Autoencoders for Collaborative Filtering

一、基本信息论文题目：《VariationalAutoencodersforCollaborativeFiltering》发表时间：WWW2018 作者及单位：二、摘要我们将变分自编码扩展到隐...

COD论文笔记 CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models_AAAI_2024

动机 1.挑战性任务：伪装物体检测（CamouflagedObjectDetection,COD）是计算机视觉中的一个挑战性任务，由于伪装物体与其背景的高度相似，现有的方法在检测边界和防止过于自信的错...

Asymmetric Two-Stream Architecture for Accurate RGB-D Saliency Detection学习笔记

一、背景 1.对某些复杂情况的RGB图像特征难以鉴别。 appearancefeaturesinRGBdataarelesspredictivetosomechallengingscenes 2.由于...

【PDP】RGB-‘D’ Saliency Detection With Pseudo Depth

【PDP】RGB‘D’SaliencyDetectionWithPseudoDepth IEEETRANSACTIONSONIMAGEPROCESSING,VOL.28,NO.5,MAY2019 动机...

论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

Wang2017立体缩略图生成 1.介绍 2.相关工作 3.提出的方法 3.1立体显著性检测 3.1.1基于视差和边缘的显著性 3.1.2基于立体感知的显著性偏置（SaliencyBias） 3.1....

RGB-D Salient Object Detection:综述论文笔记

RGBDSalientObjectDetection:综述论文笔记显著性目标检测致力于给定区域内最重要的视觉性目标。SOD在真实世界的应用范围内起着关键性的作用，例如立体匹配、图像理解、显著性检测、...

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

DepthQualityInspiredFeatureManipulationforEfficientRGBDSalientObjectDetection 用于高效RGBD显著目标检测的深度质量启发特...

是否确定退出登录?

《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

1. 概述

2. 方法设计

2.1 整体pipline

2.2 网络的各组成部分

2.3 显著性检测结果的一致性

2.4 网络的损失函数

3. 实验结果

全部评论 (0)

相关文章推荐

《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

RGB-D Saliency Detection via Cascaded Mutual Information Minimization笔记

阅读笔记RGB-‘D’ Saliency Detection With Pseudo Depth

论文笔记：Variational Autoencoders for Collaborative Filtering

COD论文笔记 CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models_AAAI_2024

Asymmetric Two-Stream Architecture for Accurate RGB-D Saliency Detection学习笔记

【PDP】RGB-‘D’ Saliency Detection With Pseudo Depth

论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

RGB-D Salient Object Detection:综述论文笔记

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection