RGB-D Salient Object Detection:综述论文笔记
RGB-D Salient Object Detection:综述论文笔记
显著性目标检测专注于给定区域内的核心视觉元素。

最近,基于RGB-D的SOD得到了广泛的关注并且各种各样的模型得到了发展。早期基于RGB-D的SOD模型倾向于提取手工特征然后混合RGB图像和深度图。第一个致力于RGB-D的SOD模型使用了高斯混合模型模拟出诱导性深度显著特征的分布规律。Ciptadi提取出3D分布和形状特征从深度测量值中。此外几个方法在不同的区域使用不同的深度测量出了深度的差异性。尽管使用传统模型提取手工特征有一定的效益但是仍然受制于低水平特征的泛化能力和在复杂场景中对高水平推论的需求。为了解决这些限制,基于RGB-D的SOD深度学习模型得到了发展,展示了显著的提高表现。
在过去的几十年里,许多基于手工特征的RGB-D模型已经得到了发展,但是手工特征的表达能力有限,从而导致传统的模型在显著性目标检测任务的表现不是很好,为了解决这个问题,一些研究已经转向深度神经网络在RGB-D数据上的应用。这些模型可以学习更高层次的特征,从而探索复杂的RGB图像和深度信息,来提高SOD的性能。
针对基于RGB-D的支持目标检测(SOD)模型设计的融合方案。这些方案旨在高效整合RGB图像与深度图数据特征。现有研究中关于特征融合的方法可划分为三大类:第一类是早期融合策略;第二类是多尺度融合策略;第三类是晚期融合策略。其中第一类早期融合方法主要包括:一种是将RGB图像与深度图信息整合为一个四通道输入通道;另一种则是分别将两者输入到不同网络结构中,并通过低层输出特征值再构建显著性图谱来完成目标检测任务。第二类多尺度融合策略的主要特点是在不同层次上提取并整合多模态特征信息以提升检测精度与鲁棒性:例如Chen等人提出的MMCI网络就是通过引入交叉多层特征信息到深层网络架构中去补充传统低级与高级特征之间的不足从而优化整体性能效果。第三类晚期融合方法则主要通过构建联合特征空间来实现两组独立提取出的目标显著性图谱的有效结合其基本思路主要包括以下两种方式:一种是先分别学习并提取出高级层次的空间语义特征然后将其连接形成最终的整体显著性图谱;另一种则是通过并行生成多个显著性图谱后再对它们进行综合集成进而得到最终更为精确可靠的检测结果

Single-stream Models:这些模型通常将RGB图像和深度信息整合到输入通道或特征学习模块中。多尺度显著性融合骨架(MDSF)通过三层提取了四种类型的特征,并整合生成最终显著性图矩阵。Multi-stream Models:该方法由处理RGB图像和深度线索的多个独立分支构成,在中间层或最终阶段进行融合处理以产生各自的高级特征图或显著性图。Attention-aware Models:现有基于RGB-D的目标检测方法往往对所有提取出的特征进行平均处理这一做法存在不足之处。此外这些方法容易受到背景干扰的影响并存在对RGB图像与深度信息重要性的忽视问题为此设计了一系列引入注意力机制的方法旨在根据不同区域的重要性动态调整权重进而提升检测效果
挑战与发展方向:
1现有许多方法是直接将深度图与RGB图像融合结合在一起用于目标检测任务中而不考虑低质量深度图对结果的影响。未来可以探索一种新的策略即通过为深度图赋予权重的方式减少低质量数据对检测结果的影响。
2鉴于采集设备的局限性导致一些深度图像存在不足的问题我们可以尝试一个新的研究方向即针对不完整的深度图像进行分割目标检测(SOD)任务的研究。此外基于深度估计的方法已经被证明能够有效恢复高质量的图像从而克服低质量数据带来的负面影响已有多种不同的深度估计算法已经被提出并取得了一定的效果这些方法都可以被引入到基于RGB-D的目标分割框架中以提升整体性能。
3为了进一步提高检测效率我们建议加入对抗神经网络来优化算法性能。
4在SOD任务中开发并研究注意力机制的应用具有重要的理论价值。
5引入无监督或弱监督学习的方法来提升分割目标检测的整体性能是一个值得探索的方向。
6当前所收集的图像集还存在一定的局限性特别是在复杂场景下获取高质量的数据仍需进一步努力例如针对道路标志等特定场景的任务需要收集更多具有代表性的样本。
7模型压缩与移植方面需要进一步研究如何将先进的算法框架转化为实际应用中的有效解决方案。
8未来研究应扩展至RGB-T融合框架下通过结合红外图像与传统RGB图像获取更加丰富的特征从而实现更高的分割目标检测性能。
目前表现比较好的网络模型有:
JL-DCF[8] UC-Net[9] S2MA[6] D3Net[3] SSF[4] A2dele[5] ICNet[7]

论文:
[3] Deng-Ping Fan, Zheng Lin, Zhao Zhang, Menglong Zhu, and Ming-Ming Cheng, “Rethinking RGB-D salient object detection: Models, data sets, and large-scale benchmarks,” IEEE Transactions on Neural Networks and Learning Systems, 2020.
[4] Miao Zhang, Weisong Ren, Yongri Piao, Zhengkun Rong, and Huchuan Lu, “Select, supplement and focus for RGB-D saliency detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[5] Yongri Piao, Zhengkun Rong, Miao Zhang, Weisong Ren, and Huchuan Lu, “A2dele: Adaptive and attentive depth distiller for efficient RGB-D salient object detection,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[6] Nian Liu, Ni Zhang, and Junwei Han, “Learning selective self-mutual attention for RGB-D saliency detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[7] Gongyang Li, Zhi Liu, and Haibin Ling, “Icnet: Information conversion network for RGB-D based salient object detection,” IEEE Transactions on Image Processing, vol. 29, pp. 4873–4884, 2020.
[8] Keren Fu, Deng-Ping Fan, Ge-Peng Ji, and Qijun Zhao, “Jl-dcf: Joint learning and densely-cooperative fusion framework for RGB-D salient object detection,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[9] Jing Zhang, Deng-Ping Fan, Yuchao Dai, Saeed Anwar, Fatemeh Sadat Saleh, Tong Zhang, and Nick Barnes, “Uc-net: uncertainty inspired rgb-d saliency detection via conditional variational autoencoders,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
项目下载链接:
