(更新中)论文阅读【Salient Object Detection in the Deep Learning Era: An In-Depth Survey】
显著性检测(SOD)是计算机视觉中的一个重要问题,旨在识别图像中显著的目标区域。近年来,深度学习在显著性检测中的应用取得了显著进展。本文综述了显著性检测领域的研究,涵盖从算法分类到数据集构建的各个方面。
方法分类包括网络结构分类(如MLP、FCN、混合网络等)、监督等级分类(强监督和无/弱监督)、学习范式(单任务学习和多任务学习)以及对象级/实例级分类。数据集分为早期、现代流行和特殊数据集,后者在复杂场景和多显着对象方面具有优势。评估指标包括基于二值化显着性掩模的PR曲线、F-measure、MAE、Fbw、S-measure、E-measure以及显着对象排名(SOR)。文章指出,现有研究主要集中在监督学习,缺乏对无/弱监督和多任务学习的系统性研究。未来研究应关注显著性检测的跨数据集泛化能力、模型压缩和高效推理。
原文链接:https://arxiv.org/abs/1904.09146?context=cs.CV
本文系统分析了深度学习在显著性检测领域中的相关文献,重点关注了重要期刊和会议论文,最终形成了综述性研究。
【前言】
在计算机视觉领域中,作为一个重要问题,显着性物体检测(SOD)吸引了越来越多的研究工作。近年来,深度学习方法(称为深度SOD)主导了该领域的最新进展,已有数百篇论文对此进行了深入研究。为了系统性地分析现有研究进展,本文进行了全面综述,涵盖了从算法分类到未解决的开放问题的各个方面。首先,从多角度审视深度SOD算法(第二章),包括网络架构、监督级别、学习范式和对象/实例级别检测。随后,总结了主流的SOD数据集(第三章)和评估标准(第四章)。接着,在前人研究基础上,构建了一个覆盖主流SOD方法的全面性能基准(第五章),并提供了详细的测试结果分析。最后讨论了当前显着性检测面临的问题和挑战,以及未来可能的研究方向(第六章)。第七章总结。所有显着性预测图、带注释的数据集以及评估代码均已在GitHub仓库https://github.com/wenguanwang/SODsurvey中公开。
目录
【第一章】
【第二章】
2.1 SOD典型网络结构
2.1.1 多层感知器Multi-layer Perceptron (MLP)
2.1.2 完全卷积网络Fully Convolutional Network (FCN)
2.1.3 基于混合网络的方法Hybrid Network
2.2 监督等级
2.2.1 强监督方法
2.2.2 无/弱监督方法(未来导向)
2.3学习范式
2.3.1基于单任务学习(STL)的方法
2.3.2基于多任务学习(MTL)的方法
2.4 对象/实例级SOD
2.4.1 对象级方法
2.4.2 实例级方法(不常见)
【第三章】
3.1 早期SOD数据集
3.2 现代流行的SOD数据集
3.3 其他特殊SOD数据集
【第四章】
4 评估指标
【第一章】
显著性检测(SOD)旨在突出图像中具有显著特征的目标区域。与起源于认知与心理学研究领域的凝视点预测不同,该方法(预测人眼的下一个关注点是什么,应用于广告投放点、游戏设置等)在多个领域中得到了广泛应用。具体而言,在图像理解、图像描述生成、目标检测、无监督视频目标分割等领域,SOD展现出显著的性能优势,同时在行人重识别等任务中也取得了不错的效果。在计算机图形学领域,SOD被成功应用于非真实感渲染、图像自动裁剪、图像重定向、视频摘要等多个方面,展现出显著的应用价值。此外,在人机交互与目标发现等机器人相关领域,SOD也取得了显著的应用成果。
2015年,深度学习方法首次被应用于显著性检测领域,其高效的算法性能标志着研究进入了一个新阶段。
显著性检测综述整理:<>(程明明论文)

在本文中,作者对现有SOD方法和数据集进行了系统性分类研究,并对若干重要但尚未充分探讨的问题展开了深入分析,例如SOD机制中特征的作用,以及SOD模型的鲁棒性和移植性。针对这些尚待深入研究的领域,作者开发了新的数据集和标注方案,并在此前研究基础上构建了基准模型(作为评价算法优劣的标准,benchmark用以评估算法性能)。
下表是对之前的一些关于显著性检测综述代表性论文总结:

补充:当前研究热点是6RGB-D显著性检测模型(研究热点)。其中,RGBD = RGB + Depth Map,如图所示。该模型通过融合深度图中的深度信息来实现显著性区域的提取。四者之间的关系如图所示。
基于图像间的约束关系,co-saliency detection模型能够识别出一个图像组中共同的显著性目标。
该视频显著性检测模型的主要目标是识别出视频序列中与动作相关联的重要目标区域。该模型综合考虑了运动信息以及时空上的限制条件。


本文主要贡献如下:
基于网络架构、监督强度、学习机制以及对象层面/实例层面的特征,对现有深度SOD模型进行系统性分析。
该研究提出了一种基于属性特征的深度SOD模型性能评价体系(?对于这一方法,程明明也提出了基于SOC数据集的类似研究) ,并提供了基于对象类别、场景类别以及挑战因素的带标注属性特征。在此基础上,对现有的六种主流SOD模型的性能进行了系统评估,并探讨了这些属性特征对不同算法性能的影响,同时分析了深度学习技术带来的技术改进。
针对输入扰动影响的深入探讨,本研究系统分析了多种图像扰动类型对六种典型SOD算法性能的影响,该研究可能为实际应用中频繁出现的噪声问题提供解决方案。
4、首次尝试对SOD模型进行对抗性攻击任务,并为该研究领域精心设计了baseline attack和评估方案,该baseline方案可作为未来研究深度SO模型鲁棒性和移植性的重要参考依据。
基于现有的SOD数据集,研究团队将具有代表性的极限模型体系开展跨数据集的泛化研究。
6、对还存在的问题以及未来可能的研究方向进行讨论。
补充:
什么是对抗攻击?
该算法的输入形式为数值型向量(numeric vectors)。攻击者会设计特定的数值型向量,导致机器学习模型产生错误判断。这即为对抗性攻击的定义。
_除了其他类型的攻击之外,对抗性攻击的主要特征是在构造对抗性数据的阶段。随后,对抗性数据被当作正常数据输入到机器学习模型中,导致识别结果出现欺骗性。在对抗性数据的构造过程中,无论是基于图像识别的系统还是语音识别的系统,根据攻击者掌握的机器学习模型信息量多少的不同,可以将其划分为以下两种情况:
白盒攻击: _攻击者能够了解机器学习所采用的算法及其参数设置。在生成对抗性攻击数据的过程中,攻击者能够与机器学习系统进行交互。
_黑盒攻击_是指攻击者无法获取机器学习模型的内部信息。尽管如此,攻击者仍可通过向系统输入任意数据并观察输出结果来推断模型的决策逻辑。
【第二章】
我们对深度SOD算法分为四个分类来进行回顾,表2提供了综合摘要。

2.1 SOD典型网络结构
2.1.1 多层感知器Multi-layer Perceptron (MLP)
MLP架构通常用于为图像的每个处理单元提取深度特征(a),以训练用于显著性得分预测的MLP分类器,如图2(a)所示。 常见的处理单元类型包括超像素/补丁和通用对象检测器。
(1)基于超像素和补丁 的方法使用常规(补丁)或类常规(超像素)图像分解:
MCDL算法基于两条不同的路径,通过将图像划分为不同尺寸的超像素区域(将像素级划分为区域级),提取图像中的局部和全局语境信息。这些区域中心窗口经过MLP处理后用于前景/背景分类。

(2)基于对象建议(建议框 )的方法:LEGS、MDF、MAP、SSD
主要缺点在于,系统在捕捉关键的空间信息方面存在明显的局限性;此外,计算开销显著,因为必须逐一处理每一个可视化子单元的复杂性。
2.1.2 完全卷积网络Fully Convolutional Network (FCN)
FCN在语义分割任务中展现出良好的性能,能够直接将VGGNet和ResNet等网络架构转换为全卷积网络结构,其输出结果为空间图而非分类概率。该模型通过端到端的空间表示学习机制显著提升了性能,其典型架构主要包含单流网络、多流网络、侧向融合网络、自上而下/自下而上网络以及分支网络等多种组件。
(1)单流single-stream network(b):RFCN、RACDNN、DLS、UCF、DUS、LICNN
该体系遵循标准架构模式,通过连续的卷积层级联,结合池化层和非线性激活操作构建。
(2)多流Multi-stream network(c):MSRNet、SRM、FSN
由多个网络流构成,每个网络流均采用特定分辨率的输入进行训练,以便更清晰地学习多尺度显著特征。随后,将各网络流的输出进行整合,以完成最终预测。
(3)侧融合Side-fusion network(d):DSS 、NLDF、Amulet、DSOS、RADF、RSDNet-R
通过将骨干网的多层响应融合在一起,用于SOD预测;通过CNN层级提取多尺度特征,侧面输出通常由地面真实值进行监督。
DSS:基于不同级别的特征组合,该网络结构在每一层的网络结构中都提供了多尺度特征图集合。主要体现在:第一,高级特征能够通过较浅层的侧输出层实现更准确地定位最显著的区域;第二,较浅层的输出层则能够有效丰富低级特征的信息内容。
(4)从下往上/从上往下Bottom-up/top-down网络(e):基于Bottom-up和top-down的网络架构,涉及DHSNet、SBF、BDMP、RLN、PAGR、ASNet、PiCANet和RAS等。
通过逐步地融合自较低层的具有空间细节丰富性的特征,优化前馈过程中的粗略显著性估计,并在最顶层生成最终显著图。
DHSNet架构基于自动提取多种全局显著性线索,完成整体目标的初步全局预测。该网络接着,深度循环卷积神经网络(HRCNN)通过层次化处理局部信息,逐步优化显著图细节。整体架构遵循从全局到局部、由粗到精的渐进式设计。

(5)分支Branched network(f):SU、DS、WSS、ASMO、C2S-Net
该结构由单输入多输出组成,其中底层部分通过共享信息来处理常规输入,而顶层部分则专注于不同的输出处理。
2.1.3 基于混合网络的方法Hybrid Network
几种基于深度学习的SOD方法通过融合多尺度特征网络,以期通过多尺度上下文信息的融合实现边缘保留检测(如图2(g)所示)。其中,DCL和CRPSD等方法具有显著的性能优势。
不同网络结构对应的示意图如下所示:

2.2 监督等级
是否基于人工标注的saliency mask,深度显著性检测模型是否用于训练,可以归为强监督方法和无/弱监督方法。
2.2.1 强监督方法
强监督深度显著性检测模型基于大量人工标注的数据集进行训练,然而,人工标注数据不仅耗时耗力,还容易导致过拟合。鉴于此,如何减少人工标注的需求,训练出高效的深度显著性检测模型,已经成为机器学习领域的一个热门研究方向。
2.2.2 无/弱监督方法(未来导向)
非/弱监督学习是指完全不依赖真实标注信息的学习方式。 为了克服繁琐的人工标注任务,一些自监督有序分割(SOD)方法积极地尝试利用图像级分类标签用于预测显着性,或通过启发式非监督SOD方法生成伪像素显着性注释。 实验结果表明,这些方法与现有技术具有相当竞争力。
监督学习在分类层次上进行监督学习。已经表明,基于图像级别的标签训练的分层深度特征能够定位包含对象的区域,这可能为检测场景中的显著对象提供有价值的线索。因此,当前的大规模图像分类数据集可以用于训练深度SOD模型以定位显着对象。
伪像素级监督。尽管信息量极大,但图像级标签过于稀疏,难以生成精确的像素显著性分割。一些研究者建议采用传统的非监督SOD方法或轮廓信息自动生成噪声显著图?,并通过逐步细化的过程为训练更有效的深度SOD模型提供更精细的像素级监督。
2.3学习范式
从多维度的学习视角分析,SOD网络被划分为单一任务学习(STL)和多任务学习(MTL)。
2.3.1基于单任务学习(STL)的方法
在机器学习领域中,常规方法是逐一学习单个任务。 大多数深度SOD方法都遵循这一学习模式。 他们基于单一知识领域进行监督学习,同时也可以结合SOD域或其他相关领域,如图像分类[85]进行研究。
2.3.2基于多任务学习(MTL)的方法
受人类学习过程的启发,从相关任务中学到的知识可用于帮助学习新任务,多任务学习(MTL)旨在同时学习多个相关任务。通过整合来自相关任务的额外训练信号,模型的泛化能力得到显著提升。在任务间共享样本时,也会导致缺乏用于训练重参数模型的数据,例如深度学习中的模型,尤其是在任务相关注释有限的非/弱监督学习场景下。
2.4 对象/实例级SOD
SOD旨在识别并分离图像中最具代表性的对象区域。若输出掩码仅反映每个像素的显著性,而未区分不同对象,则该方法属于基于对象的SOD方法;反之,则属于基于实例的SOD方法。
2.4.1 对象级方法
大多数SOD方法属于对象级设计,其核心在于通过不考虑各个实例的检测手段来识别显着对象的像素区域。
2.4.2 实例级方法(不常见)
实例级SOD方法通过明确的对象标签生成显著性掩码,能够获取更详细的被检测显著区域的详细信息。 实例级信息对于需要更精细区分的许多实际应用至关重要。
MAP(maximum a posteriori):该方法首先生成多个候选对象框,然后选择得分较高的输出。许多之前的方法只能解决前景分割的任务,即生成密集的前景掩膜(显著性图),这些方法不会使每个目标个别化。 本文中的方法所解决的显著性目标检测任务,其中包括对每个显著目标个体化。(显著性目标检测与物体类别检测的最大区别在于显著性检测很大程度上取决于周围环境)
后端阅读论文内容: 对图像间的显著实例进行关联,用于弱监督语义分割。
http://mftp.mmcheng.net/Papers/18ECCVGraphPartition.pdf
旷视科技与清华大学基于创新性整合多种先进技术,包括显著性检测和图划分算法,开发出一种新型弱监督学习方法,旨在推动语义分割技术的发展,并在自动驾驶、安防监控、新零售以及物流配送等领域实现推广应用。该方法的技术创新点在于,既充分挖掘了每个显著性实例的内在特征,又揭示了数据集中不同显著性实例之间的相互关联。
【第三章】
随着SOD的快速发展,大量数据集被引入,这些数据集在SOD模型的训练和基准测试中扮演着关键角色。表3汇总了17个具有代表性的数据集。早期的SOD数据集通常收集了每个图像中一个显著对象的图像,并附带了被认为不足以支持可靠评估的边界框注释[30]、[121]。随后,出现了包含像素级掩模的大型数据集,这些数据集通常包含少量对象和简单的背景。最近,研究者们收集了在复杂或混乱的场景中,每个图像包含多个显著对象的数据集。图3展示了16个可获得数据集的注释分布情况。

3.1 早期SOD数据集
早期阶段的SOD数据集通常涵盖常见场景,其中1至2个显著的目标能够在简单背景下脱颖而出。
1、MSRA-A 包含从各种图像论坛和图像搜索引擎收集的20,840张图像。每个图像都有一个清晰,明确的对象,相应的注释是三个用户提供的边界框的“多数协议”。
2、MSRA-B 作为MSRA-A的一个子集,有5000个图像,由9个用户使用边界框重新标记。与MSRA-A相比,MSRA-B的模糊度较低。突出的对象。 MSRA-A和MSRA-B的性能变得饱和,因为大多数图像仅包括围绕中心位置的单个且清晰的显着物体。
3、SED 包括单个对象子集SED1和双个对象子集SED2,每个子集包含100个图像并具有逐像素注释。图像中的物体通过各种低级线索(例如强度,纹理等)与周围环境不同。每个图像由三个主体分割。如果至少两个受试者同意,则将像素视为前景。
4、ASD 包含1,000个具有逐像素地面真实性的图像。图像选自MSRA-A数据集,其中仅提供显着区域周围的边界框。 ASD中的精确突出掩模是基于对象轮廓创建的。
3.2 现代流行的SOD数据集
目前出现的数据集通常包含具有复杂背景且包含多个显著对象的具有挑战性和通用场景的集合。在本节中,我们将回顾七种最受欢迎且广泛使用的数据集。它们的受欢迎程度主要归因于其挑战性和注释质量的改进。
DUTS是规模最大的SOD数据集,其中包含10,553张训练图像和5,019张测试图像。训练图像源自ImageNet的DET训练集,以及来自ImageNet测试集和SUN数据集的测试图像。自2017年起,许多深度SOD模型都接受了DUTS训练集的培训(见表2)。
DUTS是规模最大的SOD数据集,其中包含10,553张训练图像和5,019张测试图像。训练图像源自ImageNet的DET训练集,以及来自ImageNet测试集和SUN数据集的测试图像。自2017年起,许多深度SOD模型都接受了DUTS训练集的培训(见表2)。
3.3 其他特殊SOD数据集
除了现有的“标准”SOD数据集之外,近期提出了若干特殊数据集,这些数据集通过从不同角度探索SOD问题并拓展了研究方向。这些特殊数据集主要包含实例级注释构建的图像集,以及未明显包含物体的图像样本。
SOS通过数感化实现SOD任务,该方法通过从现有数据集中选择6,900张图像,每个图像被标注为包含0至4+个显着对象。这些图像被随机划分为训练集(5,520张图像)和测试集(1,380张图像)。
MSO作为SOS的子集,包含了1,224张图像。与SOS测试集相比,MSO在显着对象数量分布上更为均衡,并对每个显着对象进行了边界框注释。
ILSO由MSRNet的提出者创建,包含1,000张图像。这些图像不仅具有像素级实例级显着性标注,还附加了粗略轮廓标记。ILSO中的大部分图像来自[26]、[34]、[52]和[67]等文献,以减少对显着对象区域模糊性的依赖。
XPIE集合了10,000张图像,这些图像均具有明确的显着对象,并被赋予了像素级的地面真实值。该数据集涵盖了从简单到复杂场景的广泛情况,并根据显着对象的数量、大小和位置进行了分类。XPIE被划分为三个子集:Set-P(包含地理信息的感兴趣区域)、Set-I(包含8,799张带对象标签的图像)和Set-E(包含576张带视觉注意力视标记的图像)。
SOC数据集由程明明在其论文中提出,旨在补充现有SOD数据集的不足。该数据集包含6,000张图像,并划分为80个常见类别。每个类别包含显著和非显著物体的图像,同时每个显著图像还附加了反映现实世界识别挑战的属性信息。
【第四章】
4 评估指标
有多种方法可以衡量模型预测与人工标注的一致性程度。本节介绍四种广泛认可和广泛应用的SOD模型评估方法。
(1)基于二值化显著性掩模和基本事实计算的PR值:

为了生成二进制掩码矩阵,我们基于0-255范围的阈值集合进行处理,每个阈值对应生成精确与调用值对,这些值对被用于构建模型性能评估的PR曲线,以全面衡量模型性能。
(2)F-measure 通过计算加权调和平均值综合考虑精度和召回:

β2值经经验确定为0.3 [30],主要侧重于精确度的提升。一些方法直接采用图中最大Fβ值作为评估指标,而另一些方法则采用自适应阈值设定为[30],即以预测显著图平均值的两倍作为阈值设定,从而生成二元显著性映射,并计算相应的平均F值。
(3)平均绝对误差(MAE)指标:尽管这两个指标因其易用性和广泛性而备受关注,但它们未能有效识别真实负像素。该指标通过计算归一化映射S∈[0,1] W×H与地面真实值掩码G∈{0,1} W×H之间的平均像素方向绝对误差,有效地解决了上述问题。

加权Fβ测量(Fbw)通过综合考量精度和召回率,直观地整合F-measure这一重要指标。该方法将基本统计量TP、TN、FP和FN转化为具体数值,并基于邻域信息,赋予不同位置的误差相应的权重(ω),其数学表达式如下:

程明明论文
程明明论文

α根据经验,通常设置为0.5。
(6)增强对齐度量(E-measure):同时考虑图像和局部像素匹配的全局方式:

其中,φS是强化的对准矩阵,它分别衡量了在去除了它们的全局均值后S与G之间的关系。
用于促进显着对象数量化的目标——显着对象排名(SOR)——通过计算在同一图像中多个显着对象的地面实况等级顺序rgG与其预测等级顺序rgS之间的标准化Spearman秩次相关性来实现。

其中cov(·)计算协方差,σ{·}表示标准差。
