论文记录-2019-Salient object detection: A survey
论文记录-2019-Salient object detection: A survey
- 论文内容
-
-
摘要
-
1 简介
-
- (1)什么是显著物体检测?
- (2)定位显著物体检测(与其他问题差异)
- (3)显著物体检测的历史
-
2 SOTA方法综述
-
- (1)经典模型
- (2)深度学习模型
-
3 应用
-
4 数据集&评估
-
5 讨论与总结
-
- (1)设计选择
- (2)数据集偏差
- (3)未来方向
-
论文内容
Salient object detection: A survey1
显著物体检测:综述
以下仅为作者阅读论文时的记录,学识浅薄,如有错误,欢迎指正。
摘要
Detecting and segmenting salient objects from natural scenes, often referred to as salient object
detection, has attracted great interest in computer vision.
从自然场景中检测和分割显著物体,通常被称为显著物体检测 ,已经引起了计算机视觉领域的极大兴趣。
While many models have been proposed and several applications have emerged, a deep understanding of achievements and issues remains lacking.
虽然已经提出了许多模型,并出现了一些应用程序,但仍然缺乏对这种成就和问题的深刻理解。
We aim to provide a comprehensive review of recent progress in salient object detection and situate this field among other closely related areas such as generic scene segmentation , object proposal generation , and saliency for fixation prediction.
我们的目标是针对显著物体检测的最新进展 进行全方面的回顾,并将该领域与其他密切相关的领域进行比较,如通用场景分割 、目标建议生成 和眼动点预测的显著性 。
Covering 228 publications , we survey i) roots, key concepts, and tasks, ii) core techniques and main modeling trends, and iii) datasets and evaluation metrics for salient object detection.
我们从228篇出版物 总结出:
1)起源、关键概念和任务,
2)核心技术和主要建模趋势
3)用于显著目标检测的数据集和评估指标。
We also discuss open problems such as evaluation metrics and dataset bias in model performance, and suggest future research directions.
我们还对一些开放性问题进行了讨论,如模型表现上的评价指标和数据集偏差,并对未来的研究方向提出了建议。
1 简介
人类能够在预先注意的阶段( pre-attentive stage) 轻松而快速地检测到视觉上独特的,也就是“显著的(salient) ”,场景区域,这些区域会在注意阶段(attentive stage) 提取更丰富的高级信息。
这种能力有助于找到代表场景的物体或区域,这是复杂视觉问题的关键步骤 ,例如场景理解 等。
一些与视觉显著性相关的主题包括:
* 显著物体检测(salient object detection)
* 眼动点预测(fixation prediction)
* 物体重要性(object importance)
* 记忆性(memorability)
* 场景杂波( scene clutter)
* 视频兴趣(video interestingness)
* ……
本文只关注显著物体检测,这是一个在过去20年里发展得极大的研究领域,特别是自2007年以来 。
(1)什么是显著物体检测?
显著物体检测(Salient object detection) 或显著物体分割(salient object segmentation) 通常包括两个阶段 :
1. 检测最显著的物体(detecting the most salient object)
2. 分割该物体的精确区域(segmenting the accurate region of that object)
良好的显著性检测模型至少应该满足以下三个标准 :
1. 良好的检测(good detection):未检测到的显著区域和错将背景标记为显著区域的概率应该较低;
2. 高分辨率(high resolution):显著映射图应该具有高分辨率或全分辨率,以准确定位显著目标并保留原始图像信息;
3. 计算效率(computational efficiency):作为其他复杂过程的前期工作,这些模型应该快速检测显著区域。
(2)定位显著物体检测(与其他问题差异)
眼动点定位(fixation locations) 与显著物体( salient objects) 之间存在着很强的相关性 。两者的输出 都是一张连续值的映射图(continuous-valued saliency map) ,像素值更高表示该点更可能被注视;
物体提议生成(Object proposal generation) 也与显著物体检测高度相关 ,但前者输出一些候选对象的边框或区域建议 ;
图像分割(Image segmentation) ,也称为语义场景标记(semantic scene labeling) 或语义分割( semantic segmentation) ,为每个像素标记一个类别 ,例如天空、道路、建筑等,而显著物体检测的输出是一个二元映射图;
几种问题的对比如下图:
(从左至右分别为:原图像,显著物体检测,眼动点预测,图像分割(不同大小),图像分割(类似大小),物体提议)

(3)显著物体检测的历史
- 第一波浪潮:Itti等人提出最早一批显著模型,跨越了多个学科;
- 第二波浪潮:将显著物体检测视为二元分割问题( binary segmentation problem);
- 第三波浪潮:卷积神经网络(convolutional neural networks,CNNs)的兴起。

2 SOTA方法综述
(1)经典模型
基于块(Block-based) VS 基于区域(region-based)
前者主要用于早期方法,而后者随着超像素算法的引入而变得流行。
内部线索(Intrinsic cues) VS 外部线索(extrinsic cues)
前者来自输入图像内部,而后者借助用户标注、深度图等信息。
- 本文将模型分三类讨论(上述方法的组合):
- 内部线索+基于块
- 内部线索+基于区域
- 外部线索(基于块+基于区域)
(2)深度学习模型
- 基于传统卷积网络(classic convolutional network,CCN)的模型
- 基于完全卷积网络(fully convolutional networks ,FCNs)的模型
3 应用
- 物体检测与识别(object detection and recognition)
- 图像与视频压缩(image and video compression)
- 视频总结(video summarization)、
- 照片拼贴/媒体重定位/裁剪/缩略图(photo collage/media retargeting/cropping/thumbnailing)
- 图像质量评估(image quality assessment)
- 图像分割(image segmentation)
- 基于内容的图像检索和图像收集浏览( content-based image retrieval and image collection browsing)
- 图像编辑与操作(image editing and manipulation)
- 视觉跟踪(visual tracking)
- 对象发现(object discovery)
- 人机交互(human-robot interaction)
4 数据集&评估
-
数据集总结如下图:

-
评估指标:
- 查准率和查全率(precision–recall ,PR)
- F-度量(F-measure)
- 观测者操作特性曲线(Receiver operating characteristics ,ROC)
- ROC曲线下的面积(Area under ROC curve,AUC)
- 平均绝对误差(Mean absolute error,MAE)
5 讨论与总结
(1)设计选择
启发式(Heuristics )VS 从数据中学习 (learning from data)
手工特征( Hand-crafted)VS CNN特征( CNN-based features)
基于CNN的显著性检测的近期进展
(2)数据集偏差
选择偏差(selection bias)
捕获偏差(capture bias)
负集偏差(negative set bias)
(3)未来方向
超越单一图像
实例级显著物体检测
多功能网络结构
- Borji A, Cheng M M, Hou Q, et al. Salient object detection: A survey[J]. Computational visual media, 2019, 5(2): 117-150. ↩︎
