CVPR 2023 精选论文学习笔记:ScanDMM A Deep Markov Model of Scanpath Prediction for 360deg Images
该论文通过四个核心分类标准对图像处理任务进行了系统性研究:任务类型(包括图像质量评估、视觉显著性、视觉搜索和扫描路径预测)、图像类型(自然图像与全景图像)、应用类型(图像处理、计算机视觉与虚拟现实)以及维度(2D与360度图像)。论文重点研究了扫描路径预测任务在全景图像中的应用,并提出了一种基于深度马尔可夫模型的方法来预测360度图像的扫描路径。该方法通过学习不同区域之间的转移概率来捕捉观看者的注意力分布,并在实验中展示了其有效性。
我们给出四个符合 MECE要求的 分类标准:
1、任务类型
- 图像质量评估:该任务涉及对图像质量进行分析与评价。通常采用的方法是将待评估图像与其参考版本进行对比分析。参考文献[50] 和 [60] 都对此问题进行了深入研究。
- 视觉显著性:该任务主要关注如何识别出最能吸引注意力的区域。这些区域往往具有独特的视觉特征,并且是人们最先注意到的部分。相关研究可见于文献[51、52、53、54、55、56、57、58、59 和 69]。
- 视觉搜索:该任务的核心目标是模拟人眼在查看图像时寻找目标的过程。研究发现表明这一行为模式具有一定的规律可循。
- 扫描路径预测:该任务的研究重点在于理解并预测人眼在观察图片时移动轨迹的行为模式。现有研究表明多个不同的视角都能对此类问题进行深入探讨。
2、图像类型
- 真实世界场景的照片被视为自然图像的基础。参考文献 [51到69]都集中探讨了这一领域及其应用。
- 全景图像是通过360度视角捕捉周围环境的技术手段。参考文献 [43, 64, 70, 71, 72]都探讨了全景图像的应用及其在相关领域的研究进展。
3、应用类型
- 数字图像技术:作为现代计算机科学的重要组成部分之一,数字图像技术主要研究如何实现对数字图像数据的采集与解析过程。其中的研究均聚焦于提升数据处理效率与准确性这一核心目标,并广泛应用于多个交叉学科领域。
- 计算机视觉:作为人工智能领域的一个重要分支方向之一,在这一领域中我们重点研究如何从复杂场景下的多维数据中自动提取高阶抽象特征这一关键问题,并基于此实现智能感知功能。
- 虚拟现实技术:作为现代人机交互技术的重要组成部分之一,在这一方向的研究重点在于构建真实或半真实的沉浸式环境供人进行情景体验与行为交互操作。
4、维度
- 2D 图像:基于二维空间定义的图像类型通常不涉及深度信息。参考文献 [50至69号]中的多篇文献均涉及该领域。
- 360 度图像:通过立体视觉技术捕捉摄像机周围完整场景的方式称为360度图像。参考文献 [43, 64, 70至72号]中的研究主要聚焦于这一主题。
本文在四个 分类标准下的类型:
研究重点:扫描路径预测
2、图像类型:全景图像。本文重点探讨全景图像这一特殊领域,在这种视角下(即360度成像),系统能够完整捕捉所处环境的各个细节。随着虚拟现实技术、自动驾驶系统以及安防监控等领域的快速发展,在实际应用中对高精度全景成像技术的需求日益增长。对于这种特殊的成像类型而言(即360度成像),预测其扫描路径显得尤为重要(因为观察者能够在任何角度进行观察)。这使得预测者下一步的聚焦点成为一个更具挑战性的任务。
本文聚焦于计算机视觉应用研究。属于计算机科学的一个重要研究领域的是计算机视觉技术。该技术专注于从数字图像和视频数据中提取有价值的信息。在该领域中具有重要意义的是扫描路径预测技术,在具体应用中则可分解为多个关键环节:例如对象识别、图像分割以及动作识别等多个方面。
4、维度:... 360度的图像是我们研究的核心内容之一。本文主要关注的是... 360度图像是由于所提出的方法专为全景图像是设计而产生的这一背景因素所推动的研究工作展开的。为了更好地理解这一过程,在后续章节中我们将详细介绍所采用的具体算法框架及其理论基础等关键内容。
本文开发了一种深度马尔可夫模型用于估算360度图像的注视点序列。该模型将注视点序列视为由图像中各像素的位置所组成的序列。通过一个深度神经网络来学习不同区域间的转移概率。在本研究中基于360度图像数据集进行实验分析后发现,所提出的深度马尔可夫模型能够有效地估算注视点序列。
