论文阅读笔记--Deep Visual Saliency on Stereoscopic Images
文章完整信息:
标题 :Deep Visual Saliency on Stereoscopic Images
作者 :Anh-Duc Nguyen ; Jongyoo Kim ; Heeseok Oh ; Haksub Kim ; Weisi Lin ; Sanghoon Lee
期刊名称 :IEEE TRANSACTIONS ON IMAGE PROCESSING
卷: 28 期: 4 页: 1939-1953
DOI: 10.1109/TIP.2018.2879408
出版年
出版年
出版年
Deep Visual Saliency on Stereoscopic Images
-
Abstract
- 1.I NTRODUCTION
- 2.FEATURE EXTRACTION
-
* A.Feature Maps- B.Human Attention Mechanisms
-
III. STUDYING SALIENCE PREDICTION
-
- A. Regression-based CNN (简称 DeepVS-R)
- B. Full-CNN (简称 DeepVS-F)
-
-
IV . 实验结果与分析
-
A . 与其他方法的对比分析
-
B . 所提出的代价函数的重要性
-
C . 七通道特征图的作用
-
D . 网络解构技术的应用
-
V. CONCLUSION
-
Abstract
立体3D(S3D)
本研究提出了一种基于深度视觉显著性的(DeepVS)学习方案,并以期实现显著性预测的高精度与高可靠性目标。鉴于视觉显著性从心理物理角度受到低层特征(如对比度、亮度及深度信息)的影响,我们提出了七种自适应提取策略,并基于深度学习框架中利用这些自适应提取出的七种低层特征来检测视觉注意力。
在研究过程中发现,在低层特征中包含了部分关于图像失真与重要性的信息。为此我们采用了回归分析与深度卷积神经网络相结合的方式,并分别构建了两套不同的模型来对人类视觉注意力进行加权建模。实验数据显示,在S3D显著性检测框架下所获得的注意力分布图与其对应的注视模式具有高达70%的相关度这一结果表明,在现有的S3D框架中应当引入人工定义特征以提升模型性能
I. INTRODUCTION
较多的研究已经被提出可被用于预测自然2D场景中的显著区域[16]-[18]、[21]、[22]以及[51]等文献中所列述的文献,并表现出更高的精确性和可靠性。然而,在S3D图像引入视差后,这些基于深度感知驱动的模型未能捕捉到深度感知驱动的显著性特征这一事实可能导致预测结果与人类实际观察位置之间存在较大偏差
尽管S3D内容越来越受欢迎,但只有少数几个模型可以弥补这个缺点[4]、[9]、[10]、[38]、[52].
[4] N. D. B. Bruce and J. K. Tsotsos, "An attentional framework for stereo
vision," published in the proceedings of the Canadian Conference on
Computer and Robot Vision (CCRV), held in May 2005, pages 88–95.[9] K. Desingh, K. M. Krishna, D. Rajan, and C. V . Jawahar, "Depth really
matters: Enhancing the detection of visually salient regions through
incorporating depth information," presented at the British Machine Vision
Conference (BMVC) in 2013, pages 98–11.[10] Y . Fang, J Wang, M Narwaria, P Le Callet,and W Lin, "A detailed
approach to saliency detection for stereoscopic images," IEEE Transactions
on Image Processing, vol .23, no .6, pp .2625–2636, June 2014.[38] C Lang, T V Nguyen, H Katti, K Yadati,M Kankanhalli,S Yan,"The role
of depth cues in influencing visual saliency," presented at the European
Conference on Computer Vision (ECCV) held in Berlin Germany in October
2012,pages101–115.[52] J Wang,M P da Silva,P Le Callet,V Ricordel,"A computational model for
enhancing stereoscopic three-dimensional visual saliency," IEEE Transactions
on Image Processing vol .22 no .6 pp .2151–2165,J une 2013.
另外,可能影响视觉注意的另一个重要线索是图像质量。
在2D情况下,大多数常见的失真对人类的注视模式没有显著的影响[42],[43]。
然而在S3D框架下已有一系列研究表明广为人知的失真现象会显著地影响人们的注意力水平。这一现象成为人们关注的重点之一
举例来说,在图像出现模糊现象时(即当图像模糊时),观众往往倾向于将注意力转向物体的近处[26]。如果在图像中所关注的对象已经位于近处,则注意力转移的程度相对较小。
与之相反,在图像中被关注的目标若远离且较小,则难以精确识别这些目标;因此它们将注意力转向前景对象
在上述情境中,观察原始图像与失真图像时注视行为的差异性非常明显。该现象的可视化结果如图1所示。

另一个决定预测性能的因素是计算资源。
在先前的研究中,少部分基于自上而下的研究对计算资源的需求相对较少。然而,在实际应用中发现这些生成的显著性图与真实数据的相关性较差。
基于此发展出许多自顶向下的方法[25]、[55]。(此处可进一步补充说明)如今应用了深度学习(deep learning),显著性检测器的性能得到了极大提升。(此处可进一步补充说明)其主要缺点在于模型的高度复杂性。(此处可进一步补充说明)一般情况下而言,在训练深度网络时需要投入大量计算资源和大量标注数据。(此处可进一步补充说明)这些资源可能难以获取。(此处可进一步补充说明)因为如此,在许多实际场景中更倾向于采用更加简洁的方法。(此处可进一步补充说明)一种策略是通过设计几个简单的手工工程特征来降低深度模型的复杂度。(此处可进一步补充说明)
为了解决在保证精度的前提下减少深度学习模型的复杂度问题, 本文提出了一种名为 DeepVS(Deep Visual Significance)的新方法, 在这一方法中, 我们基于显著性检测问题中适用的各种特征构建了深度神经网络模型. 具体来说, 在以下方面我们进行了详细的阐述:
- Distortion: 三维视觉中的失真不仅会降低深度知觉的质量,并且会对双眼之间的视觉协调产生负面影响[32]、[39]、[45]。
- Depth/Disparity: 在S3D场景中, 我们能够通过分析同一场景中两张图像的几何关系, 准确推导出物体的真实深度信息。
- Content Characteristics: 影响人类视觉注意力的关键因素包括颜色、亮度和边缘等基本特征, 然而, 当前基于深度学习的研究往往忽略了这些基础特征的作用. 多项研究表明, 相对于未经处理的输入数据, 对这些低级特征进行人工提取可以显著提升模型性能[13]. 此外, 大多数深层神经网络在学习初期倾向于捕捉简单且基础的特征. 因此, 在模型输入端直接使用这些低级特征是合理的选择, 同时也能有效降低模型复杂度.
- Relevant HVS Property: 观看者在观看S3D内容时会将注意力集中在图像的不同区域, 并且失真现象会导致双眼融合困难. 这种现象不仅影响观看体验, 还可能导致双目抑制等负面效果. 因此, 针对人类光学特性的研究有助于更好地量化视觉显著性指标.
我们提出的框架,如图2所示,包括两个阶段:特征提取和学习。


在特征提取环节中,我们参考文献[26]中的方法,通过从S3D对中提取颜色、亮度和视差信息等关键特征,基于人眼视觉系统的心理物理特性分析,来检测并识别人类的注视模式.
我们在学习阶段采用了深度学习方法来进行特征评估,并发现在拥有充足数据时该方法相较于传统机器学习技术更具优势。为了确保不同架构都能从中受益,我们推荐采用回归卷积网络(DeepVS-R)和完全卷积网络(DeepVS-F)。
针对显著性检验而言,在比较该模型与现有模型结果时,我们主要探讨如何运用现有深度学习中的技巧(bells and whistles)来提升性能表现。此外,在深入分析过程中,我们进一步探讨了各个特征对视觉注意力的作用
最后阶段, 我们通过网络架构的设计优化来实现模型性能提升. 在这一过程中, 采用严谨的数据收集方法进行多维度性能评估, 并且对比分析了不同算法间的差异.
总结文章的主要贡献:
- 使用了多样化的基础信息源,在经过失真处理的S3D图像中仍能保持较高的显著性检测能力。
2. 探讨了在S3D显著性检测过程中,人工设计特征作为深度学习模型输入时所必需的关键性。
3. 针对传统卷积神经网络(CNNs),本研究提出了改进方案,并取得了显著提升效果。
II. FEATURE EXTRACTION
A. Feature Maps
注意行为会受到亮度以及色彩渐变、视差和深度断裂等基础元素显著影响[9,10,26,38]
本研究中,输入至深度学习模型的数据基于颜色、亮度以及视差等因素提取为一组特征集合.
生成这些地图的流程简便,在多个方面类似于数据增强、特征标准化和零相位分量分析白化(这些都是深度学习领域中常用的预处理方法)。具体流程将在下文详细阐述。
1.Binocular Information
通过感知机制,一对S3D图像整合成一个虚拟的整体形象,在大脑中被称作独眼视觉图景。
转载一篇关于Gabor滤波器的博客
我们采用亮度与色彩渐变[10]、[17]、[27]以展示亮度与色彩在空间域的变化情况。
基于独眼图像I提取归一化亮度与色彩渐变图。定义符号\Delta_l表示亮度梯度。其归一化计算公式如下:
\Delta_l = \frac{1}{\delta_l^M} \sqrt{(\nabla_x I)^2 + (\nabla_y I)^2} \quad (2)
其中符号\nabla_x I和\nabla_y I分别表示基于独眼图像I的空间变化率,在水平轴$x轴上和垂直轴上。其中符号\delta_l^M是平方根项的最大值。
为了准确获取颜色信息, 本研究采用了独眼图像将RGB空间转换为CIELab颜色空间, 得到的结果记为I_{Lab}. 归一化颜色梯度\Delta_c被定义为:
\Delta_c = \frac{1}{2\delta_{c,a}^{M}} \cdot \sqrt{\left(\frac{\partial I_a}{\partial x}\right)^2 + \left(\frac{\partial I_a}{\partial y}\right)^2} + \frac{1}{2\delta_{c,b}^{M}} \cdot \sqrt{\left(\frac{\partial I_b}{\partial x}\right)^2 + \left(\frac{\partial I_b}{\partial y}\right)^2}
(3)
其中, I_a 和 I_b 分别表示I_{Lab}的颜色通道参数, 而\delta_{c,a}^{M}和\delta_{c,b}^{M}则分别表示对应通道的最大偏差. 这两个梯度图被用作接下来的两个特征图.
3.视差信息
在本研究中,我们基于文献[50]所提出的光流法来计算像素级别的视差.在此过程中,我们特别关注并采用了水平方向上的运动向量.这是因为我们对物体间的相对运动有着较为充分的了解和先验知识.
[50] D. Sun, S. Roth, and M. J. Black, “Essential aspects of optical flow estimation and its underlying principles,” in the proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 2010, pp. 2432–2439.
在处理存在失真区域的图像时(或):可能导致图像融合中出现严重问题(或):如人眼中的双眼竞争或抑制效应[39](或):这也会影响到人类视觉系统的正常运作
基于此,我们通过在左图象与右图象之间实施相关测量手段以细化估计的视差信息。
我们采用在S3D架构上进行块搜索以完成视差估计的任务。当匹配的图像块具有较低的空间相关性(在本研究中测得的相关系数均低于0.4)时,则对该区域的视差值进行置零处理;反之,则保留原有视差值。
此策略专门针对深度学习模型进行优化设计,并向模型提供关于失真程度的信息。这些失真因素会引起图像中出现许多不规则特征,并进而影响视差估计的效果。
基于S3C场景图像获取视差信息 D 后,则称视差图为:
\hat{D} = \frac{D_M - D}{d_m - d} \quad (4)
其中,
\begin{cases} D_M = \max\limits_{(x, y)} D(x, y), \\ d_m = \min\limits_{(x, y)} d(x, y) \end{cases}
进一步地,
其计算公式如下所示:
\Delta_D = \frac{1}{\delta}\sqrt{\left(\nabla_x D\right)^2 + \left(\nabla_y D\right)^2}
在此基础上,通过将上述所有特征(I_{channel_R}, I_{channel_G}, I_{channel_B}, Δ_l, Δ_c, \hat{D}, Δ_D)进行深度整合为一个系统,并最终构建起七通道的输入机制。
B. Human Perception of Saliency
为了探讨人类观察图像的行为模式, 常用眼睛跟踪器获取的眼动图作为基准数据集。眼动定位系统能够精确识别观察者在图像中的注视位置。这些基准数据集主要由大量零值以及显著区域内非零值构成, 由此可得, 眼动图具有高斯模糊特性, 其σ值为1度视角, 这一特征与人眼视网膜的感受机制相一致。由于其稀疏特性, 在常规损失函数中难以有效应用, 因此需要采取特殊处理方法对其进行建模分析
除了上述问题之外,在人类显著性数据中还存在噪声这一干扰因素。为了减少这种干扰的影响,通常会采用阈值化处理或均值减法等方法[3]。然而这种方法虽然能有效降低噪声水平 但可能会因过度平滑图像而导致重要细节信息的丢失 因此在本研究中我们特别关注中心凹这一特征 基于以下定义:在图像采集过程中 当一个感光细胞从视网膜中心移向周边区域时 其数量会发生快速减少 这种现象被广泛认为是视觉系统的关键特性之一 在现有文献的基础上 我们进一步完善了中心凹模型的具体表达形式 并在此基础上提出了新的改进方案 该模型能够更好地反映人眼对复杂场景的适应能力 同时也避免了传统方法在某些边缘情况下的不足 这一改进也为后续实验结果的分析提供了更加可靠的理论支持
[40] S.Lee and A.C.Bovik,"Efficient algorithms designed for foveation-based video processing",IEEE Trans.Circuit Syst.IEEE Trans.Circuit Syst.IEEE Trans.IEEE Trans.IEEE Trans.IEEE Trans.IEEE Trans.IEEE Trans.IEEE Trans.IEEETrans.CircuitSyst.VideoTechnol.,vol.,no.,pp.-,,Feb.
[41] S.Lee,M.S.Pattichis,A.C.Bovik,"Foveation-based video compression employing optimal rate allocation",IEEE Trans.ImageProcess.,vol.,no.,pp.-,,Jul.
[12] W.S.Geisler,J.S.Perry,"A real-time foveation-based multi-resolution system optimized for low-bandwidth video communication",ProcSPIE vol.no.,pp.-,,Jul.
中心凹因子里的定义可以表述为:
数学公式 F_f(x) = \frac{f(x)}{f(s(x))} (7) 中描述了这一概念的核心关系。其中x代表像素,在该像素处最近的位置上具有显著性。
我们定义了\hat{S}作为高斯模糊的真实注视图。在确定了中心凹之后,在每个显著观测结果\hat{S}的基础上,在所有空间位置x上计算出基于HVS处理后的映射关系 S(x) = F_f(x)\times\hat{S}(x) (见公式8)。其中基于HVS处理后的映射关系如图3所示。

从观察中可以看出,在应用预处理过程后,人类注意力不太集中的区域被使为较暗区域,并在整体图像中呈现出明亮的部分。基于此,在维持原始图像与经过失真处理后的图像在显著性映射方面的差异这一前提下,在真实场景中通常不会出现过多噪声干扰
III. LEARNING TO PREDICT SALIENCY
回归方法的相关应用用于图像质量评估,并用于计算补丁的质量分数[28]的同时,在人群计数任务中预测人口密度[54].
同时,在图像生成问题中,请注意这种方法更为受到青睐的原因在于这种网络能够捕获全分辨率的图像并生成任意尺寸的输出
在本研究中旨在表明我们的特性能够广泛应用于各种架构结构。为此本研究设计了两组卷积神经网络模型用于评估所提出的具有七通道特性的图谱的基准性能。
A. Regression Convolutional Neural Network(DeepVS-R)
该区域之所以突出的主要原因在于它不仅包含有与周围环境明显的不同特征,并且还包含有能够被人类理解的语境信息。
为了获得局部及全局信息,这里自然需要一个多尺度的神经网络。
在多尺度层次上进行建模时,我们期望让该模型能够在图像区域中呈现出从粗粒度到微粒度的不同视图.通过这种设计,不仅能够有效提取局部分析特征,还能有效地整合更多全局级别的上下文信息[11].
在此基础上

该系统由多尺度架构(Multi-scale structure)与聚合机制(Aggregation mechanism)两个核心模块构成。其中的多尺度组件主要包含三个相互独立的并行处理模块,在其内部依次经过五个连续的卷积操作后会引入一个最大池化(Max pooling)操作,在经过第一、二以及第五个卷积操作后会引入一个最大池化(Max pooling)操作。
整个网络结构中采用校正线性单元(ReLU)作为各层激活函数,并基于其生物学合理的声望引用了相关研究[15]。随后将三个独立模型的结果进行融合处理并整合到聚合模块中,在该模块中包含两个连续完整的全连接层结构。其中第一全连接层采用ReLU作为激活函数并构成常规隐藏结构;最后一全连接层使用线性激活函数并输出一个标量分数值
DeepVS-R的输入数据准备如图5所示。

在构建完七通道的特征图后,这些特征图经过尺寸调整为320×640,并按20像素间隔分割成三个不同比例的部分。每个区域均从图像的第一个像素位置开始,并以其自身中心点作为基准进行划分。
在第一、第二及第三尺度下,各尺度的宽度设定为50、100及200像素。通过零填充的方法处理图像边缘区域,在此过程中,每个像素对应的小块尺寸将与邻近区域的小块保持一致。最终阶段中,则会将前两个较高分辨率的比例尺调整至最低分辨率的比例级上。以斑块中心位置像素点显著性得分作为自变量数值的基础进行计算。
深度学习中的一些技巧
深度学习中的一些技巧
深度学习中的若干技巧
深度学习中的若干技巧
在反向传播过程中, 通过批归一化(BN)促进梯度流动. 如文献所述, L_1正则化系数被设定为较小值范围(10-5).
所有网络参数采用了Xavier初始化方法[14].
为加速收敛至一个较优或全局极小值点, 并采用Adadelta[53]优化MSE损失函数. Adadelta算法的所有参数均按照作者推荐设置.
B. Fully Convolutional Neural Network(DeepVS-F)
回归方法的一个显著缺点是必须将图像划分为块部分,在无法使用并行计算资源的情况下,这导致了较高的计算成本。
基于此分析结果表明,在现有条件下我们推荐采用替代方案——即为完全卷积网络的设计架构。该系统能够接收基于完整分辨率的特征图作为输入。
该方法已被我们在文献[3]中进行开发,并命名为DeepVS-F。其模型架构已在图6中详述


该模型主要由VGG16网络[48]中的卷积层以及多个用于密度预测的转置卷积层协同作用构成。
具体来说,在这些定制方面包括:从VGG16[48]匹配的权重中移除权重,并采用ADAM[35]进行模型优化而非随机梯度下降。
在本研究中,在这项工作中我们设计了一个适用于显着性检测任务的代价函数,并对其进行了详细的优化设计与实现研究
第一个和在所有空间位置上,第二个和在一个batch中的m个图像上。
最终的预测图是\hat{Y} = \alpha \odot Y(\Theta)+\beta.
在起始阶段,FUCOS[3]采用了基于均方误差(MSE)的训练方式。然而,在经过分析后发现DeepVS-F模型在使用MSE作为代价函数进行训练时会遇到稳定性问题。
我们还考虑了在分类任务中常用的sigmoid交叉熵(CE)。但是我们发现这个成本函数未能展现出良好的性能。
在经过二值化处理后,在模型并未设计用于直接估计显著幅度的情况下(因为模型并未学习如何直接推断),这使得预测结果的相关性受到影响。
在此项研究中, 我们采用了CE与MSE相结合的方法. 通过使用两个具有相同形状且可训练的掩模α和β来进行MSE建模, 而并非单纯地将CE与MSE的行为简单相加会导致失败, 如文中Section IV-B 所详细探讨
IV . EXPERIMENTAL RESULTS AND ANALYSIS
我们选择了IEEE-SA S3D[1]和LIVE1[44]数据库。
IEEE Stereoscopic Image Database Version 2012 is accessible online at [Online]. Available at: https://groups.ieee.org/3dhf/
Reference details for the work by Moorthy et al.:
[44] A.K.Moorthy,C.-C.Su,A.Mittal,andA.C.Bovik,"Assessment of depth perception performance in stereoscopic images," Signal Processing & Image Communications vol. 28,no.8 pp .870-883 December2013.
在该方法中,包含了26张原始图像(ORI)及其五种不同类型的失真版本(包括高斯模糊(Gaussian blur)、形式一形式转换(FF)、基于变形压缩扩展器二进制扩展基变换编码器基变换编码器二进制扩展基变换编码器基变换编码器二进制扩展基变换编码器基变换编码器白高斯噪声扩展基变换编码器基变换编码器白高斯噪声WN),这些失真版本按照失真程度逐步增强,在五个不同的层级上进行构建。该数据库总计包含676张图像。
在后者中,有20个参考图像和365张失真图像(JP2K、JPEG、WN和FF各80张;模糊45张)。
与IEEE-SA数据集相比,LIVE1未提供失真级别的具体标注信息。为了获取可靠的固定地面真实数据样本,我们在年龄范围为20至30岁的20名受试者身上实施了持续的眼动追踪研究。本研究采用了"智能眼专业"这一双目视觉追踪系统,并基于分辨率1600×900、配备有23英寸 polarization立体显示器。该实验在完全黑暗的室内环境中运行,以确保其结果与传统主观测试方法具有可比性。有关本研究的具体细节,可参考文献[23]和[26]中的详细说明
针对所有符合VGG-16架构的权重参数,在本研究中我们将这些权重从预训练的VGG-16模型中加载到我们的模型中,并且避免模型在数据量有限的情况下过度拟合。
通过实验证明了以下几点:第一,在实施过程中作者详细记录了数据结果,并对模型进行了多轮迭代优化;第二,观察到验证损失在第8个 epoch 后显示饱和现象,在第12个 epoch 后呈现过度拟合特征;第三,因此在此期间提前终止训练是一个合理的选择
在实验阶段中,我们采用了多样化的训练/测试比例划分,并对各轮实验结果进行了系统分析和评估。
与以往的模型进行比较:



A. Comparison With Other Methods
观察表二数据可知,在采用自底向上的方法时呈现出一致的特征,在图像失真程度增加时其性能通常显著下降。
然而,在深度学习方法中,并不具备这样的特性。由于学习过程可能有助于这些算法在面对不同失真程度时进行图像区分。
然而,在分析这些表格时,我们观察到在深度学习方法中除了SAM Restnet之外的所有模型的表现都不尽如人意。
SAM-Restnet与Proposed model在内存与速度上的比较
| 模型 | SAM-Restnet | Proposed model |
|---|---|---|
| 内存 | 31M parameters | 37M parameters |
| 速度 | 0.35s/image | 0.05s/image |
为了展示预测显著性图的应用实例, 我们对不同失真水平下的基准系统进行了评估, 其中包含ToVA分数[26].
较高的ToVA分数反映出两个显着性图之间的显著差异。根据文献[26]可知,在图像失真程度增加时,在图像显着性图与原始显着性图之间的差异越大,则相应地会提高该方法的ToVA分数。
为了评估每种方法对图像中存在失真内容的反应程度, 我们计算了预测显著性映射与原始映射之间的ToVA分数. 请注意, 在计算时我们仅考虑那些与基本事实显著性地图具有较高CC和AUC得分的相关结果. 由于ToVA最初旨在处理基本事实显著性地图, 因此在预测地图不准确的情况下, 测量模型对失真的反应将变得无意义.
计算ToVA分数
首先,在图像处理领域中,两个显著图之间的相对显著熵被定义为:
D_{f_{ref} || f_{tar}} = E_{f_{ref}}[\log f_{ref}(x) - \log f_{tar}(x)] \quad (12)
其中x为像素坐标,在此定义中f_{ref}和f_{tar}分别代表参考图与目标图的显著性映射,在实践中这些映射通常经过多次二次采样并划分为不重叠的块以实现多尺度、多块式的ToVA运算。设s表示不同尺度的数量而b表示块的数量,则非归一化的ToVA分数计算公式可表示为:
ToVA(f_{ref},f_{tar}) = \frac{\sum\limits^{s}_{i}\sum\limits^{b}_{j}D(f^{i,j}_{ref} || f^{i,j}_{tar})}{s} \quad (13)
研究表明表明该分数与图像质量下降及观众视觉不适程度之间存在密切关联。
B. Significance of the Proposed Cost Function
为了探究所提出的代价函数对预测显著性图的作用及其影响程度,我们采用了其多个变种来训练DeepVS-F模型。表V展示了这些模型的表现。

在我们看来,显著性预测包括两个子问题:
- 识别像素是否显著(分类)
- 推断像素是否显著(回归)。
因此,采用均方误差(CE)或均方差(MSE)可以一次性解决两项任务。
- 推断像素是否显著(回归)。
不幸的是,在这种情况下,
两个指标直接相加的效果也无法超越单个指标的表现,
其中均方误差(CE)将显著区域内的预测值提升至1,
而区域外则将其拉低至0;
相比之下,
均方误差(MSE)则试图使这些预测值与真实情况高度一致。
代价函数中增加的参数打破了这两个度量之间的联系:不管CE值是多少大多少小...
针对这些参数提出了一种新的理解视角。针对任意具有七个通道的输入数据X, 输出结果可通过卷积神经网络f进行计算得到, 其中f代表经过训练的有效模型架构部分。随后将该掩模应用至输出层, 并通过代数运算可得预测显著性图\hat{Y}=α\odot Y+β, 这里α和β分别代表权重系数向量并满足特定约束条件。从这一角度来看, 在某种程度上这些掩模的作用机制与文献[10]和[36]中所描述的中心偏向效应具有相似性
在先前的研究中, 中心偏向先验受人们倾向于关注图像中心这一现象启发而被构建。与之相比, 我们并未明确构建中心偏倚图这一模型; 相反, 我们期望网络能够学会纠正sigmoid函数导致的目标预测过高估计的现象, 这一目标与(参考)[37]中的方法具有相似性。
C. Significance of the Seven-Channel Feature Map
- RGB独眼图像:这有助于深层网络识别显著对象和部分失真类型。然而,预测结果与人类数据的相关性并不好,因为人们不看整个物体,而只看某些特定的部分。
- 颜色和亮度梯度:这些特征图是区分失真的主要因素。这些特征与独眼图像有竞争性的定量得分,但定性结果似乎更好。虽然这些特征图提高了整体性能,但收益并没有预期的那么多。
- 视差和视差梯度:这种信息在大多数情况下占主导地位。如我们所见,这些特征图和RGB独眼图的结合已经产生了非常好的性能。这表明在某些情况下使用RGB-D可能已经足够了。
- 总之,每个特征对整个模型的性能起着重要作用。当使用所有的特征时,网络可以削弱它们的影响,这有助于更好地进行相关预测。
D. Network Dissection
在这一部分中, 我们旨在获取关于深层网络语义特征的深入理解, 以便更好地把握其行为规律. 通过参考文献[2]的方法进行了一次网络解剖分析, 探讨了DeepVS-F框架下激活模式与其真实 ground truth 显著性分布之间的语义关联.
V. CONCLUSION
在本研究工作中,我们基于亮度、色彩及视差信息提取出七种低级特征图,并将这些特征体有效整合至两个深度学习驱动的框架内,针对存在失真影响的S3D图像序列进行重要性分析。
我们开发并提出了DeepVS-R和DeepVS-F两个模型,在深度学习框架提取特征的过程中取得了成功应用效果。相比之下,在采用分块技术的情况下(即基于精确多层次架构以及更为丰富的数据集),我们的研究结果表明:针对这一需求(即在减少数据预处理时间和降低训练时长方面均表现出色),所提出的解决方案能够有效提升性能表现
研究表明,虽然该模型结构较为简单,在显著性检测方面仍然优于其他方法。我们进一步分析了每个特性对整体性能的影响,并深入探讨了深层网络各层如何在语义层次与人类易于理解的概念保持一致。
