论文阅读笔记--Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
文章完整信息:
标题 :Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
作者 :Marcella, Cornia , et al
期刊名称 :IEEE Transactions on Image Processing
出版年 : 2018
分类 :2D deep learning saliency model
全文 :PDF
代码 :Code
Using a Salience-Aware LSTM Network, the Study Analyzes Human Eye Fixation Patterns.
- 摘要
- 第一部分:引言
- 第二部分:相关研究综述
- A节:明视图与深度学习框架
- B节:明视图物体检测技术
III. 模型架构
* A. 基于注意力机制的卷积长短期记忆单元
* 注意力机制模型
* ConvLSTM
* B. Learned Priors
* C. Dilated Convolutional Network
* D. Loss function
IV. 实验设置
-
V. 实验评估
-
- A. 不同损失函数的对比分析
-
B. 模型消融分析
-
C. 注意力机制及其预训练知识对模型性能的贡献分析
-
D. 与现有先进方法的对比研究
- VI. CONCLUSION
Abstract
基于卷积神经网络对人眼注视进行估计或定位的数据重要性在过去几年中受到了广泛关注。
本文开创性地基于前馈网络技术生成注视图的标准评估指标体系,并成功开发出一种整合神经注意力机制的高精度定位评估框架。
网站:深入解析深度学习中的注意力机制相关内容,并提供详细分析与应用案例。
我们的解决方案的核心模块基于卷积LSTM算法,在对输入图像进行重点分析的基础上, 通过不断优化逐步提升预测结果的质量.
本文将为您介绍长短期记忆网络(LSTM)的基本概念及其核心内容,并深入探讨其在深度学习领域的重要作用和应用前景。访问地址:简单理解LSTM神经网络
另外,在应对人眼注视中心偏移现象时
I. INTRODUCTION
机器注意[15]是一种计算范式,它按顺序注意1输入的不同部分。
[15] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention ,” in International Conference on Machine Learning, 2015.
机器注意主要通过基于递归神经网络的机制,并采用其内部状态与输入区域之间相容性度量的方式得以实现。
该模式已在视觉文字描述与机器翻译领域获得了良好的应用,并被成功用于动作识别的同时也被用于时空体的相关分析中。研究表明机器注意策略同样适用于显着特征分析这一任务,并可有效提升预测性能。
本研究致力于开发一种新型的显著性预测体系架构。这种架构整合了一个具有注意力机制的空间时序神经网络(Attentive ConvLSTM)。这种神经网络通过迭代定位相关空间区域进行深入分析,并详细刻画显著性特征。由于传统的LSTM主要用于时间序列分析,在本研究中我们采用这一架构来进行图像细节刻画。
此外,在卷积神经网络中使用最大池化层以及卷积层中的stride参数所导致的图像重放缩(rescaling)操作会削弱显著性预测的效果。为此我们需要开发一种新的方法来扩展现有的两种常用卷积神经网络模型(VGG-16和ResNet-50)。这些改进型网络设计旨在缓解降采样操作所带来的负面影响,并尽可能地维持图像的空间分辨率。通过这种权衡方案,在保留细节视觉信息的同时提升了特征提取的效果。
最后,在应对人类注视图像中心区域的倾向方面采取了新的措施。与之前的手工设计prior的方法不同的是,在我们的模块中使得体系结构能够完全从头到尾自主训练,并支持自动生成中心prior。
II. RELATED WORK
早期方法遵循特征融合理论来完成显著性检测任务。许多研究专注于探索如何融合低层特征并结合中心环绕提示以提升检测效果。
早期方法遵循特征融合理论来完成显著性检测任务。许多研究专注于探索如何融合低层特征并结合中心环绕提示以提升检测效果。
其他方法借助语义分类器来提升预测能力,并专注于识别更为复杂的概念类别,例如面孔、人物、汽车以及视野。在数据压缩方面也展开了相关研究工作。
A. Saliency and Deep Learning
在我们的研究项目中, 我们采用了ResNet这一深度学习框架, 从输入图像中提取出相应的特征图. 基于这一基础, Liu等学者提出了一种独特的显著性检测方法, 被称为DSCLRCN. 该方法通过整合全局视角与局部场景信息来识别图像中的关键区域, 其核心组件是一个深度空间下采样长短期记忆网络(LSTM), 其不仅能够在横向方向上进行系统遍历, 同时也能深入分析纵向分布模式
为了更突出地展示我们模型与现有显著性方法之间的差异,在表1中,我们列出了我们的解决方案及其在竞争性方法中的主要特点。值得注意的是,在现有显著性方法中,并未包含任何机制用于引入注意力机制或由网络直接学习先验图。此外,在以往的研究中,并未提出过一个综合平衡不同显著性度量作为损失函数的方法来实现最佳性能。

B. Salient Object Detection
显著目标检测与本文的主题略有关系,尽管这是一项截然不同的任务。
在进行显着目标检测时, 其实质就是识别出二值化图像中标志重要物体的像素区域. 另一方面, 在显着性预测任务中, 则旨在估计观众注意力分布的空间模式.
基于Kuen等人提出的显著性检测方法,在某种程度上与我们开展的研究存在关联。[51]其中采用递归(而非卷积)网络架构实现目标检测任务,并展现出良好的性能。在每一时间步中,基于其递归网络输出的信息,在特定图像区域进行空间变换操作,并通过该区域生成相应的二进制预测结果。
我们的递归网络是卷积的,并通过迭代精炼预测来处理显著性特征。
III. MODEL ARCHITECTURE
在本节中,我们将详细阐述我们的完整模型架构设计,并将其命名为SAM(Saliency Attentive Model)。

A. Attentive Convolutional LSTM
上面那张图是完整的模型;这一节要介绍的部分如下所示:

我们将传统的LSTM推广至空间特征领域:在形式上,这是通过将LSTM方程中的点积替换为卷积操作得以实现的。此外,我们借助LSTM的序列特性,在采用迭代方式处理特征的同时避免了基于模型的方法来处理输入中的时间依赖性。
Attentive Model
该模型采用了注意力机制,在图像处理任务中表现出色。其输入为X(空洞卷积层生成的特征图),具有512个通道;经过处理后得到的结果\tilde X_t也保持了相同的通道数量。
参考Abstract一文中的博客内容,关注其核心机制。本质上是对输入数据进行加权累加处理。
首先,X与隐藏层特征H_{t-1}通过执行卷积操作融合在一起后,经tanh激活函数处理后的主要目的是为了压缩并稳定前面所学习的关键信息;随后,利用单通道的空间权重矩阵对该融合后的特征进行处理以生成中间状态tZ_t = V_ a\tanh(W_ a X + U_ a H_{ t-1 } + b_ a) \quad (7)其中,V_ a, W_ a, U_ A, b_ A均属于Attentive Model参数集中的学习参数.
随后,在经过一个softmax层后,在时间步t上计算并获得了归一化后的权重值(二维张量)A_t;同时即形成了规范化后的空间注意力机制:
A_t^{i,j} = p(att_{i,j}|X,H_{t-1}) = \frac{\exp(Z_t^{i,j})}{\sum_i \sum_j \exp(Z_t^{i,j})}
通过为输入X中的每个通道进行加权处理得到\tilde X_t
\tilde X_t = A_t\odot X (9)
这样就完成注意机制的一个处理。
ConvLSTM
LSTM模型的说明可作为上述Abstract中那篇博客的参考资源
该卷积LSTM网络的输入是经由注意力机制处理后得到的\tilde X_t(具有512个通道),其输出为经过精细化处理生成了精细度较高的特征图X'。
LSTM的基本运作机制基于三个sigmoid门控单元的值依次计算和调整一个细胞状态。通过以下数学表达式来描述更新过程:
I_t = \sigma(W_i*\tilde X_t+U_i*H_{t-1}+b_i) (1)
F_t = \sigma(W_f*\tilde X_t+U_f*H_{t-1}+b_f) (2)
O_t = \sigma(W_o*\tilde X_t+U_o*H_{t-1}+b_o) (3)
G_t = tanh(W_c*\tilde X_t+U_c*H_{t-1}+b_c) (4)
C_t = F_t\odot C_{t-1}+I_t\odot G_t (5)
H_t = O_t\odot tanh(C_t) (6)
其中涉及以下内容:候选记忆G_t为...均为三维张量,并且都具有512个通道
“*”代表卷积操作,所有的W和U是二维的卷积核,所有的b是学习的偏置。
图3展示了四个样本图像上的显著性预测结果,并基于不同时间步输出特征作为模型其他组件所需的信息源。值得注意的是,在这个过程中对CNN初始特征进行逐步优化以提升其准确性与精细度的相关机制被引入。这种改进使得整体预测性能表现得到了明显提升

第一行和第二行呈现了焦点位置的变化趋势,在逐步修正误判为重要区域的同时准确判断真实重要的区域。
相对地,在第三行和第四行分别呈现了在第一时间步已经被(或未被)认定为显著的图像区域中数量上的增长与缩减。无论何种情况下,结果总是趋近于与ground truth一致。
B. Learned Priors

心理学研究表明,当观察者观察图像时,他们的目光偏向中心。
这种现象主要是由于:
- 摄影师更喜欢将他们感兴趣的对象放置在画面中央。
- 观察者在多次审视具有显著信息量的画面时,在画面中央寻找信息含量最大的内容是一种自然的行为。
- 其实有趣的是,在缺乏明显焦点的情况下,人类依然更倾向于注视画面中心。
以这一证据为基础,在预测分析中,涉及中心先验的部分构成核心要素。
不同于现有的研究领域(涵盖预设的先验分布),我们让网络能够自主学习其先验分布。通过减少参数数量和简化计算复杂度,在保证模型性能的前提下,我们将每个先验约束建模为一个二维高斯函数,并确保其中心位置和协方差矩阵能够自由调整以适应具体任务需求。这样一来,在处理各种数据时,网络不仅能够提取自身的统计特性作为 prior 信息,并且无需依赖生物领域的相关假设。
基于一组由对角协方差矩阵Λ表示的高斯函数模型来描述中心偏差。以以下公式为基础来估计每个先验图的均值和方差参数:
该函数f(x,y)由下式给出:
f(x,y) = \frac{1}{(2\pi)\sigma_x \sigma_y} \times \exp\left(-\left(\frac{(x-\mu_x)^2}{2\sigma_x^2} + \frac{(y-\mu_y)^2}{2\sigma_y^2}\right)\right)
其中,
分母为2\pi乘以\sigma_x和\sigma_y的乘积,
分子则包含指数项,
其形式为:
\exp\left(-\left(\frac{(x-\mu_x)^2}{(σ_x)^{−1}} + \frac{(y−μ_y)^{−1}}{σ_y^{−1}}{}\right)\right)
我们设计了一个网络架构来训练N个高斯函数(其中在本研究中取值为16),并生成相对应的先验图。经过拼接处理后,在结合学习到的先验图信息的基础上,最终形成了一个新的具有528个通道的新张量。随后将该新张量输入一个具有512个卷积核的标准卷积层进行处理。如前所述,在第V-C节中详细描述了该操作不仅引入了额外的非线性特性,并且通过对比实验验证了其有效性。值得注意的是,在整个模型构建过程中,默认情况下我们会复制整个prior模块两次。
C. Dilated Convolutional Network

基于CNNs提取显著性预测特征的一个主要缺陷是在对输入图像进行特征提取的过程中,CNNs会对这些图像进行过大的尺度压缩,导致预测精度出现明显下降
接下来,我们开发了一种方案,在维持卷积滤波器运算规模和参数数量的同时,提升了CNN的输出分辨率。这使我们得以利用预先训练好的权重,在网络结构发生微调后无需再进行精细调整卷积滤波器的工作。
该方法的核心思想在于,在选定一个具有stride值为s>1的关键路径后,在其后续所有层级中引入空洞卷积操作(参考文献60),从而提升输出分辨率水平。值得注意的是,在这一过程中所有卷积滤波器均维持他们在训练阶段设定的标准尺寸作用。我们将其应用于当前最前沿的特征提取架构中:包括VGG-16(引用20)和ResNet-50(引用21)模型。
该网络架构包含13个卷积层和3个全连接层。这些卷积块均后接最大值池化模块。具体而言, 每个卷积块都随后附有一个最大值池化模块, 其采样步长设为2。
ResNet-50与普通CNN不同,在其构成的不同模块之间建立了系列残差映射(residual mappings)。这是通过建立标识映射的关键捷径(shortcut)实现的有效方式;即直接将模块输入加至其输出上。这种设计有助于防止网络深度增加时出现性能下降的问题[61];并且在显著性预测任务中同样具有优势,在提升网络特征提取能力方面表现突出。具体来说;ResNet-50网络由五个卷积模块和一个全连接层构成;其中第一个模块由一个卷积层和最大值池化层组成;这两个操作单元均采用2倍步长;其余四个模块均为全卷积结构;其中除第二个模块之外的所有模块均采用2倍步长来减少特征图的空间维度。
为了提取特征映射的目的,在本研究中我们专注于卷积层的设计与实现,在此过程中省略了两端完全连通层的构建步骤。
值得注意的是,在比较分析两种架构时发现压缩比例因子具有重要影响。
因此,在实验中我们对网络结构进行了优化设计以避免重缩放现象的发生。
对于VGG-16网络结构,在经过处理后又移除了最后一个最大值池化层(maxpooling layer),随后将其所述技术成功应用于最后一个池化层(see Figure 4a)。与此相反地,在针对ResNet-50架构时,则采取了去除跳跃的距离间隔(step size)的做法,在最后两个模块中巧妙地采用了扩张卷积(expansion convolutions)技术(see Figure 4b)。在这种情况下,在第4个卷积层conv4内核上特意加入了大小为1像素的空洞(dilated kernel),而在第5个卷积层conv5则插入了一个大小为2^2 - 1 = 3像素空洞。值得注意的是,在这种设计下所得到的结果表明:残差网络输出的是一个具有2048个通道的空间张量体(tensor)。为了进一步精简特征图的空间维度信息量,在后续处理阶段我们将此张量输入至一个由512个滤波器构成的新卷积层进行深入处理。基于这一折中的策略设计思路,在最终生成的结果显著性图谱上实现了8倍的空间分辨率提升效果——这与直接采用传统VGG-16或ResNet-50架构时所获得的32倍提升效果相比有所差异

在prior层中也集成了一种空洞卷积机制,从而生成了两个具有较大感受野的卷积层。这种设计有助于我们准确地识别物体在其局部区域的独特特征。通过将这些层的核尺寸设定为5×5,并将孔尺寸设定为3×3(即孔径),从而实现了17×17的空间感知能力。这些层都采用了步长为1的设计,并且每个卷积块都接有一个ReLU激活函数。
网络结构最深层由一个卷积层完成,其中包含一个尺寸为1x1的可学习滤波器以生成关键特征图.基于预测图像维度较低的需求,在进行预测后需通过双线性插值放大至与原图像尺寸一致.

D. Loss function
为了涵盖多个质量因素,在显著性预测领域通常采用多种评估指标。受此评估框架的启发,在研究中我们提出了一个新的损失函数构建方法。该方法通过整合三个显著性评估指标来形成一个复合型损失函数。具体而言,在实验设计中我们采用了以下公式来进行总体损失函数的定义:
L(\tilde y, y^{\text{den}}, y^{\text{fix}}) = \alpha L_1(y^{\text{pred}}, y^{\text{fix}}) + \beta L_2(y^{\text{pred}}, y^{\text{den}}) + \gamma L_3(y^{\text{pred}}, y^{\text{den}})
其中\tilde y、y^{\text{den}}和y^{\text{fix}}分别代表预测的质量感知图、目标密度分布图以及目标二元关注图;\alpha、\beta和\gamma是用于调节各损失项之间平衡关系的权重系数,在实验过程中设定为-1、-2以及+10。而L_1、L_2和L_3分别对应归一化扫描路径显著性(NSS)、线性相关系数(CC)以及Kullback-Leibler散度(KL-Div),这些指标均为评价显著性预测模型的重要参考标准。
NSS度量是专为显著性模型评估而建立的一种指标[62]。其核心理念在于通过量化眼睛注视位置处的显著性图值来反映视觉注意力分布,并采用方差进行归一化处理:该指标基于以下两个关键步骤实现:首先计算观察者在注视点处所获得的显著性图值;其次通过计算该图值的整体方差来进行标准化处理。
另一方面,在本研究中采用Pearson相关系数CC来衡量显著性和地真密度图之间的线性关系。具体而言:
L_2(\tilde y, y^{den}) = \frac{\sigma(\tilde y, y^{den})}{\sigma(\tilde y)\sigma(y^{den})}
这一计算方法基于标准化协方差σ。
KL散度量化了使用分布\tilde y近似分布y^{den}时所导致的信息损失,并从概率论视角对显著性和地真密度图进行了深入分析:
L_3(\tilde y, y^{den}) = \sum_iy_i^{den}log(\frac{y_i^{den}}{\tilde y_i+\epsilon}+\epsilon)
其中\epsilon作为正则化常数用于防止数值溢出或失真。值得注意的是,在此研究中KL散度被定义为一种相异度量,在实际应用中较低数值意味着预测显著性映射与基真密度图之间的差异较小。
IV. EXPERIMENTAL SETUP
A. Datasets
为了对训练集与测试集进行建模并验证其性能可靠性, 我们采用了当前领域内最具代表性的四套显著性数据集. 这些数据集在图像内容特征与实验条件设置上存在显著差异.
- SALICON
- MIT1003
- MIT300
- CAT2000
B. Evaluation Metrics
用于评估显著性预测模型的各种指标种类繁多。这些指标的主要区分点在于对地面真实性的表征方式。实际上,在分类方法上,显著性评估指标主要可分为两类:一类是基于位置的指标(如文献中的[66]、[67]、[68]),另一类则是基于分布的研究方向。具体而言,在第一类方法中...
主要采用的位置度量是A_{\text{U}}C及其不同版本Judd(A_{\text{U}}C)、shuffled(s_{\text{U}}C)和标准化扫描路径显著性(NSS)。其中, AFC给予高分给固定位置上的高真阳率预测。
此外,在sAUC的设计中存在一种机制旨在惩罚那些由于眼睛注视导致出现中心偏置的情况。
对于基于分布的方法而言,在分类任务中最为常见的评估标准主要包括线性相关系数(CC)、相似性(SIM)以及移动距离(EMD)。其中,CC对于假阳性(FP)与假阴性(FN)的误判具有对等处理能力;而 SIM 相较于 CC,则更加注重衡量两个分布之间的重叠程度,在一定程度上体现出对该方法鲁棒性的要求。值得注意的是,在 CC 的情况下,在面对数据丢失情况时会表现出较高的敏感度。对于假阳性误判的情况,其惩罚程度与其与真实空间的距离成正比。
C. Implementation Details
略
V. EXPERIMENTAL EVALUATION
在本节中,我们展开了系统性的分析与实验研究工作,并旨在通过具体的数据支撑来论证网络架构中各组件的作用。此外,在现有研究的基础上进行深入探讨时发现:通过建立完整的评估体系不仅能够量化性能指标更能从多维度深入解析各方案的特点及其优劣关系
A. Comparison between different loss functions
如图5所示,在第IV节中对比分析了采用单损失函数框架(包括KL Divergence、Cosine Similarity与Nystroem Approximation)与本节D部分提出改进方案所获得的结果表现。通过三种不同架构下的两种版本(分别为SAM-VGG与SAM-ResNet),我们在标准基准测试集SALICON、MIT1003以及CA-T2000上均展示了其性能优势。其中我们将SAM-VGG定义为基于VGG架构设计的深度学习模型,并命名为SAM-VGG;同样地将其余架构命名为对应的缩略形式。如图所示,在数据集SAL ICON上进行了评估

从实验结果来看, 我们的合并损失均展现了改进的效果, 在各项指标中表现出了改善的趋势
为了进一步探讨所提出的损失函数的有效性实现,我们对与其在现有显著性模型中采用的传统损失函数及其概率距离进行了对比研究。

图6展示了我们与其他四个常用损失函数结合使用时所进行的有效性对比:具体而言包括欧几里得距离、余弦相似度、卡方离散程度以及总方差距离等指标。在此情形下,我们所提出的损失函数能够实现更为均衡的表现,相较于传统方法表现出色,尤其是在NSS评估标准下具有显著优势.值得注意的是,对于其余各项评估指标而言,若要达到理想效果则需依赖于较为复杂的优化过程;但即便未能完全实现最佳状态,所提合并损失函数也依然能提供接近理想水平的结果.
B. Model Ablation Analysis
下表为模型消融实验的结果:

图7展示了我们SAM ResNet模型预测生成的一些显著性图的定性实例,并且仅呈现与基本事实相关的主成分。如我们所示,在质量上不断改进的过程通过引入关键组成部分逐步接近基本事实。

C. Contribution of the attentive model and learned priors
略
D. Comparison with state of the art
与其他方法的比较结果:


值得注意的是,我们的网络具备预测人、脸、物体和其他重要特征的能力,并能获得高显着性指标。在图像中不存在明显的显着区域时,在场景中心显着集中或用于描绘景观的情况下,它仍能生成良好的显着性图谱。
值得注意的是, 我们的网络具备预测人、脸、物体和其他重要特征的能力, 并能获得高显着性指标. 在图像中不存在明显的显着区域时, 比如在场景中心显着集中或用于描绘景观的情况下, 它仍能生成良好的显着性图谱.
VI. CONCLUSION
本研究提出了一种新型的注意力机制模型...能够预判自然图像中的注视点位置...主要创新点体现在其独特的双层特征融合策略...类似的思路可能在其他场景中得到应用...通过整合多种学习策略...揭示了人眼注意力分布的关键特性...有效缓解了卷积神经网络分辨率下降的问题...经过系统评估过程后展示了最佳性能指标
-
“注意”这个动词,个人理解是指机器模拟人类关注某一个地方的一种运算。 ↩︎
-
显著性目标检测与显著性检测的区别。 ↩︎
当协方差矩阵为对角矩阵时
会出现的预测结果不仅能够正确地识别显著性位置,并且在错误率上表现良好。
