Advertisement

牛马阅读《SpFormer: Spatio-Temporal Modeling for Scanpaths with Transformer》

阅读量:

#1024程序员节 | 征文#

Abstract

saccadic scanpath(扫视路径)作为人类视觉行为的数据表示形式,在多个研究领域得到了广泛关注。作为一种复杂的眼动追踪数据形式,它包含了注视位置序列与注视持续时间,并融合了图像信息。然而以往的方法通常面临注视特征的空间错位问题及关键时间数据的缺失(涉及时间和关注度)。在此研究中我们提出了基于注视为中心的新模式以便解决这些问题首先我们提取对齐的空间关注点特征并对扫视路径进行了标记然后通过设计一种局部元注意力机制来减少关注点之间的语义冗余并引导模型聚焦于元扫视路径最后我们逐步整合持续时间信息并与关注点特征相结合从而解决了随着Transformer块数量增加所带来的位置模糊问题我们在四个数据库上进行了广泛的实验测试并覆盖了三个任务SpFormer在这些设置中实现了新的最佳性能结果验证了其在实际应用中的灵活性与多样性代码可以从https://github.com/wenqizhong/SpFormer获取

Introduction

人类视觉系统(HVS)在感知中起着关键作用,并接收并处理人类所感知的大部

这张图片展示了两种不同的视觉追踪路径:Scanpath和Meta Scanpath。这些路径通常用于研究人们在观看图像时的视线移动模式。

Scanpath (s) :指的是观看者在图像上的视线移动路径。图中用橙色的线和星星标记表示,显示了观看者在图像上关注的位置和顺序。

Fixation Position (f) :指的是观看者在图像上停留注视的位置,通常用星星标记表示。

Fixation Duration (d) :指的是观看者在某个位置停留注视的时间,图中用粉色的圆圈表示,圆圈的大小可能与注视时间的长短有关。

图片中的不同场景进行了展示,在每组场景中都对应有其自身的Scanpath以及Meta Scanpath这两种观察路径。其中Meta Scanpath可能代表了对多组观众各自Scanpath进行汇总或分析后的结果输出的平均路径或典型路径

图片中的不同场景进行了展示,在每组场景中都对应有其自身的Scanpath以及Meta Scanpath这两种观察路径。其中Meta Scanpath可能代表了对多组观众各自Scanpath进行汇总或分析后的结果输出的平均路径或典型路径

扫描路径是一种独特的复杂数据模式,但现有的扫描路径方法往往忽略了其复杂性.扫描路径是由注视点及其对应的注视时长组成的多元时间序列(见图1).此外,扫描路径与其引发注意的行为图像刺激密切相关.综上所述,扫描路径的复杂特性可归纳为以下三点:1)它们表现为多元时间序列;2)每个扫描过程的时间步由一对注视点及其对应的注视时长构成;3)扫描过程与其所针对的图像刺激间存在耦合关系.

第三条的主要意思是扫视路径与所观看的图像刺激之间存在相互关联的关系。具体而言,在观察图像时,扫视路径不仅会受到图像内容的影响,并且也会反过来影响观众对这些图像的理解和处理方式。这种相互作用意味着观众的专注点及其停留时间会随着图像的各种特征而发生变化,并且这种专注行为也会反过来影响他们如何处理并记忆这些视觉信息中的关键细节。

但是,在过去已有针对扫描路径的研究中,并未对这一特性进行全面考察。通常而言,在医学与心理学领域的现有研究多以人工特征为基础进行统计分析(如 Jones 和 Klin, 2013 所述)。而在计算机科学领域,则近年来逐渐发展出了基于学习机制的扫描路径模型(如 Jiang 和 Zhao, 2017;Dalrymple 等人, 2019;Rahman 等人, 2021)。

但是一些方法在全面模拟上述注视路径特性方面显得力不从心。鉴于此,在关注特征空间定位上存在偏差,在忽略时间关联以及注视时长等方面存在缺陷。为了更好地捕捉扫视路径的空间和时间动态特征这要求模型结合特定归纳偏好

基于此

随后,我们采用了以注视为中心的规范模式。为了标记扫描路径,在每个注视周围裁剪图像区域,并从所选区域中提取空间对齐的注视特征。这种处理方法能够有效减少语义偏差的影响。

然后,在分析注视之间的动态关系时(或:为了探究注视之间的时间依赖性),我们采用了全局时间依赖性和时间遮蔽这一方法(或:手段),从而构建了完整的因果关系模型,并有效排除了潜在的相关干扰(或:影响)。

重点在于开发一种新型关注机制——局部元注意力——以降低语义冗余对视觉工作记忆(VWM)的影响。扫视路径生成过程由视觉工作记忆(VWM)机制严格调控(Epelboim 和 Suppes 2001),这意味着每次只能维持短暂的关注焦点群落——我们称之为元扫视路径(见图1)。基于有限的认知容量限制,VWM 机制能够有效降低存储焦点间的语义重叠程度。然而,传统全局自注意力模型未能充分考虑这一特性,导致训练效率低下及性能受限。因此,我们致力于设计一种专门针对局部特征的关注模式——局部元注意力,旨在捕捉时刻间焦点间的相关性特征。此研究灵感来源于人类视觉系统的认知限制特性,通过筛选冗余焦点并过滤视觉噪声,使模型能够更加高效地聚焦于关键关注点——元扫视路径上各时刻的关注焦点群落.此外,我们还引入了一种一致性损失函数,确保不同时间点上的关注视角与元扫视路径保持高度一致性

另一方面,在模型构建过程中致力于将关键信息融入其中以实现完整的扫描路径表达。研究表明,在现有研究中通常忽略注视持续时间这一因素会导致信息融合不够完善(Liu, Li, and Yi 2016; Jiang and Zhao 2017; Xia et al. 2022)。注视持续时间不仅包含视觉分配的具体线索还能够帮助过滤背景噪声。在此基础上进一步优化我们的研究方法通过引入注视持续时间来动态调整注意力权重从而提升模型性能表现。然而不幸的是随着Transformer模块数量增加时空定位变得更加模棱两可为了应对这一挑战我们提出了一种逐步衰减机制将权重从一个清晰明确的状态转换为逐渐模糊的状态以此更好地适应这种渐趋模糊的情况

为了解决该问题, 我们设计了一种渐进式权重衰减机制, 将权重从清晰地过渡到模糊地, 以适应位置逐渐变得模糊的情况. 通过详细的实验研究, 我们系统性评估了SpFormer在其性能表现上的优势. 此外, 在四个数据库中验证了其可行性和泛化能力. 主要贡献包括: (1) 提出了新的渐进式权重衰减方法; (2) 建立了一个多任务学习框架; (3) 开发了一个高效的数据增强模块; (4) 设计了一个鲁棒的损失函数.

  • 我们归纳了扫描路径模式的复杂特性,并开发出一种新型扫描路径感知Transformer架构。
  • 本研究开发出一种局部元注意力机制,在使模型聚焦于局部注意点的同时(通过基于VWM机制的方式)减少生成文本中的语义冗余性。
    此外,在具体实现过程中(通过逐步)将注视持续时间整合到对应的注视特征中。
  • 本研究构建了一个基于注视中心的标记范式(针对空间错位问题进行了解决)。
  • 在三个研究领域展开了全面实验研究(最终验证了SpFormer在四个基于扫描路径的任务中表现优异)。

Scanpath-based Application

扫视路径作为一种数据表示形式,在人类视觉行为研究中具有重要意义,并系统地记录了眼动仪捕捉到的人眼运动信息。该方法已在医疗保健(Xia et al. 2022; Marsh and Williams 2006; Mohammadhasani et al. 2020)、医学教育(Kok and Jarodzka 2017)、人机交互(Piumsomboon et al. 2017)、教育、辅助驾驶、选择建模、消费者心理学和市场营销(Klaib et al. 2021)等多个领域得到了广泛应用。在这些应用中,扫视路径的使用模式大致可分为两个主要方向:首先,在年龄、性别、神经发育特征以及特定视觉任务等因素的研究基础上探讨组间差异(Xia et al. 2022; Mastergeorge, Kahathuduwa, and Blume 2021),从而集中于不同组别之间的分类分析;例如自闭症谱系障碍(ASD)患者与典型发育个体之间的比较研究。其次,在群体内部个体的视觉行为分析方面已取得显著进展,并在此基础上开展后续应用工作:例如将该方法用于医疗专业人员视觉专长的研究,并开发相应的智能决策支持系统

Transformer

Transformers(基于Vaswani等人2017年的研究)通过引入自注意力机制实现了长距离依赖关系的捕捉能力,并在几乎所有的自然语言处理(NLP)任务中实现了最领先的性能(Devlin等人2018;Clark等人2020)。例如,在生成式语言模型领域中如GPT系列模型中得到了广泛的应用与认可。最近,在图像与视频等领域的研究也取得了显著进展,并在多个关键任务上展现了卓越的能力:包括图像识别(Dosovitskiy等人2020)、目标检测(Carion等人2020)、语义分割(Strudel等人2021及Zheng等人2021)以及视频识别(Bertasius、Wang与Torresani 2021;Arnab等人 2021)。此外,在建模时间序列数据方面也展现出独特优势。In our current study, we leverage the Transformer architecture to effectively capture spatiotemporal correlations across diverse data modalities.

Methodolog(方法论)

深入解析SpFormer架构及其在论文中的应用重点-博客

Aligned Spatial Fixation Feature Acquisition(对齐空间固定特征采集)

我们主要利用空间注视特性来标注扫描路径。然而,在传统方法中,则是以获取全部图像信息为基础,在降采样后的视觉区域中定位注视位置(Jiang 和 Zhao 2017)。具体而言,则是通过卷积神经网络(CNN)作为主干模型来生成初始的全局视觉信息图 F_1 = \text{CNN}(I_{III})

Fixation Temporal Correlation(固定时间相关性)

研究表明时间线索在扫描路径中扮演着关键角色,并被用来预测或解释视觉注意力及其后续任务的表现(Sun、Chen 和 Wu 2019)。然而,在早期研究往往忽视了时间依赖性的情况下,“定点位置”的相关性指标却被重点关注。因此,在模型构建中整合扫描路径的时间依赖特性成为一个重要的议题尚待进一步深入探讨。

Global Temporal Attention(全局时间注意力)

传统的Transformer架构基于自注意力机制S来处理序列数据中的序列依赖问题,在此过程中模型能够捕获长距离依赖性的特性使得其在自然语言处理任务中展现出强大的性能优势

Local Meta Attention(局部元注意力)

其生成过程由视觉工作记忆机制负责控制,在认知系统中暂时存储与处理视觉信息(Ungerleider et al., 1998)。然而,在每次操作中其容量较为有限,通常只能暂存约3至4个视觉项目的局部注视(Luck & Vogel, 1997),这些被统称为元扫描路径。此外,在实际应用中由于扫描路径往往表现为较长的序列且容易受到视觉行为随机性的干扰而产生一定的噪声注视现象。基于此我们提出寻找一种具有辨别能力的元扫描路径从而实现对 scan path 的压缩表示。具体而言我们将查询向量与键向量嵌入到模型中以便获得一个可学习的矩阵并支持后续的操作需求如公式所示:

Progressive Duration Aggregation(渐进持续时间聚合)


Training and Inference (训练和推理)

Experiment

在本节内容中, 我们围绕三个关键任务领域(涵盖自闭症谱系障碍识别, 幼年年龄估计以及视觉感知任务预测)展开了实验研究, 并旨在验证SpFormer的通用性与准确性.

自闭症谱系障碍(ASD)识别

眼动追踪技术在ASD识别中扮演着关键角色,在研究婴儿认知能力方面具有重要意义

基线:为了实现全面比较的目的,在本研究中我们采用了基于显著性的模型来进行对比分析。此外,在研究过程中我们还参考了(Rahman et al. 2021)的相关研究成果,并对 HoG、Gist 和 VGG16 算法的性能进行了详细评估与报告

评估指标:基于先前的研究(Chen 和 Zhao 2019),我们呈现了基于单一扫描路径分类性能的具体扫描路径数据,并对参与者结果进行了分析。此外,在确定最终目标时(ASD识别),我们关注的是特定参与者的表现情况。与以往研究一致(Chen 和 Zhao 2019),我们估算每个参与者成功识别图像的概率 p(c),即通过等比例汇总所有图像的扫描路径结果来计算该概率值。

主要结果:表1和表2比较了不同评估指标下各方法的实验结果。这些结果基于(Wei et al. 2021)和(Rahman et al. 2021)的研究基础。通过分析数据可以看出,在多个关键指标上相比现有先进模型,SpFormer均取得了显著的优势。具体而言,在AUC值、灵敏度、特异性以及BA和准确率等多个关键指标上,在设定阈值为0.5时达到了完美的性能水平。此外,在基于主题的结果中发现,在设定阈值为0.5时SpFormer相较于现有最好成果将灵敏度从76.5%提升到了89.3%,准确率也从86.9%跃升至93.14%。值得注意的是,在时间建模方面引入的时间相关特征量(APM)与未引入时间建模的传统模型相比表现出明显优势。为了平衡整体性能,在大多数扫描路径数据集上Sp Former实现了最优表现,并在所有主题相关的评价指标中实现了对最佳对手的有效超越。这表明该模型在跨图像一致性方面表现尤为出色

表1:在Saliency4ASD数据集上的性能比较,通过AUC、敏感性(Sen.,分类阈值为0.5)、特异性(Sen.,分类阈值为0.5)、平衡准确率(BA)以及在三个分类阈值(即0.4、0.5和0.6)下的准确率进行衡量。“avg.”表示在三个分类阈值下的平均准确率表现。加粗的结果显示了最佳性能,而下划线表示第二佳。箭头表示指标性能提升的方向。“*”、“+”和“ \div ”分别表示不同的实现方式。

  • AUC(Area Under the Curve):衡量模型整体性能的指标。
  • Sen.(Sensitivity,敏感性):正确识别正类样本的能力,分类阈值为0.5。
  • Spe.(Specificity,特异性):正确识别负类样本的能力,分类阈值为0.5。
  • BA(Balanced Accuracy,平衡准确率):敏感性和特异性的平均值,用于处理不平衡数据集。
  • Accuracy(准确率):在不同分类阈值(0.4、0.5、0.6)下的正确分类比例。
  • avg.(平均值):在三个分类阈值下的平均准确率。

表格中的结果划分为两类:一类是基于扫描路径的结果(Scanpath-Wise),另一类是基于个体的研究成果(Subject-Wise)。采用上述指标对各方法的性能进行评估,在该指标下的最佳表现以加粗数值代表;而次佳表现则以下划线数字标注。通过箭头指示各指标值的变化趋势——箭头指向的数值越大,则表示性能越优。

此外,在表格中还采用了不同符号(如星号*、加号+以及除号\div)来标识同一方法的不同实现版本。

表2:我们在所收集的数据集上完成的ASD识别任务比较表

消融研究

我们对Saliency4ASD数据集展开了一系列消融实验,并对每位参与者的表现进行了详细记录。

该方法的有效性将通过以下分析进行评估:首先,在分析时,则关注对齐的注视特征;在此基础上,则考虑将之前的非对准特性和其相关参数进行调整;通过将之前的非对准特性和其相关参数进行调整;通过将之前的非对准特性和其相关参数进行调整;通过将之前的非对准特性和其相关参数进行调整

时间相关性的有效性值得探究。 接着我们采用了普通Transformer模型作为消融实验的基础框架。通过对比表3中(c)与(d)两组的数据结果可以看出,在AUC指标上……

PDA的核心功能重要性 此外, 通过在每个Transformer块之后引入PDA机制, 我们能够逐步整合持续时间信息, 并增强了扫描路径特征的表现力. 相较于仅依赖于非融合持续时间模型的研究, 在准确率方面提升了约三分之一百分比, 这些结果主要参考了表3中的(c)和(d)组数据进行分析.

表3:不同设计选择的主要模块的消融研究。“ASF”表示对齐的空间注视特征。“FTC”是注视时间相关性。“PDA”代表渐进式持续时间聚合。

表 4:超参数对 Saliency4ASD 的影响。

表 5:TAP 基准的比较结果。

幼儿年龄预测

数据集
识别不同年龄段作为扫描路径的应用之一,在研究中观察到眼动模式会随着年龄的变化而发生差异(Munoz et al. 1998; Davidson et al. 2006; Dalrymple et al. 2019)。为了评估模型在执行年龄预测任务时的表现能力,本研究采用了基于(Dalrymple等, 2019)开发的TAP数据集作为研究基础。该数据集由包括了37名18个月大和36名30个月大的婴幼儿样本构成。研究使用的刺激材料来源于物体与语义图像眼动追踪(OSIE)数据库(Xu等, 2014),包含了总共100张图片;这些图片具有丰富的属性特征以支持后续的研究分析。

基于先前的研究协议(Rahman et al. 2021),我们采用了与自闭症谱系障碍识别中的设置和训练方案相同的实验配置。如有特殊说明,则不适用。

主要结果
表5详细列出了TAP基准测试的结果对比。通过全面测试,在所有评估指标上,SpFormer均表现出最佳性能,并显著优于现有方法。相比而言,在平均准确率方面提升了11.67%,而当设定阈值为0.5时,则进一步提高了4.5%的准确率。AUC指标较之前最佳水平增长了1.586%。

视觉感知任务预测 数据集

不同的视觉任务可能引发不同的视觉行为,即使在相同的视觉场景下。因此,扫描路径也可以用于识别受试者的视觉任务。之前的方法主要关注视觉行为,没有任何特定指导,称为自由观察。Koehler等人(2014)提出了一个视觉感知任务(VPT)数据集,包含800张自然图像和四种视觉任务:自由观察、明确的感知判断、显著性搜索和提示物体搜索任务。

实验设置 按照实验形式(Rahman et al. 2021)以及(Boisvert and Bruce 2016),我们将数据集划分为一系列的二分类任务,并用于比较每两个视觉任务之间的分类性能。为了简化说明,在报告结果时我们选择了自由观察和提示物体搜索的任务作为代表。该实验设置及训练细节与自闭症谱系障碍(ASD)识别的研究情况一致

主要结果
表6详细记录了基于VPT的数据集实验结果。值得注意的是,在进行参数优化后的新方法中发现:该方法的表现显著优于现有最先进的解决方案。具体而言,在AUC指标上取得了优异成绩(达到0.9974),并且在设定为0.5阈值时的准确率较现有方法提升了约11.15%。以上实证数据分析表明提出的方法具有显著优势。

表6:VPT数据集的比较结果

Conclusion

该文提出了一种新型框架SpFormer用于表征时空特性。通过分析空间对齐数据表征其轨迹位置关系。研究者们发展出一种基于局部元注意力机制的方法来模拟视觉工作记忆过程,并整合各次关注时长以增强关注特征表现力。实验结果显示该框架具有良好的适用性并能取得超越现有方法的Ie. 最佳性能在相关任务中

全部评论 (0)

还没有任何评论哟~