论文阅读笔记:Real-Time Multi-Person Eyeblink Detection in the Wild for Untrimmed Video
A Real-Time Capable System for Simultaneous Multi-Subject Blink Detection Outdoors Without Preprocessing.
野外实时多人眨眼检测,检测未修剪的视频
action tube/proposal tube
action tube 和 proposal tube 是视频中动作检测的关键概念。
action tube:它是指视频中持续的动作用三维表示法展示,在论文中被用来捕捉行为的动态特征。然而现有研究主要关注孤立 action tubes 的检测,并未能实现实例级意识分析以支持整个视频的行为理解。
proposal tubes:这种结构用于生成可能的动作区域边界框序列,在论文中与实例查询结合使用以精确识别面部动作位置,并有效支持眼睑等面部动作检测。
总结来说(action tubes)主要用于表现动作的时间与空间特征(proposal tubes)则用于定位并跟踪视频中每个实例的动作区域两者的结合有助于提升多个人物动作分析的能力。
image level/object level
在image level层面(即整个图像层面),主要通过提取整体图像的特征来进行分类与检索任务;而object level则是从每个独立的对象入手,在object level层面分别对各个独立的对象进行特征提取与表示处理;其中image level主要关注整体图像的全局表征特性;而object level则侧重于各个独立对象的具体细节特化表征。
Abstract
野外实时眨眼检测可广泛服务于疲劳检测、人脸反欺骗、情绪分析等。
现有的研究工作主要集中在单一人物案例的修剪视频上。然而,在未经过修剪的视频中多个人物场景对于实际应用同样重要,并未获得足够的重视。
为了有效解决这一问题,我们首次进行了系统阐述,并在数据集、理论和实践方面进行了重要贡献。
特别地,在多人环境下构建了一个名为 MPEblink 的大规模数据集系列,它包括了686个未经处理的视频片段以及8748次眨眼动作记录。这些样本主要来自不同类型的电影素材,并用于分析自然环境中的人类行为特征。
此外也提出了实时多对多眨眼检测方法。与现有技术不同的是,在提出这一命题时采用了统一时空模型,并具备全自监督学习能力。具体而言,则整合了人脸检测、人脸识别跟踪以及实例级眨眼检测等关键环节。这种方案两大优势显著提升性能表现。首先,在利用面部全局上下文信息方面具有明显优势:例如通过头部姿态和光照条件等数据进行联合优化和交互操作来增强眨眼特征提取效果;其次,在处理效率方面采用了并行处理而避免串行处理的方式以满足实时性需求
one-stage架构(单阶段架构):将输入图像作为基础进行处理。
该架构通过一个统一的网络实现目标定位与类别预测。
两阶段架构(两步式架构):首先基于输入图像生成候选区域(Region Proposal),随后将这些区域传递给专门的分类器进行识别。
YOLOv1、YOLOv2、YOLOv3均为单阶段目标检测模型。
MPEblink 实验揭示了野外环境下实现实时多人眨眼检测的主要困难。我们的方法不仅在性能上显著超越现有技术,并且具有高效的推理能力。
1 Introduction
野外实时监测 眨眼识别技术是一项极具挑战性的新兴研究领域,在多个领域中拥有广泛的实用性。
现有处理方法一般侧重于处理单个人物的剪辑视频。未被剪辑的视频中涉及多个体素的场景尚未获得充分的关注。然而,在针对一些实际应用情境时,则更倾向于从多个实例层面进行持续眨眼行为的检测工作。例如,在评估参与者参与社交互动时的关注度和情绪状态变化方面具有应用价值
本研究在多个维度上取得了显著成就,并深入探讨了该研究的核心问题。
为了实现这项研究的目标——在野外环境下开发一个具有高度复杂性的标记式多人眨眼检测基准(命名为 MPEblink ),该基准包含了来自无约束电影中未经过剪辑的真实长视频样本。这些样本深入探讨了野外场景的本质及其独特性,并覆盖了多样且真实的场景类型包括社交互动与团队活动。据我们的研究发现目前而言 MPEblink 是首个专注于野外长视频的人工智能眨眼检测数据集。下图通过实物展示了该数据集的一个典型样本带有详细的标注信息

与现有的眨眼检测基准相比,在新的基准设计中目标是全面分析整个视频中的所有参与者,并在细节层面(即每个参与者)进行眨眼检测。综上所述,在性能指标方面该方法具有多实例性、无约束性和无修剪性的显著优势
为了实现眨眼检测的目的,在过去的方法中采用了分步 pipeline。该 pipeline主要包括以下步骤:首先进行了面部检测和跟踪,并对时间窗口内的局部眼睛特征进行了分类。尽管这种方法看似合理,但它存在一些明显的缺陷。第一个问题是由于采用了孤立组件而导致的次优效果出现的原因是由于无法优化各组件之间的协同工作。另一个问题是仅依赖局部眼睛特征而缺乏全局面部信息支持的情况下所获得的信息有限度地影响了眨眼检测的效果;这使得基于局部特征的眨眼检测在野外场景中表现不佳。此外,在复杂环境中这种局部特征提取方法可能不够可靠;最后一个问题在于计算成本随着主体数量增加而急剧上升以至难以满足实时运行要求
为了应对这些问题,我们开发了一种名为 InstBlink 的多任务单阶段眨眼检测框架。该框架能够实现对人脸的实时追踪,并在每个实例级别独立完成眨眼检测。我们在现有基于查询方法的基础上进行了创新性设计,在每个查询中分别建模了实例级别的时空面部特征及眨眼行为模式。通过整合这些特征信息,在不同子任务之间实现了高效的知识共享,并充分利用面部的全局语境(如头部姿态与光照条件)来优化眨眼特征识别能力,在复杂自然环境中表现出色。实验结果表明,在保证准确率的同时 InstBlink 达到了较高的处理效率;此外还揭示了实现对外部未剪辑视频实时多目标眨眼检测所面临的关键技术挑战
这项工作的主要贡献在于三个方面:
从我们的研究来看,在计算机视觉领域中尚且鲜有对未剪辑视频中的多个人物眨眼检测问题进行深入系统性地提出与探索的研究工作。
我们开发了一个非约束性的multi-person eye blinking detection数据集MPEblink,并包含来自686个真实-world未修剪的视频样本以及总计87488个观测到的人脸眨眼事件。
基于这一创新性的数据集作为基础支撑,在此基础上我们开发了一种端到端的人脸 blinking 检测框架。
该框架能够同时完成人脸探测、跟踪以及实例级别的眨眼检测。
这种方案通过将多个子任务整合在一个统一框架中实现了协同优化。
2 Related Work
Eyeblink detection dataset
传统的眨眼检测数据集大多集中于在统一背景条件下进行的封闭室内场景研究。
数据集们的对比在后面
我们引入了名为 MPEblink 的新数据集。该系统/该方法所提出的数据集具备多参与方/多参与者、不加限制/不受约束以及未经处理/未经剪辑等特点,在实际应用中表现得更加贴近真实场景并具备较高的难度
Eyeblink detection method
现有方法通常基于预先提取的局部眼睛特征来进行眨眼识别。在获取局部眼睛特征方面,在现有研究中通常采用按顺序处理的方式:首先执行人脸检测获取面部轮廓信息;其次进行人脸跟踪以获得运动参数;最后完成眼部特定位姿计算。在此基础上,在时间窗口内预提取的眼部特征被用来完成眨眼行为的分类工作。然而由于各子任务之间相互缺乏协调优化而导致流水线效率低下,并且预提取的眼部特征仅能提供有限的眼动信息而无法反映整体面部姿态的变化情况以及光照条件等环境因素的影响;此外由于未考虑人数量变化带来的复杂性限制导致现有方法难以满足实时性需求
本文探讨了一种单阶段眨眼检测系统,在同一时间段内实现对人脸的实时追踪以及实例级别的眨眼检测。该系统能够借助全局人脸上下文增强眨眼特征,并确保这些特性能够在不同子任务间高效共享从而达到快速推理的目的。
Spatio-temporal action detection
空间时间数据采集技术的目标是同步捕捉物体在空间中的位置及其随时间的变化。本研究专注于单一动作特征的提取,在这种情况下无法实现对同一场景中多个实例的行为同步感知。相反地,在本研究中我们提出了多目标眨眼识别系统,在此系统下可以实现对同一场景中所有被注视者眨眼行为的同步采集与分析
对此我有些疑惑:时空状态检测机制能否实现对单个视频场景中所有实例级别的分析?
需要指出的是时空状态检测机制能够识别多个运动物体。
这让我感到疑惑:为何该方法无法实现对单个视频场景中所有实例级别的分析?
Query-based methods
依赖查询机制的方法在多个计算机视觉领域发挥着重要作用。 detr(利用 transformer 架构实现端到端的目标检测)作为首个采用基于查询框架的对象检测方法,在该领域内推动了基于视觉识别的技术发展。相关技术包括姿势估计、动作检测以及图像分割等技术。受到上述工作的启发,在未经剪辑的视频序列上开发出了首个多目标眨眼检测系统。
DETR
代码:https://github.com/facebookresearch/detr
基于 Transformer 的端到端目标检测方案
DEtection TRansformer
DETR 提出了基于 Query(Query based)的端到端目标检测算法。自现代深度学习体系兴起以来,一直到提出 detr 这一方法之前,在目标检测领域始终缺乏真正意义上的端到端解决方案。无论是基于 proposal 的方法、基于 anchor 的框架还是无 anchor 支持的设计,在最终应用中都需要依赖非极大值抑制 (NMS) 这种传统的后处理手段来去除冗余预测框。然而这种依赖使得模型调参复杂化、部署难度增加。而 detr 创新性地无需依赖 anchor 点定位技术,在模型架构上实现了显著突破——它将目标检测问题视为集合预测任务,并通过Transformer的强大全局建模能力直接关联预测结果与真实标签之间的对应关系,在训练过程中实现了精准的一一匹配关系。因此 detr 方法完全避免了传统方法中冗余框的问题,在实际应用中能够有效减少输出多余框的数量,并大幅降低了模型训练与推理的复杂度的同时提升了部署效率。
Query
在Transformer架构中的注意力机制体系中, Query、Key和Value构成了三个关键要素,其中Query主要用于评估与每一个Key之间的相关程度,而Key则负责构建计算注意力分数的基础框架. Value则通过权重求和的方式整合这些分数,从而综合出最终的注意力输出结果.

transformer架构中,Query向量构成了"查询"的一个组成部分。它对应于解码阶段当前位置的具体信息以及编码阶段整体序列的一般信息。在模型生成当前输出的过程中,Query向量通过评估与其他所有位置信息的相关性来实现这一功能。query作为用户输入的请求或问题的一种形式,在这种情况下是模型检索相关信息的关键机制。
3 The MPEblink Benchmark
现有眨眼检测领域的标准数据集主要聚焦于单一视角场景,在视频片段受限或未经编辑处理方面存在局限性。为了深入研究无约束条件下的人多场景眨眼行为及其在未经剪辑视频中的检测问题,本研究提出了一种命名为 MPEblink 的大规模多层次眨眼行为数据集。该系统具有三个显著特征:一是覆盖多个人脸采集视角;二是采集的是非剪辑长视频;三是实现了对自然环境适应性的高保真捕捉。
3.1 Task Formulation
我们相信一个好的多人眨眼检测系统应该能够(1)稳定可靠地识别并追踪面部特征实例,在保证整个视频流能够在实例级别进行分析的基础上;(2)精确识别每个人的眼睑边界以深入了解其眨眼行为本身。
论文中定义:l代表bounding box,c代表label,k代表眨眼次数,B=[s, e]代表眨眼时间
3.2 Data Collection
通过筛选包含野外特性的86部非受限电影样本,我们收集了686个不同长度的未剪辑视频片段。这些样本中的部分图像如图2所示。
通过筛选包含野外特性的86部非受限电影样本,我们收集了686个不同长度的未剪辑视频片段。这些样本中的部分图像如图2所示。

可以看出

此外

可看出当连续快速眨眼出现时两眼外观变化幅度不大也就难以分辨每一次眨眼的具体界限深入分析这些困难后发现未修剪视频中无约束条件下的多人眨眼检测确为一项具有挑战性的研究难题
3.3 Data Annotation
对于每个视频中的人类实例,在整个视频中我们进行了详细的面部边界框标注工作。为了进一步促进基于特征点方法的研究并扩大其应用范围,在此基础上我们还增加了68个面部特征点位置的标注工作。从技术实现的角度来看,在半监督学习框架下我们采用了最先进的人脸分析引擎InsightFace来进行人脸边界框检测以及特征点识别工作:通过考虑单帧IoU值与深层面部特征间的相似性关系来设计匹配策略以实现目标实例的跨帧跟踪效果。在此过程中我们特别强调了注释质量的把控通过人工注释者对算法生成结果进行严格校验从而修正了算法引入的边界框定位及跟踪精度问题:对于每一个具体的人类实例其眨眼行为的时间轴分割过程均经过人工观察者的详细记录与验证最终累计统计出8748次完整的眨眼事件被准确标记并存入系统数据库
InsightFace
领先的深度见解面部识别引擎
代码:https://github.com/deepinsight/insightface
官网:https://insightface.ai/
IoU
交集-并集比(Intersection over Union)
一种评估在特定数据集中检测相应物体检测精度的标准指标

3.4 Data Statistics
MPEblink 与其他眨眼检测数据集的数据集统计比较如表 1 所示。

在之前阅读的相关论文中使用过ZJU等项目,在这里的表现尚不理想。
在大量未经剪辑的视频样本中(共686个),我们捕捉到了最多数量的眼 blink 事件(共计8748次)。相较于之前的基准数据集的主要区别在于:我们的数据集不仅涵盖了不同人数的人脸实例(1至8人),并且每个样本都配有详细的标注信息;此外,在采集过程中并未对环境条件加以限制,在野外自然条件下获取了高度多样化的样本素材
3.5 Evaluation Metrics
目前的眨眼检测指标主要针对单一案例进行评估,并未考虑多实例情况。为了弥补这一不足,在原有的基础上我们开发出两个新指标——Inst-AP 和 Blink-AP——专门用于评估实例感知能力和眨眼检测效果。
Inst-AP
该方法主要关注于评估实例检测和跟踪能力的具体表现形式,并以此为基础构建分析机制。为了更好地适应目标任务需求,在现有时空动作检测标准视频-AP的基础上进行了优化设计。与传统的视频AP指标不同,在计算IoU时采用了更为精细的方式:将每个实例候选框(即一系列面部边界框)与所有标签进行匹配而非仅依赖动作管这一单一维度的信息提取方法。这种改进使得所提出的IoU计算方式能够全面反映算法在实例级上的检测与跟踪性能优势明显体现在其能够完整表征眼跳行为的时间空间特征进而提供更为精确的表现度量结果相比传统视频-AP指标仅仅能反映孤立动作管层面的位置精度存在明显的局限性
Blink-AP
我们采用了一个新的指标来评估模型在每个实例中的眨眼检测能力(精度)。通过实验分析,在不同时间间隔交集比(IoU)下——分别为50%和75%,Blink-AP表现出了稳定的性能水平。为了提高效率与准确性之间的平衡关系,在计算 Inst-AP 时,我们的指标主要基于真阳性匹配。为了提高效率与准确性之间的平衡关系,在计算 Inst-AP 时
4 Method
在本节中,我们将阐述InstBlink这一技术,该系统接受视频剪辑作为输入,并能够生成每个实例的面部特征及其眨眼频率. InstBlink的设计灵感源自现有基于查询的方法,但其独特之处在于构建了一种用于在视频剪辑实例级别对面部特征及眨眼频率进行建模的架构.整体系统架构图示如图5所示

给定一段视频片段后,在处理过程中首先通过主干网络从视频中提取特征;随后基于查询架构进行M次迭代运算,在这一过程中架构由三个核心组件构成:查询交互模块(QIM)、视频交互模块(VIM)以及任务特定头(具体包括面部特性和眨眼相关特征)。在每次交互环节结束后都会对查询状态进行更新;实例级的人脸识别与眨眼行为预测则由任务特定头输出;而整个推理流程结束后所得出的最后一层迭代结果即为最终预测结论。
4.1 Instance Query
在 InstBlink 系统中,“时空实例查询qi”被定义为表征视频中每个人类实例的联合面部及眨眼特征的专业实体。“时空实例查询qi”通常包含T个嵌入(embeddings),其中每一个嵌入都聚焦于对应帧中的具体个体的表情及眨眼动作。“时空实例查询qi”还与一个称为提议管pi(proposal tube)的对象相关联;该对象的作用是指导特定视频片段内某个体的表情位置。“时空实例查询qi”的初始化过程发生在整个前向传播过程的第一阶段;在此阶段,“q̄i”与“p̄i”的值通过沿时间维度进行参数复制来完成初始化工作。
4.2 Query Interaction Module(QIM)
QIM旨在通过(1)增强特定查询与其对应的人类示例间的关联以及(2)用于建模这些关联实例的时空面部特征及眨眼动作来进行研究工作
QIM的核心作用在于提升查询与具体实例之间的关联度。
在特征提取环节中,QIM从每个查询中提取出代表面部及眼睑信息的关键特征。
交互机制的设计使QIM得以实现各相关查询间的相互影响作用。
在特征融合阶段,QIM整合来自不同查询的信息以生成更加全面和详实的表现形式。
4.3 Video Interaction Module(VIM)
VIM是一种专门针对视频分析任务设计的方法。它主要关注于从视频数据中提取目标实例的关键面部特性和眨眼动作信息。该方法的核心在于构建一个高效的动态过滤系统。具体来说,在处理每个查询嵌入时会依次执行以下步骤:首先,在每个查询嵌入的基础上生成相应的动态滤波器参数;随后利用这些滤波器对RoI(区域-of-interest)特征进行动态卷积处理;接着基于建议管pi在视频特征空间中进行RoI对齐操作从而获取高质量的RoI特征;最后通过对这些过滤后的RoI特征应用线性投影操作得到更新后的查询表示;这些更新后的表示将被特定任务头用来完成最终的目标检测与行为识别任务。
RoI
Region of Interest (RoI)被定义为图像中我们特别关注的某个区域或对象。这些区域通常包含了我们需要识别、分析或处理的关键信息。罗伊(RoI)是针对原始图片提出的特定区域(proposed region)。
RoI Align
一种计算机视觉中的技术,用于将任意尺寸的感兴趣区域(Region of Interest, RoI)的特征图转换为具有固定尺寸的小特征图。这种技术在目标检测和分割模型中非常有用,因为它可以处理不同尺寸的输入,并将它们统一到一个固定的尺寸输出,这对于后续的分类和边界框回归是必要的。
该系统的主要功能是通过分析时序数据来提取面部和眼睑信息。
具体工作流程涉及:
首先进行的是视频处理阶段,在这一阶段系统会从输入 video 中获取时序数据,并从中提取出各帧中的 dynamic 变化。
随后进入关联处理阶段,在这一阶段系统会将这些 video 数据与用户提供的 query 进行关联处理。
这种关联过程依赖于一套精心设计的机制,在确保 information 传递准确性的同时实现了对对应 instance 的 data 同步更新。
最后在 dynamic optimization 阶段系统会持续优化 query data 以适应 instance 在 video 中的变化情况,并通过保持 model 的有效性来提升识别能力。
4.4 Task-specific Heads
基于任务定制的头部特征在查询过程中被应用,在此过程中不仅能够实现对实例级面部及眨眼动作的预测,并且各不同的查询头能够在不同查询中共享信息
Face head
给定更新的查询特征 q ̃i,使用 Sigmoid 归一化的MLP层来指示人脸的存在:
Blink head
q_i 的眨眼预测借助 Sigmoid 归一化的 MLP 层得以实现。
4.5 Training
这部分的公式看不懂
5 Experiment
Dataset and evaluation metrics
本研究中,我们采用了MPEblink数据集作为实验基础,并将其划分为423个训练视频、128个验证视频和135个测试视频三部分进行分析。通过计算Inst-AP指标来分析实例定位能力的同时,我们也采用Blink-AP指标来评估实例内眨眼检测能力的表现。此外,在HUST-LEBW数据集上,我们还进行了基于单人及剪裁条件下的性能测试以验证算法的鲁棒性
Implementation details
我们采用了基于ResNet-50-FPN架构的设计作为主干网络。该主干网络经过了YouTube-VIS数据集的预训练步骤,并具备了一般实例表示能力的基础特征。其中N次查询与M次迭代分别设定为5₀与4。为了提升内存效率,在模型训练阶段我们采用了批量大小为8的AdamW优化器,并将图像采样频率定位于每秒₁₂帧的速度水平上,并将输入剪辑长度设定为₁₁帧(远超 typical眨眼事件的时间跨度)。随后在将数据送入主干网络前会调整输入视频尺寸至64₀×36₀像素的标准比例,并在整个训练过程中持续运行了总计₁₀,₀₀₀次迭代,在第₆,₀₀₀与第₉,₀₀₀次迭代时逐步降低了学习率(即每次更新参数时都会乘以前面所述的比例因子)。测试阶段则继续使用初始的帧率并维持相同的剪辑参数设置
ResNet-50 是一种深度卷积神经网络模型,在多个领域中广泛应用。FPN(Feature Pyramid Network)作为一种多层次特征融合网络,在不同尺寸的目标识别问题上表现出色。将 ResNet-50 与 FPN 结合使用,在图像分类、目标检测及特征提取任务中均能明显增强性能表现,并且在处理小尺寸目标方面表现尤为突出; YouTube-VIS 数据集
5.1. Benchmark Results on MPEblink Dataset
Baselines
在未经处理的多目标视频中进行眨眼检测被视为一项先前未被充分研究的新领域。为此目的,在改进现有眨眼检测技术的基础上引入了一种统一的人脸实例追踪与检测方案。具体而言,在改进现有眨眼检测技术的基础上引入了一种统一的人脸实例追踪与 detection方案. 具体来说, 我们利用 InsightFace 这一最先进的人脸分析工具箱来进行人脸及 facial landmark 的 detection. 通过计算相邻帧间面部边界框的 IoU 相似度来建立各目标之间的关联关系. 在此基础上构建了一系列具有代表性的 blinking motion capture models. 这一设计思路在基于单个人体假设的传统研究框架内得到了广泛验证.
Main results
从表2可以总结出:

任何一种用于多个人眨眼检测的算法都难以满足令人满意的性能要求(具体表现为BlinkAP50指标值未超过30%,Blink-AP75指标值也未能达到10%)。这反映出在未经修剪且无约束条件下的人眼眨眼检测仍面临诸多难题,并未取得理想的解决方案。
对于Blink-AP而言,在性能上相对于现有方案具有显著优势(即至少比 InstBlink 50强 21%,至少比 InstBlink 75强 6%),这一实验结果进一步验证了我们提出框架的有效性。我们认为一个重要原因在于我们的框架能够相较于基于帧的方法和基于滑动窗口的方法更好地融合长期时间眨眼表示信息。此外,在所提出的框架下可以通过融合面部全局上下文(例如头部姿势与光照条件)来进行更为精确的眼部动作捕捉与识别,并非单纯依靠顺序优化的方式如前所述无法实现的效果对比。从表 2 的数据可以看出基于特征点的方法其性能表现不如基于区域的方法更为优异(即至少比 InstBlink 50强 21%,至少比 InstBlink 75强 6%)。我们认为一个重要原因是特征点检测在实际应用中容易受到噪声干扰且其鲁棒性较差的特点导致其在长视频或多个人场景下表现不佳。而相比之下我们的方法采用了更加鲁棒的方式来识别眼睛区域并结合全局面部信息使其能够更好地捕捉复杂的眨眼动作特性。
InstBlink 在 Inst-AP 测试中的性能优于其他软件系统。我们进行了深入分析后认为:我们的系统架构在对长期时空实例进行建模方面具有显著优势;相比之下,在采用检测与跟踪结合的传统架构下运行的其他系统虽然也能实现目标跟踪功能(即通过跟踪机制处理目标行为),但其架构设计仅具备有限的时空建模能力(即仅具备有限的时空建模能力),并且容易受到严重的遮挡影响(即容易受到严重的遮挡影响)。
Inference speed analysis

实验结果可见于表3中。假设采用四种对比方法分别运用InsightFace进行面部识别及关键点检测,并在每36个剪辑长度周期内采用InstBlink完成推理计算。由此可知,在所有测试指标中InstBlink均展现出优异的实时性能(网络吞吐量维持在112帧/秒水平)。当处理对象数量增多时,这些方法的运行时间随之上升。相比之下,在单阶段推断模式下我们的方法展现出显著的人数无关性。
5.2 Benchmark Results on HUST-LEBW Dataset
继续在 HUST-LEBW 数据集上进行了实验研究,并旨在考察 InstBlink 在单人及野外修剪场景下的普适性。结果如表 4 所示。

基于 HUST-LEBW 数据集训练而来的模型,在单阶段架构下完成多任务学习仍能实现超越现有方法的表现(其中F1分数达到3.78%)。即便仅使用约450个修剪样本进行微调后仍能实现多任务处理,在 MPEblink 上 trained 的模型在 HUST-LEBW 上 获得83.45% 的 F1 分数。这充分表明 InstBlink 和 MPE blink 在眨眼检测任务中展现出强大的泛化能力。
5.3 Ablation Study
消融实验作为一种科学研究手段
该研究采用消融实验法来评估某一关键因素对系统性能的影响程度
当研究人员提出一种新的解决方案时
本研究通过逐步调节各个关键因素
系统性地分析各因素对其目标指标的具体影响
Spatial and temporal modeling in QIM
从表5中我们可以看到

(1)假设未启用时间交互机制时,在测试集上的Blink-AP性能由27.19%降至4.58%,这一结果凸显出时间建模对未经修剪视频中眨眼检测的重要性(即仅凭外观特征无法精确识别眨眼动作)。此外值得注意的是,在跨帧的特征间建立实例级关联的能力显著提升了Inst-AP的表现(约5.44%),而这种提升也微小地影响到了Blink-AP的表现。我们认为这种提升源于其能够增强实例追踪能力。
(2)空间交互能显著提升Inst-AP性能(约5.44%),同时微小地提升Blink-AP的表现。这一优势在于能建立查询间的强大通信机制,并从而更有效地建模复杂场景下的实例特征。
Filter operation in VIM.
如图5所示,在未经筛选的传统 RoI特征基础上进行查询更新相比,在Blink-AP50指标上实现了约4.92%的提升,在InstAP指标上则提升了约2.88%。我们推测通过滤波操作能够激活与任务相关的特定 RoI特征,并有效抑制背景干扰。从而能够整合更为细致的脸部特征和眨眼动作信息以优化查询效果。
Multi-task learning mechanism
我们从多任务学习的角度探讨眨眼头的作用。根据表 6 的数据,在 Inst-AP 上提升了约2.03%,这些结果表明面部检测和跟踪功能可以从眨眼线索中获益。

5.4 Qualitative Analysis
该文通过图 7展示了 InstBlink 预测结果的可视化。通过示例可以看出, 我们的模型能够稳定识别与会者, 并在不同面部特征和姿态下准确捕捉他们的眨眼行为。然而, 它难以分辨短暂而频繁的眼跳, 这一发现暴露了未经处理视频中眼跳检测的问题。

6 Conclusions and Limitations
在本研究中,我们识别了一个新的研究领域——未修剪视频中的野外多人眨眼检测任务。为此任务制定了明确的标准,并创建了一个专门的数据集命名为 MPEblink 。为此目标开发了一种高效的一站式多眨眼检测方法 InstBlink ,其核心目的是以实现多眨眼检测的目的为指导原则,在未修剪的视频中自动完成这一过程。研究表明,在效率与准确性方面,本方法表现优异。然而,在长视频场景下无约束条件下的人群眨眼检测问题依然存在较大挑战(当前该指标仍未能达到理想水平(Blink-AP50 值低于 30%)。此外虽然所收集的数据集覆盖了多个关键场景如群体场景等但其中缺乏群体场景的具体实例(例如超过 10个样本实例)。未来我们将着重于群体场景的研究并致力于丰富现有数据集的多样性
SOTA: state-of-the-art 的缩写形式,在某一领域指的是性能最优的model,在各个基准数据集上通常能取得优异成绩。
