Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement
前言
计算机视觉技术在远程心肺监测领域的应用仍处于发展中。现有技术仍存在优化空间:一方面需关注保证检测准确性的考量至关重要,在美国联邦药品管理局(FDA)的要求下,新型设备测试结果需与实时传感器结果具有实质等效性;另一方面通过设计适用于设备端的模型设计来减少对带宽需求的需求也是一项重要探索方向。这种模式的设计不仅能够降低硬件成本还能提升远程医疗服务的实际应用效果。基于摄像头的心脏活动监测确实是一种高度隐私敏感的应用场景由于涉及患者面部视频信息及其生理信号采集可能存在潜在的数据隐私风险因此将数据流集中至云端进行分析并非最佳选择方案。此外在高帧率下运行的能力不仅能够实现机会感应(例如通过手机查看实时监测数据)还能辅助捕捉动态波形特征从而有效识别动脉纤颤现象并协助诊断高血压等慢性疾病
我们开发了一种新型的多任务时间偏移卷积注意力网络(MTTS-CAN),旨在解决非接触式心肺监测中的隐私性、便携性和精确度等方面的挑战。该端到端MTTS-CAN系统通过(1)引入的时间偏移模块有效建模时间信息并消除各类运动干扰;(2)采用的时间注意力机制去除噪声源的影响;(3)结合的时间联合估计方法实现脉冲与呼吸信号间的共享表示与同步解析。通过整合这三个核心技术要素,在ARM微控制器上实现了每秒超150帧的运行速度并达到最卓越的精度水平(4);从而保证了实时应用的需求。(5)在大规模基准数据集上的系统评估表明(6),我们的方法较现有方案减少了约20%至50%的数据误差率(7),且能够良好地实现跨数据集泛化能力(8)。
光学模型


是由摄像机捕捉到的RGB值。 其中,

是由镜面反射

和漫反射

调制的光强度水平,

是摄像机捕捉到的噪声。其中

、

、

都可以分为定常部分和时变部分:

其中,

是皮肤组织的单位颜色向量,

是静止反射强度,

是由血红蛋白和黑色素吸收引起的相对搏动强度,

表示生理变化。

其中,

表示光源光谱的单位颜色向量,

和

分别表示镜面反射的静态部分和变化部分,

表示所有非生理变化,如光源闪烁、头部旋转、面部表情等。

其中,

表示光照强度的静态部分,

表示亮度变化的部分。
通过整合镜面反射和漫反射中的静态成分,并用单一分量表征静态皮肤反射的具体方式如下

其中,

表示皮肤反射的单位颜色向量,

为反射强度。
将以上公式代换,同时忽略时变变量的乘积

和

,得到:

其中, 代表生理变化的变量*{p}(t)** 可以看作是由血容量脉冲*{b}(t)* 和呼吸波*{r}(t)* 组成的一个复杂结构; 因此, 我们可以将*{p}(t)* 表示为

,最终得到公式:

我们认识到b(t)与r(t)之间的联系尤为紧密,在这种情况下采用基于时间多任务模型的处理方法具有显著优势。这种方法至少能够充分挖掘两个信号间的冗余信息。
架构
高效的时空模型
为了实现实验目标(实验目的是指),该模型需要具备以下功能需求:1) 将输入数据(即原始RGB值)转换为与生理信号相关联的潜在特征表示,并有效去除干扰因素如头部运动、环境光照、肤色变化等所导致的时间特征;2) 探索并建立各类生理过程间的相互作用关系;3) 具备实时运行能力以满足远程医疗设备的实际应用需求。

根据如上所示, 我们的解决方案是一种时空卷积注意力机制(D), 并对其相关变种(A-C)进行了对比分析, 以突出其优势.
我们的架构采用了带有空间注意力机制的双分支结构(见图A),其中一分支专注于运动建模而另一分支则用于提取具有意义的空间特征(如人脸区域)。然而该架构未能有效捕捉连续帧之间的时序依赖关系因而仍然容易受到噪声干扰的影响为了简化实现最直接的方式或许是引入基于3D卷积的时间建模模块即3D-CAN(见图B)。然而由于相比于2D卷积3D卷积会产生额外的计算开销因此难以维持实时性能基于此我们提出了一种Hybrid-CAN架构该方法在保留时间建模能力的同时显著提升了计算效率Hybrid-CAN通过融合2D-CAN与3D-CAN组件实现了这一目标同时尽可能地发挥了2D卷积的优势由于相邻帧之间的空间位置变化较为微小因此在外观分支中应用3D卷积的效果并不理想如图C所示外观分支的输入是由相邻N帧(窗口大小)的平均生成得到的一个单一帧输出结果尽管Hybrid-CAN较纯3D架构降低了计算复杂度但若希望在移动设备上实现至少60帧/秒的理想实时推理速度那么位于运动分支中的3D卷积所带来的额外计算负担仍然是难以承受的

基于此,我们提出了TS-CAN架构,在维持时空建模的基础上去除了三阶卷积运算。该架构包含两个关键组件:时间转移模块(TSM)和注意力机制。在将张量输入到卷积层之前,TSM执行了张量偏移操作。具体而言,在将输入张量沿着通道维度划分为三个子块后,在第一个子块上执行向前偏移操作(即提前一帧),在第二个子块上执行向后偏移操作(即延迟一帧),中间的数据块则保持不变。值得注意的是,在该过程中不会增加任何额外的网络参数,并且能够有效交换相邻帧之间的信息。在运动分支中采用TSM替代三阶卷积实现类似效果,并且在视觉分支中采用了与Hybrid-CAN一致的设计方案,并仅使用单帧平均作为特征提取依据。通过这种设计方式,在计算过程中仅需关注一次注意掩码即可完成主要特征提取任务,在保证图像理解性能的同时大幅降低了计算开销。
时间上的注意力转移
如上一节所述 在时间轴上滑动单个输入张量会将额外信息融入我们的表示 由此 我们必须判断图像中的像素是携带生理信号还是易受放大噪声影响 为了减少张量移位带来的负面影响 我们建议在TSM架构中加入一个注意力机制模块 使网络能够聚焦于目标信号 由于人体皮肤上的生理信号在空间和时间维度上的分布不均匀 软注意掩码赋予了某些移位像素更高的权重 这些移位后的像素在卷积运算过程中所表现出来的中间表示更为显著 更具体地说 我们的注意力机制模块充当了两个分支之间的桥梁 如图所示 在池化层之前 使用1×1卷积生成了一个Softmax注意掩码 看似复杂的计算方法其实是一个简洁的过程:其中k 是当前层的索引

是1×1卷积,然后是sigmoid激活函数σ(·) 。通过

归一化的软化掩膜中的极端值被用于防止网络中的像素异常。随后我们关注于从运动分支中获取对应的表示。

执行一个基于元素的乘积。

多任务TS-CAN
在此时此刻, 我们已经开发出一种实时生理信号预测架构, 然而目前仍由两个独立的网络构成, 分别负责不同的功能:一项用于估计心率, 另一个则负责呼吸信号的估计。鉴于心率与呼吸之间存在密切关联, 在此提出一种改进型多任务网络架构(见上图), 其两项任务均能共享同一个中间表示, 这不仅能够提高模型性能, 还能有效降低了计算开销。其损失函数定义如下所示:其中交叉项L_{cross}旨在捕捉两者之间的关系

是标准BVP波形,

是标准呼吸波形,

和

分别为模型的预测值。

实验
论文对所提出的方法进行了对比分析,并与四种脉搏测量技术(POS、CHROM、ICA及2D-CAN)以及两类呼吸测量手段(2D-CAN与ARM)展开了系统性比较,在基于AFRL与MMSE-HR两个标准数据集的基础上进行了实验验证
实验细节
- 建议采用基于双分支结构的设计方案。如图2所示,在设计网络架构时,默认采用四个卷积层作为基础模块,并在第二层及第四层卷积操作后分别配置平均池化模块及Dropout模块以控制模型复杂度。
- 在对外观分支输入进行预处理时,在保证图像空间分辨率质量的前提下实现了相机噪声的有效抑制。
- 在运动分支部分,则采用了基于归一化的处理方法来计算每两个相邻帧之间的相似性度量值。与原始帧相比这种方法能够更好地抵抗光照变化以及皮肤细节的变化影响,并且显著降低了对训练数据过度拟合的风险。

- 我们的系统基于Tensorflow框架构建,并采用Adadelta优化算法对提出的MTTS-CAN架构进行训练。实验参数设置如下:学习速率为1.0;批处理大小为32;内核尺寸分别为3×3和3×3×3(分别对应2D和3D模型);池化尺寸分别为2×2(2D模型)和2×2×2(3D模型);并设定了丢弃率(dropout rate)为0.25和0.5以防止过拟合。对于混合模型而言,在完成所有时间点上的训练后会自动选择最优模型(其中呼吸任务经过12个epoch训练达到最佳性能、脉搏任务则经过24个epoch优化)。为了保证公平比较,在所有模型中均采用了统一的10帧窗口大小。
- 通过设定α参数值为0.5来平衡脉冲信号与呼吸信号的估计效果(即两者的振幅均进行了归一化处理)。
- 在计算性能指标时,默认采用了二阶巴特沃斯滤波器对该系统各方法输出信号进行了统一的后端处理流程(其中HR模块采用截止频率为0.75Hz至2.5Hz的设计;BR模块采用截止频率为0.08Hz至0.5Hz的设计)。
- 对于AFRL数据集而言,默认将其划分为长度为30秒的不重叠区间;而对于MMSE-HR方法,则采用了与视频帧数相等的时间窗口划分策略。
- 针对每个时间段区间内的心脏频率估计误差、呼吸频率估计误差、相关性以及BVP/呼吸信噪比四项关键性能指标进行了详细的统计分析。
On-device
我们提出了一种架构,在名为Firefly-RK33994的开源嵌入式系统中进行部署,用于评估延迟性能。该系统包含两个大尺寸的Cortex-A72核心和四个较小尺寸的Cortex-A53核心。然而RK3399系列也拥有一个移动Mali GPU芯片,但我们主要关注的是CPU性能方面的评估工作。在这项研究中我们扩展了一个基于TVM的支持时间移位操作的深度学习编译栈。TVM通过接受高级函数描述并为其目标设备生成高度优化的基础代码来实现这一功能。具体而言我们通过基于TVM开发了可穿戴设备上的端到端优化框架。首先将TensorFlow图转换为中间图然后利用LLM对Firefly-RK3399系统的代码进行编译优化之后利用TVM调度指令生成高效的低层LLM代码从而加速那些计算开销较大的操作如二维与三维卷积运算。
结果和讨论
与先进技术的比较
对于AFRL数据集,25名参与者被随机分为5份,每份5个参与者,使用5份数据进行五倍交叉验证,对学习模型进行训练和测试。下表1中为五份数据的结果取平均。由表1可知,我们提出的所有模型都优于2D-CAN和其他基准,而Hybrid-CAN和3D-CAN实现了与本模型类似的精度,在脉冲和呼吸测量上降低了50%的MAE和20%的MAE。TS-CAN也比2D-CAN在脉搏测量上高出43%,在呼吸测量上高出20%。我们还评估了TS-CAN和Hybrid-CAN的多任务版本,并将它们分别称为MTTS-CAN和MT-Hybrid-CAN。我们观察到,与单任务版本相比,多任务模型的不同版本并没有提高准确度,因为网络必须对两个任务使用几乎相同的参数。然而,MT模型需要的计算量和参数分别是运行脉冲和呼吸模型的一半,这是一个相当大的优势。

跨数据集的泛化
为了评估我们的模型在不同分辨率、背景及光照条件下的推广能力,我们采用了AFRL平台进行训练,并选择MMSE-HR数据集作为测试基准。与现有的2D空间自注意力网络(2D-CAN)相比,在TS-CAN、Hybrid-CAN以及3D空间自注意力网络(3D-CAN)中采用的方法均能显著降低误差水平(如表1所示)。值得注意的是,在脉冲与呼吸之间实现共享表示的能力也得到了MTTS-CAN与MT-Hybrid-CAN的有效验证。
计算成本和延迟
实验结果表明,在所有评估指标中推理速度表现最为突出。

(A)六种模型的on-device延迟评估; (B)运动分支上规范化帧的TSM可视化
时间建模
时间建模对于捕捉波形动态至关重要。

多任务学习
与传统的非MT模型相比,在对脉冲和呼吸速率估计误差进行比较的研究中发现,在使用多任务学习方法的情况下并未减少这些指标上的误差幅度。然而,在推理效率方面取得了显著提升(见图1),这一改进对于运行在资源受限移动平台上的设备尤为重要。为了从视频中估算出心跳和呼吸速率,在数据处理流程中采用了若干必要的预处理及后处理步骤:包括降采样图像、计算平均帧率以及识别峰值数量等关键操作。值得注意的是,在单帧推理过程中(仅需6ms时间),即便考虑预处理带来的额外开销,在实时性方面仍可维持可行性水平。此外,在内存管理方面 TS-CAN 模型展现出显著优势:仅需一半存储空间即可完整保存全部参数信息相较于 MTTS-CAN 由于其单帧推理时间仅为 6ms 因此即使加入预处理开销 在实际应用中仍能实现高效运行这一特点使得其特别适合部署在对内存极为有限的边缘设备上
MTTS-CAN的应用
我们系统通过独特的算法架构实现了HRV(心率变异性)分析功能,并在实时性方面表现卓越。具体而言,在优化心率变异性的测量方面具有显著优势。HRV不仅能够准确捕捉到每个心跳间隔的时间变化特征,并且能够实时追踪个体生理状态的变化趋势。为了确保对微小波动的有效捕捉,在硬件设计上采用了与MTTS-CAN相当的低延迟性能支持。基于非接触式监测技术的应用场景扩展以及嵌入式处理器的强大计算能力,在心理健康评估、个性化健康管理等新兴领域展现出广阔的前景。此外,在依赖设备进行计算的各种计算机视觉领域中也展现出广泛的应用潜力
