Advertisement

论文速览 | TMC 2024 | Rodar: Robust Gesture Recognition Based on mmWave Radar Under Human Activity Inter

阅读量:

论文速览 | TMC 2024 | Rodar: A Resilient Gesture Recognition System Relies on mmWave Radar Technology Under the Perturbation of Human Activities, The system achieves Stable Pose Estimation through advanced algorithms even when faced with the challenge of Human Activities Perturbation.

论文速览 | TMC 2024 | Rodar: A Resilient Gesture Recognition System Relies on mmWave Radar Technology Under the Perturbation of Human Activities, The system achieves Stable Pose Estimation through advanced algorithms even when faced with the challenge of Human Activities Perturbation.

在这里插入图片描述

本文探讨了一种新型的手势识别系统Rodar ,该系统具备在各种高强度人类活动干扰下的精确识别能力。

1 引言

该方案为人机交互提供了高效的解决方案,在控制灯光、电视以及窗帘等多种场景中得到了广泛应用。然而,在实际应用中该方案面临着 privacy protection and light sensitivity 的双重挑战,在某些特定条件下难以满足需求。相比之下,在 high precision, anti-light performance, low energy consumption 方面具有显著优势,并且通过严格的 privacy protection scheme得以实现。

采用毫米波雷达技术(mmWave Radar技术)来进行手势识别是一种具有广泛前景的解决方案。尽管已有相关研究已取得部分成果,在解决高强度人类活动干扰和相似手势辨识难题方面仍面临着两大关键挑战。本文提出了一种称为Rodar系统的创新方案,在利用多角度去干扰变压器的过程中整合了MvDe Former网络的技术优势。

2 动机

2.1 人类活动干扰

在實際應用情境中,人体运动干擾(例如行走、跑步等動作)會對手勢辨識的準確性產生顯著影響。现有研究主要关注于弱強度干擾情況下的性能提升,在此基礎上對強人数值運動干擾技術的研究相对不足。

2.2 手势相似性

多种操作表现出类似的路径特征,包括推升和滑升操作以及字母N和W的不同形式。这些操作所生成的数据在特定角度下的反射波非常接近,在识别时容易混淆。

在这里插入图片描述

3 方法

在这里插入图片描述

3.1 数据收集

该系统利用频率调制连续波(FMCW)雷达信号来感知环境信息;其中采用该技术作为发射信号形式。

s_{\text{Tx}}(t) = A_{\text{Tx}} \cos(2\pi(f_c t + \frac{1}{2} \frac{B}{T_c} t^2))

接收信号为:

s_{\text{Rx}}(t) = A_{\text{Rx}} \cos(2\pi(f_c(t - \tau) + \frac{1}{2} \frac{B}{T_c}(t - \tau)^2) + \Delta \phi_1)

其中,\tau表示信号传播延迟,\Delta \phi_1表示多普勒效应引起的相位偏移。

3.2 数据预处理

基于低通滤波器和移动目标指示器(MTI)算法对IF信号进行处理后,在有效去除了静态噪声的同时成功提取了动态手势信息。随后,在对雷达信号施加傅里叶变换操作后获得了RTM、DTM以及三维ATM结果。

在这里插入图片描述

3.3 MvDeFormer网络设计

MvDeFormer网络包括两个模块:DeFormer模块层次化多视角融合模块

在这里插入图片描述
3.3.1 DeFormer模块

借助自注意力机制对输入图像进行处理,并将其划分为多个小块区域;在每个分割后的分块中融入位置编码信息,并通过差异模式分析提取显著的手势特征。随后,在多头注意力模块中根据各分块间的相关性程度进行权重分配;相应的数学关系式表示为:

s_{im} = \frac{q_{in} k_{im}^T}{\sqrt{u_1}}

通过softmax归一化后,计算多头注意力结果:

\text{MultiHead}(Q, K, V) = \text{Concat}(P_1, P_2, ..., P_I)W_0

在这里插入图片描述
3.3.2 层次化多视角融合模块
在这里插入图片描述

首先,通过视角内融合层 提取每个视角的显著手势特征:

G_j = f_j \cdot F_j = \text{softmax}(g(F_j)) \cdot F_j

然后,通过视角间融合层 动态加权不同视角信息,最终进行手势分类。

4 实验和结果

改写说明

4.1 系统设置

4.1.1 设备配置

本实验采用了COS型毫米波探测器IWR6843Boost ,该设备配备有三组发射天线和四组接收天线。其发射频率范围设定在60至64 GHz之间,并具有4 GHz的带宽。原始雷达数据经由数据采集卡DCA1000EVM传递至计算机系统进行处理。本系统将雷达参数配置为每帧包含128个chirp信号,并每个chirp信号包含128个采样点。具体参数详情请参见表1

在这里插入图片描述
4.1.2 网络参数

在本文中DeFormer编码器 的输入图像(基于RTM、DTM或ATM)被划分为8×5个块状区域(每个区域尺寸为16×10)。该去干扰滤波器系统包含多个独立的部分:包括用于特征提取的一维卷积模块、用于引入非线性激活的作用激活层以及用于空间降采样处理的池化组件。其中去噪过程通过设定丢弃率为0.5的比例来实现。该编码器架构总计包含6个层次信息处理单元,并参考表2中的详细参数设置进行配置。

参数
训练轮数 4000
学习率 0.0002
图像大小 [128, 50]
注意力头数 8
批量大小 32
内核大小 3
步幅 1
令牌长度 768
损失函数 交叉熵
优化器 Adam
激活层 ReLU
池化类型 最大池化

4.2 数据集

本文设计了一个包含七种相近手势的数据集,并在模拟的行为干扰场景下分别采集了三组数据。实验中的干擾源主要包含行為干擾、行走 dry 跑步 dry 等三個類型的ference.研究共获得了63,000个标定样本数据,并由8位受试者提供参与.將數據庫划分为訓練集合測試集合與驗證集合,and將它們按照7:1:2的比例進行分配.

在这里插入图片描述

4.3 性能评估

4.3.1 系统性能

我们在单一干扰和混合干扰两种情况下评估了系统性能。结果如表3所示:

训练样本类型 测试样本类型 准确率
行为干扰 行为干扰 96.26%
走路干扰 走路干扰 89.98%
跑步干扰 跑步干扰 89.74%
混合干扰 行为干扰 96.36%
混合干扰 走路干扰 90.82%
混合干扰 跑步干扰 91.17%
1. 单一干扰(Case A)

面对单一形式的干扰,在行为模式下系统达到了最佳效果(准确率达到96.26\%)。当遇到强度较高的走路或跑步型的干扰时,系统的性能有所下降(仍维持在90\%上下水平)。

2. 混合干扰(Case B)

当系统面临多种干扰时,在各类干扰情境下的整体表现得到了显著提升。这表明通过混合训练不同类型的干扰样本对于提高系统的鲁棒性具有重要意义。

4.4 与其他方法的比较

通过对比分析MvDeFormer网络 与现有的多视角信息方法(3D-CNN、VGG19、MS-CNN和ResNet)的具体性能差异, 能够更好地理解其优势与局限性. 具体结果可见表4.

在这里插入图片描述

通过大量实验结果表明,在各类干扰条件下运行的MvDeFormer网络 均展现出卓越的性能,并较现有方法提升约6%。

4.5 消融实验

在系统中进行消融实验之前,我们对DeFormer模块视角内融合层视角间融合层 的重要性进行了详细分析与评估。

在这里插入图片描述

实验结果表明,在抗干扰滤波模块、内部特征融合模块以及跨模态特征融合模块中,这些技术手段均显著提升了系统的性能水平。

4.6 超参数实验

我们进行了系统分析DeFormer编码器的深度层级和分割策略对模型性能指标的影响。实验结果表明,在图12中展示了不同网络架构下的性能对比,在表6中列出了各指标的具体数值。

在这里插入图片描述
在这里插入图片描述

结果显示,当图像分割为8×5时,系统表现最佳。

4.7 泛化性讨论

我们深入分析了目标与雷达之间的距离以及手部动作放大程度对系统性能的影响因素。实验结果表明如图13和表7所示。

在这里插入图片描述
在这里插入图片描述

实验结果表明,在多种距离和手势缩放条件下,MvDeFormer网络 均显示出较高的稳定性。

5 不足和未来展望

不足之处

  1. 目标遮挡挑战:当外界干扰完全覆盖或阻挡目标物体时,在这种极端情况下进行图像识别会表现出明显的性能下降。
  2. 实时响应:尽管系统的推理速度较快(尽管推理时间较短),但在实际应用中仍需进一步提升其处理效率。

未来展望

  1. 多模态融合 :整合其他类型的传感器数据(如红外或激光雷达),以进一步提升识别精度。
  2. 自适应网络 :设计自适应网络架构,动态优化模型参数配置以应对复杂多变的外界干扰。

6 总结

本文创新性地提出了一种新型鲁棒的手势识别系统... Rodar。借助MvDeFormer网络架构成功克服了复杂环境下的各类干扰问题及难以分辨的手势类型。经过大量实验验证,在极端复杂环境条件下,系统的识别准确率达到95%以上。该系统不仅表现出色,在实际应用中也展现了其卓越的实用价值与广泛应用场景。

全部评论 (0)

还没有任何评论哟~