论文速览 | IEEE THMS 2024 | Gesture-mmWAVE: Compact and Accurate Millimeter-Wave Radar-Based Dynamic Ges
IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS (THMS), 2024 | Gesture-mmWAVE: Compact and Accurate Millimeter-Wave Radar-Based Dynamic Gesture Recognition for Embedded Devices | 基于多级特征融合和Transformer实现的嵌入式设备动态手势识别
论文速览 | IEEE THMS 2024 | Gesture-mmWAVE: Compact and Accurate Millimeter-Wave Radar-Based Dynamic Gesture Recognition for Embedded Devices | 基于多级特征融合和Transformer实现的嵌入式设备动态手势识别

1 引言
手势识别 是一种极具潜力的人机交互方式,在智能家居、自动驾驶、手语翻译等领域有广泛的应用前景。目前,手势识别主要采用可穿戴设备、声学设备、视觉设备和毫米波雷达 等传感器。其中,毫米波雷达 以其高精度、强适应性、隐私保护等优势成为手势识别的优选方案。
频率调制连续波(FMCW)毫米波雷达 被广泛应用于手势识别。基于FMCW雷达的手势识别主要包括信号处理 和分类 两个阶段。在信号处理阶段,需要从原始回波中提取手势特征。现有方法虽然能获得丰富的特征,但计算复杂,难以应用于嵌入式设备。在分类阶段,提取的特征被送入神经网络进行分类。现有方法虽然能实现高精度识别,但存在以下两个问题 :
① 采用普通卷积模块构建的网络模型参数量大,难以移植到嵌入式设备;
② 网络加深会导致下采样次数增加,模型可能丢失大量细节,影响识别精度。
2 动机
针对现有方法存在的问题,本文提出了一种基于多级特征融合(MLFF)和Transformer 的毫米波雷达动态手势识别方法。该方法具有参数量小、识别精度高 的优点,非常适合应用于嵌入式设备。
本文的主要贡献 如下:
① 提出了一种简单、高效的雷达信号处理方法,易于在嵌入式设备上实现;
② 构建了MLFF-Transformer网络用于动态手势识别,该网络能够显著降低模型复杂度,提高识别精度;
③ 在自建数据集上进行了实验验证,结果表明该方法具有参数量小、识别精度高的优点。

3 方法
3.1 信号模型
FMCW雷达发射信号为:
s_t(t,T) = u(t-T) \cos(2 \pi f_c t), T=0, \text{PRI}, 2\text{PRI},\dots
其中, f_c 为载波频率, t 为快时间, T 为慢时间, \text{PRI} 为脉冲重复周期, u(\cdot) 为信号包络。
手势目标可视为由有限个散射中心组成的分布式目标,其散射模型为:
y(r,T) = \sum_{i=1}^{N_{SC}} \rho_i(T) \delta(r-r_i(T))
其中, \rho_i(T) 为第 i 个散射中心的雷达散射截面, \delta(\cdot) 为狄拉克函数, r_i(T) 为第 i 个散射中心到雷达的径向距离, N_{SC} 为散射中心数。
雷达接收回波信号为发射信号与手势散射模型的卷积:
s_r(t,T) = s_t(t,T) \otimes y(\frac{ct}{2},T)
其中, \otimes 表示卷积运算, c 为电磁波在自由空间的传播速度。

3.2 特征提取
如图2所示,本文采用二维快速傅里叶变换(2D-FFT)提取手势的距离和多普勒信息,然后通过相干累加提高信噪比,最终获得距离-时间图(RTM)和多普勒-时间图(DTM)。

具体来说,获取RTM的步骤如下 :
① 将每帧回波信号按照 \text{Chirps} \times \text{Samples} 格式重新排列;
② 对每帧所有Chirp进行快时间维FFT,得到距离谱;
③ 对每帧内的谱图进行相干累加,提高信噪比;
④ 将所有帧在时间域累加,得到动态手势的RTM。
获取DTM的步骤如下 :
① 对每帧回波信号的快时间和慢时间维进行FFT,得到距离-多普勒谱;
② 对每帧在快时间维上求和平均;
③ 将所有帧在时间域累加,得到动态手势的DTM。
这一过程简单、有效,易于在嵌入式设备上实现,能够准确、可靠地表征手势的距离和多普勒信息。
3.3 MLFF-Transformer网络
如图3所示,本文提出的MLFF-Transformer网络包括两个相同结构的MLFF模块 分别用于提取RTM和DTM的特征,最终特征融合(UFF)模块用于融合两个MLFF模块提取的特征,再通过Transformer模块 提取动态手势的全局特征,最后经过全连接层输出手势标签。

3.3.1 MLFF模块
传统卷积神经网络通过加深网络提取更丰富的特征,但会导致两个问题:
① 下采样过多会丢失大量细节,导致识别精度下降;
② 网络加深会导致参数量急剧增加。
为了解决这两个问题,本文提出了MLFF模块。MLFF模块采用深度可分离卷积构建,能够显著降低模型复杂度。同时,它采用残差策略融合浅层、中层和深层特征,减少下采样造成的细节丢失。
深度可分离卷积将标准卷积分解为逐通道卷积和逐点卷积,其计算公式为:
\mathbf{F}_{l,n} = \sum_{i=1}^{M} \mathbf{K}_{l,i,n} \ast \mathbf{F}_{l-1,i}
其中, \mathbf{F}_{l,n} 表示第 l 层特征图的第 n 个通道, \mathbf{K}_{l,i,n} 表示第 l 层第 i 个输入通道到第 n 个输出通道的卷积核, M 为输入通道数, \ast 表示卷积运算。
相比标准卷积,深度可分离卷积的参数量减少了 \frac{1}{N}+\frac{1}{D_K^2} 倍,其中 N 为输出通道数, D_K 为卷积核尺寸。
MLFF模块采用残差连接融合不同层级的特征:
\mathbf{F}_{out} = \mathcal{H}(\mathbf{F}_{in}) + \mathbf{F}_{in}
其中, \mathbf{F}_{in} 和 \mathbf{F}_{out} 分别表示残差块的输入和输出特征, \mathcal{H}(\cdot) 表示残差映射函数。
此外,MLFF模块还引入了自适应平均池化,以减轻下采样造成的细节丢失:
\mathbf{F}^{pool}_{l,n}(i,j) = \frac{1}{I \times J}\sum_{m=1}^{I}\sum_{n=1}^{J} \mathbf{F}_{l,n}(mI+i,nJ+j)
其中, I 和 J 分别表示池化核的高度和宽度。
3.3.2 Transformer模块
Transformer模块能够捕捉动态手势的全局特征,聚焦关键信息。它主要包括多头注意力机制和前馈神经网络 。
多头注意力机制首先计算查询矩阵 \mathbf{Q} 、键矩阵 \mathbf{K} 和值矩阵 \mathbf{V},然后执行缩放点积注意力运算:
\text{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \text{softmax}(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}})\mathbf{V}
其中, d_k 为 \mathbf{K} 的维度。多头注意力通过并行执行 h 个不同的注意力函数,捕捉输入序列的不同子空间表示:
\begin{aligned} \text{MultiHead}(\mathbf{Q},\mathbf{K},\mathbf{V}) &= \text{Concat}(\text{head}_1,\dots,\text{head}_h)\mathbf{W}^O \\ \text{head}_i &= \text{Attention}(\mathbf{Q}\mathbf{W}_i^Q,\mathbf{K}\mathbf{W}_i^K,\mathbf{V}\mathbf{W}_i^V) \end{aligned}
其中, \mathbf{W}_i^Q \in \mathbb{R}^{d_{model} \times d_k}, \mathbf{W}_i^K \in \mathbb{R}^{d_{model} \times d_k}, \mathbf{W}_i^V \in \mathbb{R}^{d_{model} \times d_v} 和 \mathbf{W}^O \in \mathbb{R}^{hd_v \times d_{model}} 是可学习的权重矩阵。
前馈神经网络包含两个线性变换层和一个ReLU激活函数:
\text{FFN}(\mathbf{x}) = \max(0, \mathbf{x}\mathbf{W}_1 + \mathbf{b}_1)\mathbf{W}_2 + \mathbf{b}_2
其中, \mathbf{W}_1 \in \mathbb{R}^{d_{model} \times d_{ff}}, \mathbf{W}_2 \in \mathbb{R}^{d_{ff} \times d_{model}} 是权重矩阵, \mathbf{b}_1 \in \mathbb{R}^{d_{ff}}, \mathbf{b}_2 \in \mathbb{R}^{d_{model}} 是偏置向量。
4 实验和结果
我们在自建数据集上对所提出的方法进行了实验验证。数据集包含6种动态手势的回波数据和两种随机干扰,采用FMCW毫米波雷达采集。实验结果表明,本文方法在受到10%随机干扰的情况下,对6类手势的平均识别精度达到99.11%,优于现有方法。此外,本文模型的参数量仅为0.42M,约为MobileNet V3-small模型的25%。因此,该方法具有参数量小、识别精度高的优点,非常适合应用于嵌入式设备。





5 不足和未来展望
虽然本文方法取得了优异的性能,但仍存在一些不足之处 :
① 实验采用的数据集较小,泛化能力有待进一步验证;
② 方法尚未考虑遮挡、视角变化等因素,鲁棒性有待提高;
③ 识别精度还有进一步提升的空间。
未来,我们将致力于以下几个方面的改进 :
① 在更大、更复杂的数据集上验证模型的泛化能力;
② 引入数据增强、对抗训练等策略,提高模型的鲁棒性;
③ 探索更高效的特征提取和融合方法,进一步提升识别精度;
④ 将该方法应用于实际场景,如智能家居、自动驾驶等,并结合具体需求进行优化。
6 总结
本文提出了一种基于MLFF和Transformer的毫米波雷达动态手势识别方法。该方法利用2D-FFT和相干累加从回波信号中提取RTM和DTM特征,然后通过MLFF-Transformer网络进行特征融合和分类。MLFF模块采用深度可分离卷积构建,能够显著降低参数量。同时,它采用残差策略融合多级特征,减少下采样造成的细节丢失。Transformer模块能够捕捉动态手势的全局特征,聚焦关键信息。
实验结果表明,该方法在参数量大幅降低的同时,实现了优于现有方法的识别精度,非常适合应用于嵌入式设备。 我们希望该工作能够为毫米波雷达动态手势识别提供新的思路,推动其在智能家居、自动驾驶等领域的应用。相信随着技术的不断进步,动态手势识别将在人机交互领域发挥越来越重要的作用,极大地改善我们的生活方式。
