Advertisement

论文速览 | IEEE INFOCOM 2023 | mmMIC: Multi-modal Speech Recognition based on mmWave Radar | 基于毫米波的多模态语音

阅读量:

论文速览 | IEEE INFOCOM 2023 | mmMIC: 基于毫米波雷达的语音与信号处理融合研究 | 后毫米波时代下的语音信号处理重要进展

在这里插入图片描述

论文链接: https://ieeexplore.ieee.org/document/10229085/

1 引言

在这个信息高度发达的时代中

针对这一难题

在这里插入图片描述

2 动机

传统的语音识别技术主要基于麦克风装置来采集说话者的语音信号。该方法在理想的安静环境中表现出色,在现实环境中通常会遇到多个声源以及各类环境噪声的影响。例如,在一个喧闹且多人同时参与讨论的会议室中,复杂的对话场景会让语音信号混杂在一起从而导致语音助手难以准确识别出特定说话者的指令。

为了应对这一挑战,研究人员提出了两种主要的改进方向:

单传感器语音识别技术:通过无线天线、摄像头或其他单一传感器设备收集与语音相关的信息。例如,在现有研究中发现WiFi频谱可用于检测嘴唇运动特征;RFID技术则可辅助识别声波变化特征;毫米波频段则常用于捕捉声学环境细节。然而,在这种情况下难以准确重构完整的语音信号信息。

多模态融合:通过多类传感器(包括音频、视频及无线信号)同步采集语音相关数据。该种方法虽然能够利用不同模态间的互补性来增强语音识别效果[1],但也面临隐私问题[2](如音视频融合问题或超声波感知局限性等挑战)。另外,在实际应用中还可能遇到硬件成本增加的问题[3]以及时间与空间同步要求高的问题[4]。

为了应对这些挑战的研究团队,在探索新型技术时提出了一个具有突破性的概念:是否可以通过单一的毫米波雷达设备来同时采集唇部运动与声带振动的数据,并实现高效的语音识别系统?该方案不仅能够避免多传感器设备所带来的同步难题与高昂成本,并且充分运用了毫米波技术在穿透力与精确度上的独特优势。

3 方法

mmMIC系统的主功能在于通过毫米波雷达同步采集嘴唇运动与气道振动的相关数据,并借助创新算法与模型对这些多模态信息进行处理与整合。该系统采用先进的信号处理技术与数据融合方法,在完成数据采集的基础上实现了对嘴唇运动特征与气道振动特征的有效提取与分析;系统的整体工作流程主要包括三个关键环节:数据采集、特征提取及信号处理、结果解析与反馈优化

在这里插入图片描述
在这里插入图片描述

3.1 宏观运动特征提取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这个模块主要负责提取唇部运动的特征。具体步骤如下:

信号预处理过程:毫米波雷达通过发射频率调制连续波(FMCW)信号来实现对目标的探测,并结合波束成形技术以聚焦接收的信号能量至特定区域。

动态干扰消除:研究团队开发了一种基于差分的技术以实现动态干扰去除。该方法通过检测与口音相关联的相邻单元信号来估算动态噪声,并从原始信号中减去这一估算值。这一过程可通过以下公式表示:

\hat{S_d} = \frac{1}{2N}\sum_{n=-N}^{N} \alpha_n \cdot S_{l+d}(R+n), n \neq 0

其中,在模型推导过程中被定义为动态干扰信号的一个估算值;同时引入了包含动态干扰项的空间表达式S_{l+d}(R);并且通过权重系数\alpha_n 来表征各单元的重要性程度

特征提取 :在本节中, 采用短时傅里叶变换(STFT)作为工具, 用于生成唇部运动相关信号的多普勒频谱图。

STFT(S_l) = STFT(S_{l+d}) - STFT(\hat{S_d})

在这里插入图片描述
在这里插入图片描述

3.2 微振动特征提取

这个模块主要负责提取声带振动的特征:

在信号预处理阶段中, 通过分析反射信号的相位变化来识别声带振动. 其中, 相位变化量\Delta\phi通过该公式转换为实际位移量\Delta d: 其中, 公式中的\lambda表示波长, 而\pi则代表圆周率. 通过上述关系式\Delta d = \frac{\lambda}{4\pi}\Delta\phi, 我们可以计算出对应的位移量\Delta d.

High-pass filtering; it is a technique used to eliminate low-frequency interference such as lip movements, body motions, and background signals. Through the application of high-pass filters, we can effectively suppress these interfering signals.

对话活动识别:为减少在非对话期间对计算资源的不必要的消耗,研究团队开发了一种基于交叉验证技术的对话活动识别系统。该系统首先通过唇部运动数据进行粗略筛选,并在此基础上分析声带振动特征以提高识别精度。

该增强方法基于毫米波雷达采集的语音信号存在缺失高频谐波成分这一事实,在此基础上研究团队采用了循环生成对抗网络(Cycle-GAN),从而从基频信号中恢复出完整的频率系数。

3.3 基于注意力的多模态融合与识别

为了充分挖掘唇部运动与声带振动两种模式之间的协同作用,在研究团队的努力下开发出了一种名为TransFuser的新系统。

声带振动编码器 :使用基于注意力机制的编码器来提取声带振动特征。

唇部运动编码器 :使用视觉transformer(ViT)来编码唇部运动频谱图。

多模态融合:TransFuser模型利用交叉注意力和合并注意力机制来整合两种不同模态的特征提取过程。其中交叉注意力的核心在于通过信息交换机制实现各特征之间的关联性生成;而合并注意力则侧重于通过信息整合方式构建各特征间的互补关系形成。

语音识别 :最后,使用一个解码器来识别融合后的特征,完成语音识别任务。

在这里插入图片描述
在这里插入图片描述

4 实验和结果

该研究团队采用了TI IWR6843BOOST雷达以及DCA1000EVM高速数据采集模块进行系统性的大量实验设计与测试工作

整体性能:mmMIC在面对语音干扰时仍展现出良好的性能表现。针对所有声素的识别能力均达到超过90%的水平,在具体测试中发现其尤其擅长处理元音声素的情况,并且其识别精度高达95%以上。

间距与朝向的影响 :实验研究表明,在距离控制在2米以内且朝向偏差不超过30度时(间距与朝向),系统能够维持90%以上的识别精度。

环境噪声对系统的影响:多种音量级别下的背景音乐干扰测试结果表明,在所有测试场景中系统的识别准确率均超过90%,表现稳定。

多人场景下的表现:即便在多声源环境下存在语音干扰时,系统的识别性能依然保持良好水平。

物理活动对语言表达的影响:在人体进行语言表达的过程中, 当运动幅度低于十厘米时, 系统依然能够实现精准的语言识别。

此外,在深入研究团队的消融实验中发现该研究团队通过分别考察仅使用唇部运动、仅使用声带振动以及两者的融合模式等三种方案进行性能评估。实验结果表明融合模式在整体性能上具有显著优势,在特定任务如辅音识别方面表现尤为突出,在准确率上相比单独使用唇部运动或声带振动方法提升了约20%

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 不足和未来展望

尽管mmMIC系统在多个方面表现出色,但仍存在一些值得改进的地方:

感知范围的限制 :当前系统在2米范围内性能达到最佳水平,在未来研究方向可考虑如何提升有效感知能力

角度敏感性:当方向角超过30度时,在检测过程中会出现性能下降的情况。为提升整体系统效能,在现有条件下有必要进一步优化波束成形技术方案,并可考虑探索多雷达协同工作的可行性

抗干擾能力的進一步提升 :儘管該系統能够在音樂噪声環境和多人共处于環境中表现出良好的性能,在面對更为複雜的干擾環境(如強烈的電磁섭動)時,其適應性仍需進一步探究。

实时性能优化:文章未深入探讨系统在处理时间上的效率及其对实际应用场景的影响。目前的研究仍需进一步探索如何优化算法以应对快速变化的需求。

多语言支持 :当前研究的主要焦点是英语音素,在未来研究可延伸至其他语言领域,并将深入探讨各语言在口部运动及声带振荡特性之间的异同。

隐私保护措施:然而,在采用毫米波技术时,并非完全能够避免传统摄像技术所具有的监控能力。尽管如此,在实际应用中仍需采取一系列措施来最大限度地保障用户的隐私权。

多模态融合的深入研究:尽管TransFuser框架表现出色且具有显著优势,在实际应用中仍存在改进空间。进一步探索多样化的融合策略和方法论体系。例如引入自适应权重分配机制和动态整合方法。

6 总结

mmMIC系统的提出无疑得利于语音识别技术的发展需求。该系统巧妙地运用了毫米波技术,并着重捕获了唇部运动与声带振动这两种互补的信息类型,在多声源及噪声环境下显著地解决了传统语音识别所面临的挑战。

这项研究的主要贡献可以总结为以下几点:

一种创新的声学感知方法:通过单一毫米波信道综合捕捉大范围的人面运动特征与微尺度声学振动特性,在此过程中有效规避了传统多传感器同步配准及高成本的相关技术挑战

先进的特征提取算法开发了两种创新性技术:差分基底去除动态干扰的方法以及交叉验证辅助的说话活动检测方案。通过上述创新方法的应用,在提升特征提取质量的同时显著提升了处理效率。

创新的多模态融合框架:开发了TransFuser框架。基于注意力机制有效地整合了两种模态的属性,并显著优化了识别性能。

强大的抗干扰能力 :在多种复杂环境下中断续写:

强大的抗干扰能力:在各种复杂的环境中,在面对音乐噪声、多人对话等不同场景时(而不是仅仅在单一环境下),该系统依然能够保持高精度的识别效果,并展现出卓越的稳定性。

广阔的适用前景 :基于毫米波技术的语音识别系统不仅能够应用于自动驾驶汽车、智能家居设备等常规领域,并且也可能在高噪音工业场景或隐私保护需求高的环境中展现出独特的性能优势。

从宏观视角来看,mmMIC系统的成功不仅体现了技术创新的力量,在跨学科研究方面也展现了巨大的潜力。这项研究巧妙融合了信号处理、机器学习、语音识别以及人机交互等多个领域的知识,在解决复杂现实问题方面提供了全新的解决方案。

全部评论 (0)

还没有任何评论哟~