【PaperReading】Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review

阅读量：

Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review

机器学习能否辅助定位鼾声的激发?
- Abstract
- Abbreviations
- 1. Introduction
- 2. Definition of the Problem
- - A. Anatomy（解剖构造）
  - B. 鼾声分类（Classification of Snoring）
- 3. Background
- 4. Methods
- - A. Human Hand-crafted Low-Level Descriptors（人工提取的低级描述符）
  - B. Higher Representations (高层表示)
  - - 1）Statistical Functional (统计泛函)
- 2）Bag-of-Audio-Words（音频词袋）
- 1. GMM Supervectors
- 4）Fisher Vectors
  - C. Deep Learning（深度学习）
  - - 1. 迁移学习（Transfer Learning）
- 2）端到端学习（End-to-End Learning）
- 1. 生成式对抗网络（Generative Adversarial Network）
- 5. Discussion
- - A Current Findings（当前的发现）
  - B Limitations and Outlook（局限性和展望）
  - - 1）Fundamental Studies（基础研究）
- 1. Explainable Models（可解释的模型）
- 3）Fusion Strategies（融合策略）
- 4）Data Enrichment （数据富集）
- 5）Open Resources（开源）
- 6. Conclusion
- 7. References

机器学习能否辅助定位鼾声的激发?

机器学习能否辅助定位鼾声的激发?
论文地址：https://ieeexplore.ieee.org/document/9152123

Abstract

在过去的三十年里，打鼾(Snoring (affecting more than 30% adults of the UK population))在医学和工程学等跨学科研究领域得到了越来越多的研究。早期的研究工作表明，鼾声可以携带有关上呼吸道状态的重要信息，这有助于发展基于无创声学的诊断和筛查阻塞性睡眠呼吸暂停和其他睡眠障碍的方法。尽管如此，临床实践对于寻找方法定位鼾声的激发有更多的要求，而不仅仅是检测睡眠障碍。为了进一步开展相关的研究，并引起大家的重视，本文综述了从机器学习到自动分类鼾声的最新技术。首先，我们介绍了问题的背景和定义。其次，我们详细说明了当前的工作以及潜在的应用。最后，讨论了在鼾声分类任务种的困难和挑战。总的来说，我们的综述为研究人员在这一领域的研究提供了全面的指导。

Abbreviations

AI	Artificial Intelligence	人工智能
BoAW	Bad-of-Audio-Words	不好的语音-文字
CNN	Convolutional Neural Network	卷积神经网络
ComParE	Computational Paralinguistics Challenge	计算辅助语言学的挑战
CSO	Competitive Swarm Optimisation	竞争性群体优化
DISE	Drug-Induced Sleep Endoscopy	药物性睡眠内窥镜检查
DL	Deep Learning	深度学习
ELM	Extreme Learning Machine	极限学习机
EM	Expectation-Maximization	期望最大化算法
EMDF	Empirical Mode Decomposition based Features	基于特征的经验模态分解
ENT	Ear, Nose, and Throat	耳朵、鼻子和喉咙
ES	Excitation Source	激发源
FNN	Feedforward Neural Network	前馈神经网络
FV	Fisher Vector	费舍尔向量
GAN	Generative Adversarial Network	生成对抗网络
GMM	Gausian Mixture Model	高斯混合模型
GRU	Gated Recurrent Unit	门控经常性单位
HMMs	Hidden Markov Models	隐马尔可夫模型
HNR	Harmonics to Noise Ratio	谐波噪声比
HOG	Histogram of Oriented Gradients	方向梯度直方图
KELM	Kernel based Extreme Learning Machine	基于核的极限学习机
KL	Kullback-Leibler	KL散度
LBP	Local Binary Pattern	局部二元模式
LDA	Linear Discriminant Analysis	线性判别分析
LLDs	Low-Level Descriptors	低层次描述符
LPC	Linear Predictive Coding	线性预编码
LSTM	Long Short-Term Memory	长期-短期记忆
MAP	Maximum A Posteriori	最大后验概率
MFCCs	Mel-frequency Cepstral Coefficients	梅尔频率倒频谱系数
ML	Machine Learning	机器学习
MLP	Multi-Layer Perceptron	多层感知机
MPSSC	Munich-Passau Snore Sound Corpus	慕尼黑-帕绍鼾声语料库
MSV	Margin Sampling Voting	边缘采样投票
MV	Majority Voting	多数票决
NB	Naïve Bayes	朴素贝叶斯
OSA	Obstructive Sleep Apnoea	阻塞性睡眠呼吸暂停
PR800	Power Ratio at 800 Hz	功率比为800赫兹
RASTA	Relative Spectral Transform	相对谱变换
RASTA-PLP	Representations Relative Spectra Perceptual Linear Prediction	相对谱感知线性预测
RF	Random Forest	随机森林
RMSE	Root Mean Square Energy	均方根能量
RNN	Recurrent Neural Network	循环神经网络
SCAT	Deep Scattering Spectrum	深度散射谱
SERs	Subband Energy Ratios	子带能量比
SF	Source Flow	源流
SFD	Source Flow Derivative	源流导数
SFFS	Spectral Frequency Features	频谱特征
SP	Signal Processing	信号处理
SVM	Support Vector Machine	支持向量机
SnS	Snore Sound	呼噜声
TL	Transfer Learning	迁移学习
UA	Upper Airway	上呼吸道
UAR	Unweighted Average Recall	非加权平均召回率
UBM	Universal Background Model	通用背景模型
VOTE	Velum, Oropharyngeal lateral walls, Tongue, and Epiglottis	腭，口咽侧壁，舌和会厌
VQ	Vector Quantisation	矢量量化
WEF	Wavelet Energy Features	小波能量特征
WPTE	Wavelet Packet Transform Energy	小波包变换能量
WTE	Wavelet Transform Energy	小波变换能量
XAI	Explainable Artificial Intelligence	可解释人工智能
e2e	end-to-end	端到端
k-NN	k-Nearest Neighbour	k最近邻
scGANs	semi-supervised conditional Generative Adversarial Networks	半监督条件生成对抗网络

1. Introduction

打鼾是一种普遍的疾病，影响着超过30%的英国人。在过去的几十年里，随着信号处理（SP）和机器学习（ML）方法和应用的快速发展，鼾声（SnS）得到了越来越广泛的研究，包括但不限于声学/音频信号处理，耳鼻喉科学，机器学习和生物医学工程。研究发现，作为一种常见的症状，SnS可以用于开发一种自动筛查阻塞性睡眠呼吸暂停（OSA）的无创方法，OSA是一种严重的慢性睡眠障碍，受影响的成年人大约有6%到7%。如果不及时进行治疗，阻塞性睡眠呼吸暂停综合症不仅会导致早上头痛和白天嗜睡，而且是中风、高血压、心肌梗死、心血管疾病的独立危险因素，甚至导致糖尿病，并造成严重后果。

正如 Roebuck 等人在一篇综合评论文章中指出的那样，基于音频记录的方法（主要集中在SnS分析）可以是一个有效廉价的睡眠监测方法。然而，许多现有的文献使用SnS来检测OSA，而不是定位打鼾部位。一方面，由于手术选择的不同，临床实践对确定准确的鼾声激发位置（不同的鼾声部位其音频可能有所不同）提出了更多的要求，这样可以为OSA患者和primary打鼾者制定有针对性的手术计划。另一方面，人们需要一种低成本、方便和非侵入的替代品来代替日益使用的golden standard、药物诱导型睡眠内窥镜检查（DISE）。多通道压力测量（Multichannel pressure measurement）是一种开创性方法，可以有效地监测自然睡眠，但它仍然是一种侵入式的方法，并不是每个项目都可以接受。利用机器学习技术开发一种仅使用SnS定位自动定位鼾声位点的方法是非常需要的。尽管相关的研究非常有限，但是随着人工智能（AI）技术的发展，相关的研究正在不断发展。

在过去的三十年，SnS分析呈现出三个主要趋势：

1990-2012年，通过统计方法计算和分析简单的声学特征；
2013-2016年，使用人工校正的特征来训练传统的机器学习模型；
2017年至今，使用最先进的深度学习技术来帮助从SnS中提取更高层次的表示，甚至在没有任何人来专家知识的情况下，从SnS原始数据中实现端到端学习。

在该项工作中，我们的目标是对应用于SnS分类任务的机器学习方法进行一次彻底和全面的回顾。这面综述的主要贡献可以总结为：

首先，据我们所知，这是第一篇关于基于机器学习的鼾声定位方法的综述；
其次，我们向读者介绍相关研究的背景（报考历史和定义）。特别是，我们将说明该研究的动机，并强调其在临床实践中的意义。
第三，我们介绍了传统的机器学习方法和先进的深度学习方法，这些方法被成功应用在解决SnS分类任务的挑战；
最后，我们讨论了当前研究的局限性，并对未来的工作提出了展望

我们希望这篇综述能够对具有共同兴趣的研究人员提供一个很好的知道，以提高对生物医学和健康信息学的其他受众对尖端技术的理解。

这篇综述文章的其余部分将组织如下：首先，我们给出在第二节中关注的问题的定义。第三节将介绍本文的背景和相关工作。然后，我们在第四节全面回顾现有文献，提出方法和挑战。最后，我们在第五节讨论当前的工作和展望，然后在第六节得出结论。

2. Definition of the Problem

在本节中，我们将简要介绍上呼吸道的解剖结构。然后，我们解释和比较不同类别的打鼾位点。

A. Anatomy（解剖构造）

上呼吸道被定义为从鼻孔(nostrils )和嘴唇(lips)到声带(vocal chords)的区域。它们包括鼻腔和口腔，咽和喉的上半部分。咽被定义为头部的后部，包括几个解剖标志，如软腭(velum)，腭扁桃体，舌头的后部(舌基)和会厌。会厌将咽区与上胃道(食道)和喉部分开，喉部包含声带。图1为上气道解剖示意图。
在这里插入图片描述
图1：上呼吸道的解剖结构

打鼾是由上呼吸道软组织结构振动引起的，尤其是在生理收缩时。在睡眠期间，肌肉张力降低，软组织松弛，增加了它振动的倾向。吸气气流的速度在上呼吸道狭窄的部位增加，引发组织振动和湍流，进而引起打鼾噪音。

产生鼾声的典型区域是软腭和它的最顶端，小舌，它可以前后方向振动，腭扁桃体通常横向振动，舌根可向后收缩，限制舌与后咽壁之间的通道，引起气流的震荡或声音;会厌，可因结构刚性降低或对后咽壁的后移位而塌陷。此外，咽壁本身也会在不同的水平和不同的方向上塌陷，从而导致打鼾。

为了有针对性地治疗打鼾和相关的睡眠相关呼吸障碍，重要的是要确定导致个体气道狭窄、导致打鼾噪音或呼吸障碍的机制和位置。声学方法可以区分不同的打鼾类型，可以提供一种可容忍的和具有成本效益的诊断措施。

B. 鼾声分类（Classification of Snoring）

已经提出了许多方案来分类不同类型的打鼾和上呼吸道阻塞。早期的分类仅限于区分腭部或非腭部打鼾，即软腭振动参与打鼾噪声的产生。一般认为腭部打鼾主要发生在上呼吸道无任何阻塞性障碍的初级打鼾中，而非腭部打鼾可作为 OSA 的一个指标[23]。

对于不同的打鼾和阻塞机制，由 Kezirian 等人发展的 VOTE 分类是一个更准确和广泛使用的定义，它区分了打鼾和气道狭窄可能发生的咽部四个等级。准确地说，这些是

V-Velum：软腭水平，悬雍垂，咽侧壁组织在软腭水平。
O-Oropharynx：扁桃体水平，咽侧壁组织在扁桃体水平。
T-Tongue：舌根水平，舌扁桃体水平，舌后咽壁水平。
E-Epiglottis: 会厌水平。

对于每个水平，VOTE分类描述气道收缩的形状，使用前后(a-p)、横向(l)和同心©类别，以及收缩程度(0，无阻塞;1、部分阻塞;2、完整的阻塞)。此外，还要注意打鼾的发生。

表一总结了由此产生的 VOTE 分类的12个类别。必须注意的是，由于解剖学原因，某些水平和收缩形状的组合是极其罕见的，例如在膜水平的侧面变窄。

表1：VOTE分类产生的类别
VOTE分类产生得类别
机器学习的一个普遍规律是，训练数据集中的样本数量越大，模式推广越好，得到的模型也越精确和健壮。此外，对训练数据的需求随着训练问题所包含的不同类别的数量的增加而增加。换句话说，机器分类器在给定训练集大小上的预期识别性能随着类的减少而提高。

在大多数真实世界的医学机器学习任务中，训练数据量是有限的，因为数据采集和准备的工作量是相当大的。首先，原始数据本身往往只有有限的数量，其次，数据预处理和注释的工作量相当大，往往需要训练有素和经验丰富的医疗专家进行手工工作。为了充分利用MPSSC 数据集，作者使用了一个简化版本的 VOTE 方案进行数据分类，忽略了收缩的形状，只考虑了水平。此外，呼吸道狭窄的程度没有被考虑进去，只考虑了可听见打鼾事件的存在。这导致了一个包含类 V、O、 T 和 E [13]的四类方案。

简化的VOTE方案在诊断精确性方面可能存在局限性。例如，口咽水平的圆形狭窄主要是由咽壁引起的，可能会导致不同的治疗决定，而不是在同一水平面上横向方向的振动，这表明扁桃体的贡献。

出于这个原因，Janott等人开发了一种改进的分类方案，有五个类别，允许从原始的VOTE分类[25]获得的选定的方向和振动水平组合进行区分。所谓的ACLTE-scheme的类定义为:

A, V level, 前后振动
C, V or O level, 同心振动
L, O level, 横向振动
T, T level, 任何振动方向
E, E level, 任何振动方向

由此得到的ACLTE-corpus包含来自343名受试者的1115个SnS样本，类别的大小是强烈不平衡的。A类样本几乎占样本的一半，而T类样本最小，仅占样本的3%。这反映了现实世界中不同打鼾模式的发生频率，在现实世界中，膜打鼾较为常见，而孤立的舌基打鼾则是一种罕见的现象。

3. Background

早期的研究可以追溯到Schafer和Pirsig，他们研究了5个患有睡眠障碍的孩子和一个患有“简单打鼾”的成年人（n=6）。在这项研究中，作者声称，成人的“简单打鼾”在很大成都上是由于软腭的震动，而儿童的“呼吸暂停性打鼾”则是由于扁桃体和腺样体增大的病理机制，导致软腭运动受阻[27]。他们的结论是基于对SnS频谱的观察得出的，

Quinn等人报道了腭部和舌根打鼾之间的波形和频率的差异。然而，他们的研究涉及的受试者数量（n=6）是有限的，因此他们的结论不能简单地一概而论。Miyazaki等人研究了四种类型鼾声的基频（F0）值，即软腭、扁桃体/舌根、联合位置和喉部。结果表明，上述四种类型鼾声的平均基频值分别为：软腭型102.8±34.9Hz，扁桃体/舌基底型331.7±144.8Hz，组合型115.7±58.9Hz，喉型250.0Hz左右。

Hill等人对腭部打鼾于非腭部打鼾[30]的crest factor(任意给定时期的峰值与平方均值数的比值)进行了研究和统计比较（n=11）。他们的结论是，腭部SnS比非腭部SnS具有更高的crest factor（p<0.01， Student-t 或者MannWhitney Tests）。在Hill的另一项研究中，从患者（n=5）在自然睡眠状态下产生的SnS中提取的crest factor的值表明，某些人的打鼾机制可能在夜间发生变化，这意味着打鼾部位也可能发生变化。

Agrawal等人计算了峰值频率（peak frequency）、中心频率（centre frequency）和功率比（power ratio），以区分腭部、基于舌头的和混合打鼾的能力[32]。特别是，他们比较了诱导睡眠和自然睡眠的鼾声特征（n=11）。他们声称，诱导的SnS比自然的SnS含有更高的频率成分。Saunders等指出，中心频率可以有效地区分纯腭打鼾(pure palatal)和钳底打鼾（tong base snoring）（n=35），但是不能用于识别多节段的打鼾（混合打鼾）。在[34]中采用2均值聚类方法对腭部和非腭部SnS进行区分，在他们的研究中，他们使用了统计偏度系数和峰度系数的组合，这些偏度系数是根据受试者（n=15）的打鼾声音计算出来的，并进行了睡眠鼻内窥镜评估（在麻醉条件下）。Ng等人连续报道了他们对SnS提取共振峰的研究，这些共振峰被认为携带着有关上呼吸道（UA）状态的重要信息。前三个共振峰频率分别为F1、F2和F3，分别与咽部收缩成都、舌头相对于其中性位置的推进成都和唇圆度有关。

然而，在[35]（n=40）或[36]（n=40）中，共振峰定位打鼾解剖学部位的能力并没有显示出来，而他们被证明是区分呼吸暂停性SnS与良性SnS的有效方法。此外，Ng等人利用迭代自适应逆滤波方法和高斯概率密度函数[41]对SnS的源流（source flow, SF）及其导数（SFD）进行了分析和建模。在该研究中（n=40）[41]，SF脉冲的形状在SnS之间是不同的，这可能与SnS激发源（ES）的动态生物力学特征（如柔顺性和弹性）有关。特别是腭部（如软腭振动的SnS）和咽鼾（如咽壁振动的SnS）可分为颤振理论和静态发散概念来解释。尽管如此，Ng等人在[41]中阐明，临床实验并不能保证SFD模型的准确性，因为SFD模型与生理事件的发生和发展有关系，例如打鼾时ES振动的闭合、开放和速度。出于共振峰表示UA结构，Qian等人和Wu等人分别用K均值聚类方法[44]和隐马尔可夫(HMM)[45]分析了从长时间SnS音频记录中提取的共振峰。他们的研究结果表明，从不同的SnS相关信号提取的共振峰的性质可能存在差异，这些特性可能反映了UA结构在夜间的变化，尽管没有准确的专家注释。同事，受试者的数量也极少（n=1）。除此之外，Qian等人发现共振峰也可以通过观察其轨迹[46]来作为检测UA变化的有效标记。Xu等人的研究(n=30)表明，在上层阻塞性呼吸暂停（软腭的自由边缘之上）之后的第一个打鼾省可能在下层比上层（软腭的自由边缘之上）有更多的能量成分。Peng等的研究[48]（n=74）指出，腭部SnS中的F0和F2比非腭部SnS中的F0和F2低。

心理声学特性结合其他声学特性，例如声压级（[dB], A-weighted），响度（sone）、锐度（acum）、粗糙度（cAsper）、波动强度（cVacil）和中心频率（Hz）（每个参数的平均值），已应用于SnS分析[49]。在本研究中，作者从药物诱导患者（n=41）的SnS中提取上述特征进行统计分析，发现阻塞性SnS的响度高于非阻塞性SnS（>25 sone）；腭SnS的粗糙度高于扁桃体和呼吸暂停后SnS（>150 cAsper），中心频率最低（<3000 Hz）；呼吸暂停后SnS的波动强度最大（>50 cVacil），而扁桃体SnS的锐度值最高（>1.6 acum）。

综上所述，上述研究主要是基于从SnS中提取的声学特征的统计分析，而不是使用ML方法自动定位打鼾部位。并对受试者人数进行了限制（不超过100人）。早期使用ML对不同的SnS数据进行分类的工作是由Qian等人完成的。研究其声学特征（如峰值因子（crest factor），功率比（power ratio），共振峰（formants）等），并采用简单的机器学习模型，即K近邻法（KNN）作为分类器。此外，特征选择阶段涉及[51],[52]，其中最终选择的特征在识别SnS时可能优于原始的较大维度特征。Qian等人发现，基于频率的特征（如频谱特征、Mel-频率倒谱系数（MFCCs）），或者子带能量比率（SERs）比基于幅度的特征（如峰值因子）表现得更好。然而，他们的研究是基于SnS数据，没有准确标注的受试者人数较少（分别为n=2，1，20)。在文献[55]中，小波特征首次被引入SnS分类的任务，这也是第一次提出了一种基于机器学习的方法，用于对四类SnS进行分类，这四类SnS分别由耳鼻喉专家注释，VOTE，即V（Velum）,O（Oropharyngeal lateral walls），T（Tongue），和E（Epiglottis）。Qian等声称，他们提出的小波特征优于其他经常使用的特征（例如，共振峰、功率波、MFCCs），通过实现最高未加权的平均召回（UAR, 这被认为比准确性是更适合不平衡数据）为71.2%，通过在24个主题中使用2折交叉验证。这个记录很快被Schmitt等提出的听觉词袋（BoAW）方法打破（UAR为79.5%），使用之前提到的相同的数据库。

Qian等在[58]中对特征和分类器关于识别VOTE SnS的比较进行了综合研究。在他们的研究中（n=40），有9种类型的特征：峰值因子，F0，共振峰、频谱特征（SFFs）、800Hz的功率比（$PR_{800}$）、SERs、MFCCs(0-12)，基于经验的模式分解[59]的特征（EMDF）和小波能量特征（WEF）。选择k-NN、线性判别分析、支持向量机、随机森林、前馈神经网络、极限学习器（ELM）以及基于核的极限学习器（KELM）。最后，建立在RF分类器上的ReliefF算法选择的整体特征的早期融合（直接拼接）在严格的主题独立情况下达到了最高的UAR（78.0%）。

上述发表的工作成果是令人鼓舞和充满希望的。然而，一个仍然没有解决：我们仍然缺乏一个标准的可公开访问的带注释的SnS数据库，这使得很难开发和比较相关的算法和方法来完成 SnS 分类任务。一个里程碑的工作是由Janott等人完成的，他引入了第一个准确注释和公开可访问的SnS数据库：慕尼黑-帕绍鼾声语料库（MPSSC）。MPSSC首次发布于2017年INTERSPEECH 计算机语言学挑战（ComParE）[69]，这极大地促进了近年来的相关研究（如图2）。在第四部分，我们将介绍和总结已发表的基于MPSSC的文献，其中包括传统的ML方法和目前的深度学习方法。

一方面，MPSSC使得SnS分类研究的工作在建立标准（受试者独立的数据划分）、界定任务（通过DISE进行V、O、T和E类型的划分）、基准基础研究（官方基线）等方面具有可持续性和可比性。另一方面，在MPSSC和相关的研究中还有一些挑战需要解决：

首先，参与的受试者数量可能足够（n=219），而可用的SnS音频实例数量相当低（只有828），这限制了通过更深入的模型学习鲁棒的高级表示的能力。
其次，在SnS分类中，基于深度学习的方法可以达到与传统机器学习方法相当甚至更好的性能，但是它们不能完全解释；
第三，上呼吸道（UA）不同区域产生不同的SnS的基本机制没有得到很好的模拟或解释。特别是，正如Hill等人指出的那样，打鼾部位在夜间可能会发生变化，这使得非侵入性的基于声音的方法来定位SnS更加复杂和困难。
第四，早期的研究[32]中，提出了一个问题，在诱导睡眠期间收集SnS可能不具有自然睡眠下产生的SnS相同的特征。然而，目前大多数的工作都是基于带有解剖学注释的SnS（如MPSSC），这意味着这些成果可能无法直接应用于自然智能家居设备的开发。
最后但不是结束，本研究（图2）需要更多的关注和努力。

图2. 近五年来关于机器学习的 SnS 分类的出版物数量(2020年1月正式发表的一篇论文计算为到2019年，因为其首次在线发布时间为2019年)。从2015年到2019年，文献搜索是基于 Google Scholar，IEEE Xplore，和 PubMed 的严格的人工选择处理，关键词包括鼾声，鼾声网站分类，机器学习和深度学习。

在本综述的后续部分，我们将系统地介绍存在的问题、方法和挑战。此外，我们将讨论目前的发现和局限性，并指出我们对未来工作的展望。

4. Methods

在本节中，我们将介绍应用于SnS分类的方法。ML技术包括传统方法和最先进的DL方法将被详细说明和描述。图3显示了SnS分类任务中传统的ML和基于DL的示例的总体示意图。
SnS分类任务中基于ML和DL的传统模式综述
图3. SnS分类任务中基于ML(上)和DL(下)的传统模式综述。在传统的ML模型中，通过人类专家领域知识从SnS音频信号中提取人类手工制作的特征(低层次描述符(LLD)或更高层次表示)。然后，分类器利用训练阶段获得的先验知识进行预测。在深度学习模式中(除了根据人类手工制作的特征训练的DNN模型)，深度学习模型无需任何人类专家领域知识就能自己学习特征。然后，分类器(或全连接层结合softmax层)根据训练后的DNN模型的输出进行最终预测。

A. Human Hand-crafted Low-Level Descriptors（人工提取的低级描述符）

在传统的机器学习范式中，特征是由具有特定领域知识(如医学)的人类专家设计的。由于语音与SnS具有相似的特性，早期的SnS分类研究倾向于将SnS数据作为语音进行处理。首先从基于帧的SnS信号中提取底层描述符(LLDs)。这些LLDs在SnS分析中可能具有特定的生理意义，可以被视为从被分析SnS的短时间帧中提取的原始表征。表II列出了已发表的SnS分类任务文献中使用的主要LLDs及其结果。

表2：已发表文献中用于SnS分类的人工低级描述符(LLDs)。LPC:线性预测编码。SFFs:频谱频率特征。SERs:子带能量比。EMDF:基于特征的经验分解。WTE:小波变换能量。WPTE:小波包变换能量。WEF:小波能量特征。GMM:高斯混合模型。RASTA-PLP:表征相对光谱感知线性预测。SCAT:深度离散谱。LBP:局部二进制模式。HOG:方向梯度的直方图

表3：在ComParE特征集中的人工制作的低级描述符（LLDs）。RASTA：相对谱变换；HNR：谐波噪声比；RMSE：均方根能量

表4：在eGeMAPS特征集中的人工制作的低级描述符（LLDs），RASTA：相对谱变换。HNR：谐波噪声比。RMSE：均方根能量

大多数研究的LLDs是典型的声学特征（例如MFCCs、F0、共振峰），而其他一些LLDs最初并不是为音频分析设计的（例如，WEF，局部二值模式（LBP），方向梯度直方图（HOG））。值得注意的是，SnS和语音有相似的特征，同时也具有一些属于生理信号的特性，这些人工提取的LLDs携带着有关打鼾位点的重要信息，并且可以在SnS的时间和频域内进行解释。在SnS分类任务中，我们研究了一个大尺度的声学特征集，即ComParE，和一个比较简化的特征集，即eGeMAPS(表2)。这两个特征集都可以通过我们的开源工具包openSMILE[95] [96]提取。

B. Higher Representations (高层表示)

上述LLDs可以直接用于动态机器学习模型（如HMMs[97]）和递归神经网络（RNNs[98]），而包含给定时间内LLDs统计信息的更高表示（独立于 SnS 音频片段长度）用于训练静态模型(如 SVMs [61]或 ELMs [65])。在本节中，我们将介绍在文献中研究的较高的表征，这些表征可以从LLDs中提取并用于SnS分类任务。

1）Statistical Functional (统计泛函)

统计泛函是根据音频信号给定周期的基于帧的LLDs计算出来的，其中包括算术平均值、标准差、极值(最小值、最大值)等等 。一些更高级的函数，例如，矩（moments），百分位数（percentiles），峰度（kurtosis），偏度(skewness)，斜率（slope）和 LLDs 的线性回归估计的偏差（bias），也可以应用到这个方法中。有关 openSMILE LLDs (即 ComParE 和 eGeMAPS)的详细信息，感兴趣的读者可参考[99]。Qian等人进一步研究和比较了[55] ，[58]中的9个泛函(最大值，最小值，平均值，范围，标准差，斜率和线性回归估计的偏差，偏度，峰度)。

2）Bag-of-Audio-Words（音频词袋）

音频词袋（BoAW）方法源于词袋（Bag-of-Words，BoW）方法，该方法已被证明在自然语言处理和计算机视觉中是有效的。在BoAW方法中，从SnS数据中提取的数值型LLDs或更高层次的衍生特征将首次进行向量化（VQ）步骤，该步骤使用一个从一定数量的训练数据中学习的模板LLDs编码本。为了生成这样的编码本，Schmitt等和他的后继者使用k-means++ clustering的初始化步骤，也就是相当于一个优化的LLDs的随机抽样，而不是传统的k-means clustering[106], [107]方法提高了计算速度，同事保证了类似的性能。

为了提高该方法的鲁棒性，我们考虑了欧氏距离最低的 $N_a$ （赋值数字）个单词（即LLDs），而不是将每个LLD仅分配给编码本中最相似的单词。最后，使用术语频率直方图（偏差为1的对数）作为通过BoAW方法从SnS提取的更高表示。BoAW方法是最早是由Schmitt等在[57]中引入到SnS分类任务中的。Qian等人基于小波特征的扩展了该研究，并且在[75]中将BoAW方法引入到SnS分类的多分辨率分析中。

3) GMM Supervectors

GMM超向量由GMM方法生成[108],[109]，并成功地应用于文本无关的说话人识别任务。本质上，GMM超向量是高斯混合分量的叠加平均向量[110]。在这种范式下，通用背景模型（UBM）首先由期望最大化（EM）算法从背景数据集（包括广泛的语料库）中训练[111]。然后可以通过最大后验概率（MAP）准则从适应UBM模型的模型中提取GMM超向量（通常是平均向量）。特别地，Nwe等人不仅提取了均值的一阶统计量（代表声学特性），还提取了协方差的二阶统计量（代表分布的轻装）。具体来说，在他们的研究中，使用Bhattacharyya距离来衡量两个GMM分布之间的差异，而不是广泛使用Kullback-Leibler（KL）散度。

4）Fisher Vectors

Fisher向量（FV）方法的目的是量化生成概率模型中参数的梯度[115]。实际上，对数似然的梯度描述了参数应该调整的方向，以便更好拟合数据（LLDs）。Kaya和Karpov在[82]中将FV方法引入SnS分类任务中。在他们的研究中，只适用K-component GMM的梯度作为Fisher向量。

C. Deep Learning（深度学习）

在过去的十年中，深度学习在语音识别、图像分类、目标检测当方面不断取得突破，成为机器学习领域非常热门和流行的课题。与经典的ML模型(浅层架构)相比，在输入的一系列非线性转换的帮助下，DL模型通常可以更稳健地学习，并从大数据量中生成更高层次的表示。具体而言，随着大数据的不断发展，深度学习模型可以促进生物医学和健康信息学领域的技术的发展。对于SnS分类任务，深度学习在一些研究中被证明是有效的，即使是在有限的数据规模。综上所述，在基于深度学习的SnS分类模型中，有两种典型的模式：

首先，在深层结构下适用人工提取的特征对模型进行训练（例如，一个具有更多隐含层的多层感知机模型（MLP）、堆叠的自动编码器或深层循环神经网络）;
第二，适用预先训练的深度卷积神经网络（CNN）模型从SnS数据（其谱图）中学习高级表示，或通过CNN加上RNN结构（端到端）从原始SnS数据（其音频）中学习高级表示。

在第一个模式中，仍然需要人工提取的特征，与传统机器学习模型相比，这限制了深度学习的强度。因此，我们将通过迁移学习（TL，下一小节）和端到端学习（e2e）来表明在SnS分类任务中的成功应用。此外，最近的一项研究适用生成式对抗网络（GAN）来解决SnS中的数据稀缺问题。

1) 迁移学习（Transfer Learning）

该方法在[128],[129]中首次引入SnS分类，作者适用TL范式从打鼾频谱图中提取深层频谱特征。通过利用预先训练的CNN（AlexNet[118]和VGG19[130])，从上述深度模型的全连接层的激活中提取谱图信息的高级表示。实验结果表明，这些CNN描述器在没有任何人类专家领域知识的情况下，能够在SnS分类中取得良好的性能。此外，为了减少学习到的深层频谱特征的冗余，Freitag等人将竞争性群体优化（CSO）算法[131]应用到基于包装器的范例[132]中，从而引入了一个特征选择阶段。

2）端到端学习（End-to-End Learning）

端到端模型是INTERSPEECH ComParE鼾声分类挑战中在基线工作中引入的[69]。正如Schuler等人指出的，e2e模型的一个吸引人的特点是可以从手头的数据中自动学习最优特征。换句话说，需要人类专家大量努力的特征工程工作（例如，打鼾的声学和医学知识）被排除在该范式之外。在基线e2e模型中[69]，使用卷积神经网络从SnS数据的原始时间表示中提取特征，并使用随后的循环神经网络（带有长短期记忆（LSTM）单元[133]）进行最终分类，这与首次成功应用于语音情感识别任务的模型相似[134]。

Wang等人在[135]中提出了一种双卷积层拓扑结构，该结构通过将两个独立的卷积层（频域轴上的核维度不同，但是时域轴上的核维度相同）的输出通过逐元素平均进行合并，随后，使用一个通道切片模型（而不是全连接层）和两个递归层（带有一个门控递归单元（GRU）——一个比LSTM更简单的结构）来实现分类能力。Schmitt和Schuller对SnS分类中不同的e2e拓扑进行了深入的研究[137]。他们的结果表明，卷积之后的池化步骤优于LSTM层。

3) 生成式对抗网络（Generative Adversarial Network）

Zhang等[123]是第一个将GANs[127]引入SnS分类任务的小组，该小组为解决几乎所有智能医疗主题中的数据稀缺（特别是带注释的数据）问题提供了一种解决方案。提出了一种半监督条件生成对抗网络（semi-supervised conditional generative adversarial networks, scGANs），该网络通过将随机噪声空间映射到原始数据分布，自动生成数据。在这样做的过程中，我们可以模拟无限数量的训练数据，而不需要由于生成过程而额外耗费人力的专家注释过程。

此外，通过整合半监督范式，scGANs只需要一个模型来合成不同的分类SnS数据。而且，在生成数据时，还使用了一个scGANs集合来克服生成数据时模型坍塌的问题。

5. Discussion

在本节中，我们将讨论当前研究中具有有趣科学意义的发现。同时，本文献综述所涵盖的工作也具有一定的局限性。因此，我们提出了一些可能的未来方向，有助于在这一主题吸引更多的工作。

A Current Findings（当前的发现）

一般来说，在传统的机器学习模型范式中，不同的机器学习模型之间的性能差距并不大，但特征确实很重要。正如[75]中所证明的，即使使用简单的分类器，如naive Bayes（NB），设计得非常好得特征也可以作为识别SnS的优秀表示。在特征中，基于频谱的描述器（例如，MFCCs）优于基于幅度的表示（如，峰值因子）。Qian等研究了帧大小和分析音频块的重叠长度对从SnS中提取LLDs的影响。

他们表示，WEF可能需要比其他特征集（16ms或32ms）更长的帧大小（64ms）。此外，更高的表示提取方法（参见IV-B节）对最终的性能至关重要。但是这两种方法（例如BoAW vs FV）之间的直接比较是缺失的。

对于深度学习范式，主要的限制是数据的大小，这限制了深度模型从SnS数据中学习鲁棒和泛化表示的能力。令人鼓舞的是，深度学习已经证明了可以在没有人类专家知识的情况下，可以从SnS中自动提取一些有效的高级表示。特别地，CNN层被发现在SnS分类的特征提取上优于RNN层[137]。事实上，在早期的研究中，直接使用CNN+LSTM架构并没有达到很好的性能。研究发现，当涉及到数据增强阶段时，基于RNN的模型时有效的；它们在开发集中的UAR为67.4%，在测试集中的性能下降了，UAR为54.4%。

但是他们对SnS文献的主要贡献可能是他们提出的scGANs，该方法在静态声学数据和顺序声学数据中都得到了成功验证，证明其性能优于其他常规数据增强方法（如合成少数过采样技术（SMOTE）[138]，和转换的方法[139]）

一个重要的发现是，多分辨率方法（例如，wavelets（小波））是非常有效的SnS分类方法。Qian等在[58],[71],[74],[75],[78]中广泛验证了他们的基于小波的SnS分类方法。这一发现也得到了文献[135]的支持。Wang等人发现使用CNN模型的不同核大小融合全局和局部频率信息可以促进从鼾声中提取深层表征。

图4.显示了近年来不同模型获得的UARs，其效果优于MPSSC基线。测试集上的当前最好结果（p<0.001, 单尾z-test，与基线相比）是由Demir在[88]中取得的。他们使用了通过图像处理方法从SnS的谱图中提取出的LLDs。然而，我们应该注意到，在他们的研究中，开发和测试集的性能之间有很大的差距（37.8% vs 72.6% of UAR）。我们可以在几乎所有基于MPSSC数据库的研究中发现这种现象。我们认为这可能是由于MPSSC具有不同的数据采集环境条件和不同分区间的声学特性分布。一个例外是Vesperini等人所作的工作[84]，他们的模型在开发和测试集上都有很出色的性能（67.1% vs 67.7% of UAR）。在他们提出的方法中，使用了一个精心设计的基于MLP的深度模型（具有专门调整的超参数），这可能需要经验丰富的人工智能专家的大量努力。

图4. 已发表的基于MPSSC数据集的模型在测试集上的实验结果，即UARs([%])。仅显示了比MPSSC基线（蓝色条）[69]效果更好的工作。这里的小波指的是WTE、WPTE和WEF的后期融合。[92]中的工作使用了与[69]中使用的稍微不同的ComParE特性集。

另一个需要注意的是，当使用比原始特征空间低得多的维数时，特征选择可能有助于提高或至少保持相当的性能。然而，这一步骤可能会显著增加整个范式的计算复杂度，并可能导致开发和测试集上不一致的特征选择结果。

B Limitations and Outlook（局限性和展望）

尽管现有的研究已经显示出令人鼓舞和充满希望的结果，但仍有一些方向需要深入研究。基于现有工作的局限性，我们对未来的展望作出如下简要总结:

1）Fundamental Studies（基础研究）

据我们了解，目前还没有一个全面和可靠的结论揭示SnS的声学特征与打鼾部位的解剖位置之间的关系。我们仍然缺乏对SnS的基本特性的了解，尤其是在区分打鼾位点方面。Pevernagie等对打鼾在声学方面进行了全面的综述[2]，但是主要关注的是OSA的诊断。同样，SnS的机制模型是建立在OSA检测的目标上，而不是鼾声部位的定位。因此，在今后的研究中应该更加重视基于大规模调差的SnS声学分析。这不仅可以丰富在声学和医学方面的专家知识，还可以帮助机器学习社区为打鼾位点定位的设计更高效和更健壮的特征。

在药物诱导的睡眠中收集到的SnS在多大程度上类似于自然睡眠，这是一个在医学界一直在讨论的问题。有迹象表明，正常睡眠的夜间，打鼾类型会发生变化，而且我们知道，在DISE中所观察到的打鼾类型和障碍机制在一定程度上随镇静深度的变化而变化。零一方面，可以认为不同类型的鼾声的实际声音应该保持非常相似的独立的睡眠类型，因为潜在的病例机制属性没有不同。使用足够精确的机器学习模型比较同一受试者在人工睡眠和自然睡眠中的打鼾可能有助于解决这个问题。同时，利用多通道压力测量结合DISE对人工睡眠和自然睡眠中SnS类型进行标注，可能有助于进一步解决这一问题。

最后，但同样重要的是，我们知道打鼾特性取决于人体测量参数[140]，但是对不同种族间SnS特性的差异知之甚少。MPSSC是根据三家德国医院的录音进行整理而成的，这些医院的病人主要来自中欧。利用来自世界不同地区的原始数据比较不同的SnS数据库的声学特性可能是未来打鼾研究的一个有趣的方面。

2) Explainable Models（可解释的模型）

可解释AI（又名为XAI）旨在通过使机器学习算法具有可解释性来提高基于人工智能系统的信任度和透明度。正如在[141]中强调的，了解一个关键决定背后的原因对疾病诊断非常重要。最近，生物医学工程界的学者们正在努力提高传统的机器学习模型和深度学习模型的可解释性。回顾SnS分类任务，现有的成功方法缺乏可解释性，这限制了人工智能在临床实践中的能力。

特别是与传统的机器学习模型相比，深度学习模型有其自身的黑盒特性，这使得一旦模型足够复杂，解释起来就非常困难。此外，在可解释性和准确性之间存在权衡[144]。目前的研究更多地关注特征的可解释性（传统的机器学习和深度学习方法），而不是模型本身。Adadi等系统地总结了XAI中使用的新兴技术。我们认为可视化技术是一种很有前途的方法，可以用来理解由深度学习模型从SnS中提取的高阶表示，该模型已经成功应用于声学场景分类领域[145]。

3）Fusion Strategies（融合策略）

根据Han等人的总结，主要的融合策略可以分为三大类，即：

特征层面的融合
决策层面的融合
模型层面的融合

在这些策略中，特征层面的融合（即早期融合）和决策层面的融合（即晚期融合）已经应用于SnS分类任务。模型层面的融合是指整合不同模式（例如声音、视频）的中间表示[147]。作者认为，在未来，其他非侵入/低侵入性模式（例如，音频、头皮脑电波图、呼吸、心率和血压）可以融合在一起，以更好地完成打鼾位点的定位。特别是随着可穿戴设备和分布式/边缘计算技术的快速发展，我们可以很容易地为SnS分类任务收集和获得更多有用的模式。在本综述中，我们主要关注了基于音频的方法。添加其他特性需要在早期和晚期的融合过程中执行。

对于早期融合，我们应该从以前的工作中了解到，当连接特征时，“更多”并不总是意味着“更好”。我们既需要考虑最终的预测性能，又要考虑特征空间的维数。因此，选择高效且鲁棒的特征或特征降维方法将是未来SnS分类任务的一个很好的方向。Qian等系统地评估了每个特征集对SnS分类的贡献，但他们的方法涉及到人类专家的工作。在未来的工作中，自动特征选择方法将会更有说服力。
对于晚期融合，找到有效的投票策略是成功实施的关键。在最近的一篇博士论文中[74]，比较了两种流行的投票策略，即多数投票（MV）和边际抽样投票（MSV）。前者基于一个机器学习模型的集成做出主要预测，后者基于达到最大边缘采样值（margin sampling value）（第一和第二最高后验概率的差值）的机器学习模型做出预测[148]。在该研究中，MV在多个ML模型的SnS分类后期融合中优于MSV。未来的工作中可以探索更广泛的后期融合策略，特别是评估训练的机器学习模型的置信水平。

4）Data Enrichment （数据富集）

我们需要面对和解决的一个几乎适用于所有医学AI应用的严峻挑战：数据匮乏。收集大量SnS相对容易，而标注工作成本高、耗时长，甚至不够准确。尤其对于SnS来说，其天然的不平衡特性[26]是不容忽视的。以VOTE-category为例，在MPSSC中属于V类和O类的SnS占84.5%，而T类和E类打鼾样本分别仅占4.7%和10.8%。

为了克服这一问题，Zhang等提出了基于scGANs的系统，该系统被证明比其他经典的数据增强方法更有效。在未来的工作中，还有一些最先进的方法，例如无监督学习[149]、半监督学习[150]、主动学习[151]、协同学习[152]等值得在SnS分类任务中进行探索。

5）Open Resources（开源）

可重复性对可持续研究至关重要。我们鼓励更多对SnS分类有相同兴趣的研究人员贡献开源资源（例如数据库，工具箱）。在MPSSC之前，没有重要的公共SnS数据库可用。我们还发布了我们的工具箱，例如openSMIE[95]、openXBOW[153]、auDeep[154]和End2You[155]，其中包括最新的传统机器学习算法和深度学习范式。

对自动定位 SnS 的算法和系统进行公平有效的比较将是非常有帮助的。具体来说，我们希望将自然睡眠中收集的 SnS 数据加入到这个研究领域，这将极大地促进在临床或家庭环境中的实际应用。

6. Conclusion

本文对利用音频数据对打鼾位点进行定位的研究进行了全面的回顾。尽管打鼾的机制是清楚的，但是对打鼾位点的定义却不尽相同。我们还比较了传统机器学习方法和最新的深度学习方法，并详细分析了如何使用它们，以及能够在多大程度上克服SnS局部化带来的挑战。

与人工智能在医疗领域的其他应用相比，SnS声学分析是一个较年轻的领域，这意味着我们对SnS声学特性的基础知识还不够。此外，可供公众查阅的数据库也极为有限，这就限制了有关的研究。

此外，可公开访问的数据库的可用性也非常有限，这限制了相关研究。深度学习方法是有前途的，但是要建立一个健壮的、可解释的 SnS 分析系统还有很长的路要走。

在讨论中，我们分享了最近的结论和观点。我们认为，将信号处理和机器学习方面的传统扎实知识与日益先进的深度学习方法相结合，可以利用人工智能的力量，最终通过一种基于音频的方法，为打鼾位点的无创定位提供一个健壮而准确的系统。

7. References

**1.**M. Lechner, C. E. Breeze, M. M. Ohayon and B. Kotecha, “Snoring and breathing pauses during sleep: Interview survey of a United Kingdom population sample reveals a significant increase in the rates of sleep apnoea and obesity over the last 20 years-data from the U.K. sleep survey”, Sleep Med. , vol. 54, pp. 250-256, 2019.

是否确定退出登录?

【PaperReading】Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review

Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review

机器学习能否辅助定位鼾声的激发?

Abstract

Abbreviations

1. Introduction

2. Definition of the Problem

A. Anatomy（解剖构造）

B. 鼾声分类（Classification of Snoring）

3. Background

4. Methods

A. Human Hand-crafted Low-Level Descriptors（人工提取的低级描述符）

B. Higher Representations (高层表示)

1）Statistical Functional (统计泛函)

2）Bag-of-Audio-Words（音频词袋）

3) GMM Supervectors

4）Fisher Vectors

C. Deep Learning（深度学习）

1) 迁移学习（Transfer Learning）

2）端到端学习（End-to-End Learning）

3) 生成式对抗网络（Generative Adversarial Network）

5. Discussion

A Current Findings（当前的发现）

B Limitations and Outlook（局限性和展望）

1）Fundamental Studies（基础研究）

2) Explainable Models（可解释的模型）

3）Fusion Strategies（融合策略）

4）Data Enrichment （数据富集）

5）Open Resources（开源）

6. Conclusion

7. References

全部评论 (0)

相关文章推荐

【PaperReading】Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review

【PaperReading】Navigating the pitfalls of applying machine learning in genomics.

Robot Learning: A Review of the StateoftheArt

2019 A Review of Machine Learning Applications in Fuzzing

【PaperReading】The permutation testing approach: a review

2020 A systematic review of fuzzing based on machine learning techniques

Counterfactual Explanations for Machine Learning: A Review

The Intersection of Effective Core and Machine Learning: A Game Changer

A Systematic Literature Review on Machine Learning for

机器学习综述论文笔记：Machine Learning: A Review of Learning Types