Advertisement

人工智能 (AI) 应用:一个异常肺呼吸声辅助诊断系统

阅读量:

关键词:深度学习、肺癌、多标签、轻量级模型设计、异常肺音、音频分类

近年来,流感给人类带来的危害日益加剧。随着COVID-19疫情迅速蔓延,这一问题得到了进一步凸显。造成大量患者因呼吸系统异常而去世。在本次流行病爆发之前,呼吸系统疾病已经成为了社会主要死亡原因之一,并包括哮喘、慢性阻塞性肺病(COPD)、急性下呼吸道感染、肺癌和结核病在内的"五大"慢性呼吸系统疾病。其中COPD在全球20种致命疾病中位列第三位,在所有慢性呼吸系统疾病的死亡病例中占比高达81.7%

随着对肺部疾病的关注度不断攀升,许多肺部疾病早期阶段的诊断已成为医疗领域的重要议题。传统的评估呼吸健康的方法之一是通过听诊检查患者的呼吸音调,而医疗专业人士常用 listen-to- breath sounds这一手段来进行肺部疾病的早期筛查与诊断.其核心功能在于系统地观察并记录患者在特定时间段内的呼吸音变化情况

  • 呼吸困难的声音类型包括:
    • 罗音:一种短暂而剧烈的非音乐声。
    • 哗鸣:与哮喘及慢性阻塞性肺病等气道疾病相关的异常呼吸音。
    • 唰息:一种持续的气道声响。
      这些声音主要出现在有实质性肺部疾病的患者中。

这些不同种类的呼吸音对于诊断各种肺部及气道疾病具有十分重要的意义。采用听诊器听取肺音是一种传统检测手段,在评估呼吸道疾病方面常被选用,并且是专家们首选的技术。其优点主要体现在它是非侵入式的检查手段,并且能够作为辅助手段帮助识别多种呼吸道疾病。然而这种检测手段也存在一定的局限性如操作复杂度较高敏感度可能受到影响以及无法实时监测等缺陷

  • 主观性明显:不同医疗专业人士对呼吸音的解读结果存在差异,并受到其专业背景知识水平及感官能力的影响。即使是经验丰富的专业人员,在面对某些特定呼吸声响征时也可能得出不同的诊断结论。
  • 易混淆:多种异常呼吸声响征之间具有相似特征。例如:
    • 咰气声与声带障碍型呼气声均为持续性高频率哨音型式,在时域呈现规律性节拍特性。
    • 肺爆 Parenchymal Effusion 型呼气声与肺纤维化型呼气声均表现为短暂性非音乐性响动特征。
  • 效率问题:通过听诊器检查技术进行诊断操作时,医疗专业人员需投入大量时间和精力进行细致观察分析工作。
    尤其是缺乏经验的专业人员在紧急情况下往往难以迅速完成大量患者的数据采集与分析工作。
  • 影响因素分析:外部噪音干扰、患者体位变化以及个体呼吸状态等多方面因素都会对医疗专业人员判断呼吸声响征的能力产生一定影响。

1 方法

1.1 相关技术

1.1.1 可学习频谱前端模块

传统技术依赖于人工设计的特征转换手段。其中包含短时傅里叶变换(STFT)、梅尔频率倒谱系数(MFCC)以及常数Q变换(CQT)等多种方案。然而这些转换方案普遍具有固定的偏差因此在不同应用场景下难以实现最优效果

可自适应频谱前端模块利用滤波器提取特征,在应对多种任务时表现更为灵活,并且能够有效防止固定模式带来的偏差。

常见的可学习频谱前端模块包括:

  • 采用基于Mel尺度上的Mel滤波器组来进行滤波器的学习工作,在设计过程中将初始位置进行精确设置,并将其与其他关键网络组件协同优化。
  • 通过提取原始音频信号中的时域特征参数,在深度神经网络框架下完成对卷积核权重参数的学习过程。具体而言,在实验部分我们采用了SincNET和EfficientLeaf两种模型架构作为参考实例。
  • 针对时间频域分析的需求,在设计时采用Gabor变换方法对输入信号进行频谱分解,在此基础上结合预设的正弦信号模板以及高斯函数作为定位核函数来进行特征提取与表示构建工作。

1.1.2 深度学习架构

随着深度学习技术的不断发展,在呼吸音识别任务中已经得到了广泛应用,并且表现出了优异的效果。常见的深度学习架构主要包括:

卷积神经网络(CNN): 用于提取时频特征信息, 如ResNet、CNN6和MobileNetV2等。
循环神经网络(RNN): 用于处理序列数据信息, 如LSTM和GRU等。
注意力机制: 用于捕捉时频特征间的关联, 如Transformer和CSRA等。

预训练模型的应用能够缓解训练样本不足所带来的挑战,并进一步优化模型性能。轻量级架构的构建有助于减少整体计算复杂度的同时便于其在移动设备上的部署。

1.2 数据集

本研究基于ICBHI 2017年在国际生物医学健康信息学会议上标准化整理好的呼吸音数据库。ICBHI数据集包含了共计约5.5小时的6,898个呼吸周期,并正式划分为训练集(占60%)与测试集(占40%)。在训练集与测试集中患者的数据显示无重叠情况。每个呼吸周期被明确分类为以下四种类型:正常型、杂音型、呼吸困难型或杂音兼呼吸困难型。具体而言,在训练集中记录了79名患者共计539个呼吸周期样本:其中杂音型有1,215例、呼气困难型有501例、杂音兼呼气困难型有363例以及正常型有2,063例。类似地,在测试集中则收集了49名患者共计381个呼吸周期样本:其中杂音型有649例、呼气困难型有385例、杂音兼呼气困难型有143例以及正常型有1,579例。

链接:

https://github.com/Maheswara1/ICBHI-Respiratory-Challenge-2017-dataset.

1.3 实验流程

  • 数据收集与划分: 根据患者的属性, 将数据集合依据患者的属性将其划分为训练数据集、验证数据集以及测试数据集.
    • 特征提取: 采用可学习的频谱前处理模块, 或者直接通过转换音频信号的方式获取特征谱图.
    • 数据增强: 使用随机调整音频速度与音调等方式实施样本增强技术.
    • 模型设计: 基于轻量级模型架构设计并进行参数优化, 同时对分类器的架构进行微调以提升性能.
    • 多标签学习: 将原始分类标签转化为多标签表示, 并采用二分类交叉熵损失函数作为优化目标.
    • 多头注意力机制: 引入多头注意力机制至分类器模块中, 并通过该技术提升模型在时频域特征提取方面的性能.
    • 模型评估: 从准确率、特异性及灵敏度等多个指标全面评估模型性能表现.

1.4 数据预处理

对所有录音音频的采样率进行统一设置为16千赫兹,并确保后续的数据处理和模型训练能够顺利开展

1.4.2 时长统一:考虑到每个患者的呼吸周期时长不一,在模型训练过程中采用循环填充方法将所有呼吸周期的时长延长至8秒以上以确保模型输入数据的一致性

1.4.3 特征提取

可学习的频谱前端模块:通过可学习的频谱前端模块进行特征提取。
梅尔谱图:通过梅尔变换将音频信号转换为梅尔频谱图(Mel spectrogram),采用64个Mel滤波器( Mel filters)进行计算,并设置窗口大小为1024(window size)和步长为512(step size)。最低频率设置为50 Hz(lowest frequency),最高频率设定在2 000 Hz(maximum frequency),生成的结果尺寸为(64, 256)(result dimensions)。

1.4.4 数据增强

  • 调整速度与音调: 当采用可学习的频谱前端模块时, 我们会调整音频信号的速度与音调, 从而增加数据集的多样性。
  • 时间与频率掩码: 为梅尔谱图应用时间与频率掩码处理, 这样可以在一定程度上模拟真实环境中的噪声与干扰, 进而提升模型在实际应用场景下的鲁棒性。

1.4.5 标签转换:通过操作实现对类别标签的分拆为多个独立的标签结构,并举例说明如将'爆裂音&喘鸣音'处理为单独的'爆裂音'和'喘鸣音'两种形式。

1.5 Multi-breath模型

1.5.1 特征提取器

  • 可学习的频谱前端模块: 该模块具备可学习性,并基于EfficientLeaf设计实现滤波器的学习与优化过程;系统能够通过训练来优化滤波器参数,并有效提取音频特征。
    • 梅尔谱图: 通过梅尔变换生成梅尔谱图这一关键中间表示形式;该方法能够系统性地从时域信号出发,在频域中提取出信号的时间-频率表示信息。

1.5.2 多标签学习

  • 将分类标签转为多标签表示方式,在一个呼吸周期中可能同时归类于多个类别。
    • 采用二分类交叉熵损失函数进行模型训练,在每个独立的类别上分别计算对应的损失。

1.5.3 多头注意力机制

  • 类别特定注意力模块: 基于不同类别生成差异化的关注权重, 以突出显示与该类别相关的特征。
    • 全局平均池化(GAP)和全局最大池化(GMP): 对特征图进行全局平均池化和最大值池化处理, 提取完整的全局表征。
    • 多组独立的自注意层: 每组自注意层可配置独立的温度控制参数, 通过多头自注意结构捕捉多层次的特征关系。
    • 整合统一表征空间: 将类特异自注意模块与全局表征进行整合, 最终生成统一的表征空间表达。

1.5.4 分类器

使用Softmax函数对最终特征进行分类,得到每个类别的预测概率。

2 结论

2.1 不同模型的比较

上表格归纳了各模型在测试集上的性能对比情况,并列出了包括CNN14、ResNet22、CNN6和MobileNetV2在内的多个训练方案。结果显示,在这些方案中,CNN14表现出色且优势最为明显但其计算复杂度较高为了优化整体效能CNNTM实现了良好的参数与性能平衡在此研究中被选为主导模型

2.2 多标签学习方法的比较

该表格提供了不同模型下的多标签学习方法性能对比分析。结果显示,在CNN6模型上实现的最大性能提升为15%,表明多标签学习方法成功缓解了类别不平衡和数据多样性不足的问题,并显著提升了模型的整体性能水平。

2.3 多头注意力机制的比较

上表格展示了多头注意力机制在不同模型上的性能比较。

研究表明,多数模型在采用多头注意力机制后展现出性能提升效果的同时,在模型参数规模上也实现了缩减效果。对于MobileNetV2这一特定模型来说,在其特征维度较为有限的情况下应用多头注意力机制会导致其性能出现微降现象。

2.4 可学习频谱前端模块的比较

上表格展示了可学习频谱前端模块与本研究设计模型的性能比较。

研究表明,在将可学习频谱 frontend module 融合到 CNN14 模型中后,并未见显著提升效果。研究发现,在将可学习频谱 frontend module 融合至 CNN6 模型中后其性能与基于传统 Mel-frequency spectrogram 特征提取方法表现相当。这表明可学习频谱 frontend module 的有效性与其所处的模型复杂度密切相关因此应在具体应用中进行合理选择

2.5 与现有方法的比较

此表格详细地展示了Multi-breath模型与其他几种方法在性能上的对比分析,并涵盖基于Transformer的模型以及基于CNN的不同方法。

结果研究表明,在CNN6架构中Multi-breath模型展现出最佳性能,并且相比其他轻量化设计其效率更高。该研究证实,在ICBHI 2017数据集上Multi-breath方案实现了59.2%的得分,并比现有的轻量化方案更高

全部评论 (0)

还没有任何评论哟~