笔记2(基础实验介绍)-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation(论文)
基础实验:
在研究这些数据时,一个关键步骤是与神经科医生进行深入探讨脑电图定义的事件.具体而言,我们需要全面理解EEG其手动解析过程,并将其解析过程转化为算法描述.经过多轮深入探讨后,我们特别关注六种分类通道.
(1) 棘波和/或尖波(SPSW):癫痫患者典型的癫痫样瞬变。
(2)部分性癫痫样放电信号(Partial Epileptic Spike and Swell, PES)是一种在脑电图上表现为异常的现象,在单侧大脑半球呈现局限性和偏向性的特征,并以几乎固定的节律重新出现。
(3)广义周期性的癫痫样放电模式(GPED)包括两类:一类是基于不同发车间隔表现形式多为抑制性的临床状态的短间隔和长间隔弥漫性放电;另一类是具有弥漫性和双侧同步的尖峰特征、其中双侧占优且通常呈现1-2赫兹频率特性的三相波形也属于此类范畴
(4) 伪影(ARTF):记录的非脑源性电活动,如由设备或环境引起的。
(5) 眨眼:通常会被混淆为峰值的常见事件。
(6) 背景(BCKG):所有其他信号。
六路信号的分析:
这六路分类实验跟其他检测中风和癫痫的实验非常相似。
前三种类型涉及信息的承载。这是因为它们在人工解读脑电图的过程中具有特别重要的作用。这些类型的差异主要体现在发生频率以及传播途径上。
最后三个类别被用来优化背景模型的效果。
在时间序列数据建模中发挥重要作用的是各种类型的机器学习算法。
我们的方法将自动识别和标记这些时间序列中的正常与异常事件。
而非依赖于传统的启发式预处理手段来进行实时监控
伪影(噪声)和眨眼现象频繁出现,值得单独学习。
未被前五个类别准确识别的其他事件则会被整合至后台处理模块中。鉴于此,在构建高效系统的框架时,后端处理模块的重要性愈发凸显。
值得注意的是,在本研究中,模型性能的关键指标与前三个关键类别中的敏感度和特异性密切相关。其中这些特性对于神经科医生的理解和解释至关重要。
特征提取:
基于标准滤波器组和倒谱系数的方法对数据进行特征提取[6]。当前整体系统对于核心特征集的敏感度并不高,在频率范围内仅能有效模拟约0.5赫兹至25赫兹之间的光谱特性。通过分析采用8个滤波器组的数据信息,将其转换为包含8个倒谱系数以及能量在内的9维特征向量。这种特征表示方法随后采用了频域计算技术来进一步优化性能。
建模:
在提取特征之后,在每个类别中都训练了一个隐马尔科夫模型(HMM)。隐马尔科夫模型适合用于建模时间序列数据。通过使用期望最大化(EM)算法对这些模型进行了训练。图中概述了整个培训过程的主要步骤。通过主动学习方法引导系统从少量的数据逐步过渡到较大的数据集

数据准备:
数据准备是一项极具挑战性的任务, 包括涉及从医生报告中自动提取信息并将其归类到适当的类别中的过程。研究者早期应用了一种完全无监督的学习方法来训练其系统, 之后则要求专家手动标注少量样本以完成培训。
作者精心筛选了100个10秒的epoch样本,并从中选取了大量的SPSW类示例以及少量GPED和PLED类示例作为训练数据集进行建模训练。与此同时,在这些数据之外的剩余70个10秒 epoch中,则安排了人工补充标记的工作任务,并将其定义为评估基准的数据集
实验结果和分析:
作者这个实验处理是单通道的,也就是每个通道都是独立分析处理的。
但是通过如果跨通道地观察,可以很容易地识别出一些事件。
作者正致力于构建第二个机器学习模块。该模块将对各类渠道提出的假设进行系统分析、评估或验证,并显著减少误报频率。
在下表中,作者根据测试结果给出了基于HMM的系统的混淆矩阵:

根据表格数据可知,在SPSW、PLED以及GPED这三大类别的准确性普遍超过40%,但同时这些类别同时呈现出接近40%的误报率水平。值得庆幸的是在临床应用中我们并不需要精确识别每一个峰点点位只需能够检测到足够的峰点即可由经验丰富的神经学家快速判定点位是否存在异常迹象。特别需要注意关注的是由于误报现象的存在可能导致我们必须对更多的错误数据进行复查以确保诊断结果的准确性与可靠性
为了更深入地评估这些结果, 作者比较了系统与 Wulsin 等人所采用的深度信念网络的方法, Wulsin 等人采用了基于专用的小型临床脑电图数据库, 两名神经科医生手动转录了该数据库的数据。两项研究采用了非常相似的分类方法, 尽管对信号非尖峰部分建模的方法存在差异: 在他们的研究中, 使用的是 Fscore 指标, 即灵敏度、特异性等参数的调和平均值

Wulsin等人的深度信念网络的Fscore是0.476.而作者的模型Fscore是0.702。
下表显示了假警报和检测(正确识别)之间的权衡:

我们可以通过直接调整最可能类的似然值的临界值来改变这条曲线上的操作点。临床医师倾向于花费更多时间核查误诊数据,从而降低了他们的工作效率。
根据与坦普尔大学医院神经科医生的讨论,在三个关键事件类别中设定检出率为95%,虚报率为5%
令人鼓舞的是,三个主要事件类和三个背景事件类之间的混淆相对较小。
