面向多分类自闭症辅助诊断的标记分布学习
基于标记分布学习的代价敏感的自闭症辅助诊断方法
本文提出了一种结合标记分布学习和代价敏感机制的多分类算法,用于辅助诊断自闭症。自闭症是一种复杂的精神疾病,其诊断方法的准确性对患者预后和干预具有重要意义。然而,现有的基于多分类的方法在处理自闭症数据时存在标记噪声和类别不平衡问题,影响了诊断的准确性。为此,本文提出了一种基于标记分布学习的代价敏感多分类算法(CSLDSVR),以解决这些问题。
引言
自闭症的发病率约为1:59,其临床表现复杂且多样化,包括社交障碍、语言障碍和行为谱系障碍等。传统的基于多分类的方法在诊断自闭症时,由于标记噪声和类别不平衡问题,难以达到较高的诊断精度。标记分布学习是一种有效的解决标记噪声问题的方法,它通过引入标记分布,更全面地描述样本的类别信息,从而提高分类性能。然而,现有标记分布学习方法未充分考虑类别不平衡问题,这在自闭症数据集中尤为突出,因为自闭症数据通常呈现高度类别不平衡,少数类(如亚斯伯格症)占少数,多数类(如自闭症谱系障碍)占多数。
本文提出了一种新的代价敏感标记分布支持向量回归算法(CSLDSVR),通过引入代价敏感机制,平衡多数类和少数类对目标函数的影响,从而有效解决类别不平衡问题。此外,本文还提出了基于FCI的自闭症功能连接数据集的获取方法,用于提取功能连接特征,为诊断提供支持。
方法
2.1 标记分布学习
标记分布学习是一种监督学习方法,旨在从样本标记数据中学习样本的标记分布信息。标记分布学习通过将样本的标记分布与目标分布进行匹配,生成样本的标记分布,从而提高分类性能。标记分布学习的核心思想是通过定义标记分布的损失函数,使学习的标记分布尽可能接近目标分布。
2.2 代价敏感机制
为了平衡类别不平衡问题,本文引入了代价敏感机制。代价敏感机制通过为少数类和多数类设定不同的误判成本,使得模型在分类过程中更关注少数类的分类错误。具体来说,代价敏感机制通过调整损失函数中的权重,使得模型在分类过程中更倾向于正确分类少数类样本,从而提高分类性能。
2.3 CSLDSVR算法
CSLDSVR算法基于支持向量回归(SVM)框架,结合标记分布学习和代价敏感机制。算法的主要步骤如下:
数据预处理:从rs-fMRI数据中提取功能连接特征,并构建功能连接矩阵。
标记分布学习:利用标记分布学习方法
摘要
自闭症谱性障碍(ASD)是由一系列复杂的神经发育障碍性疾病构成,这些疾病涉及多个与发育相关的临床表现。然而,目前广泛采用的自闭症辅助诊断方法多为二分类方法,难以满足临床实际需求。ASD数据中存在标记噪声问题,同时具有高维特征和数据分布不均衡的特点,这对传统分类方法提出了严峻挑战。为此,提出了一种新型的ASD辅助诊断方法,该方法通过引入标记分布学习(LDL)技术有效处理标记噪声问题,同时采用代价敏感学习机制解决样本不平衡问题。在实现标记分布学习方面,该方法创新性地将支持向量回归(SVR)技术与LDL相结合,通过将样本映射到特征空间,有效克服了高维特征带来的分类难度。最终,该方法实现了多分类ASD辅助诊断。实验结果表明,与现有方法相比,所提出方法在平衡多数类与少数类样本的分类性能方面具有显著优势,能够有效缓解ASD诊断中数据不平衡问题,展现出更好的分类性能稳定性。
自闭症谱性障碍(ASD)的辅助诊断手段; 代价敏感机制的设计; 标记分布学习方法; 支持向量回归技术
自闭症谱性障碍(Autism Spectrum Disorder, ASD)是一组复杂的神经发育障碍性疾病,其临床表现主要表现为社交交往障碍、语言交流障碍以及动作刻板和重复行为等[1,2]。数据显示,美国儿童自闭症患病率高达1:59。这表明这种疾病已成为一个严重的健康问题,亟需开发有效的诊断方法。然而,由于其生理机制尚不明确,医学诊断主要依据患者的症状和反馈、定性/定量检测信息以及医生的个人经验等,存在较大的不确定性[3]。因此,借助计算机辅助进行自闭症的诊断具有重要意义。
研究表明,自闭症谱系障碍与患者脑功能异常存在关联[4 ,5 ,6]。静息态功能性核磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)作为一种量化大脑神经活动的工具,已逐渐成为自闭症(ASD)等脑部疾病研究的重要手段之一[7 ,8 ,9]。基于此,研究者们开发了多种计算机辅助诊断算法[10 ,11 ,12 ,13 ,14 ,15]。例如,Chen等采用高阶功能性连接矩阵进行辅助诊断[13],Aggarwal等则提出了基于多元图学习的方法 [14],Heinsfeld等通过深度学习探索脑区间相关性,为辅助诊断提供了新思路 [15]。然而,这些方法仅适用于二分类任务 [16 ],而在临床实践中,自闭症谱系障碍涵盖了自闭症(autism)、亚斯伯格症候群(Asperger’s disorder)和无特异性的普遍发育障碍(pervasive developmental disorder not otherwise specified,PDD-NOS) [4 ,16]等多类疾病。目前,大多数自闭症辅助诊断模型仍局限于解决二分类问题,无法有效区分ASD与其他发育障碍相关疾病。此外,这些方法在处理带噪声标记时缺乏针对性处理。
标记噪声是多分类自闭症辅助诊断中的一个瓶颈,严重损害分类器性能[17]。标记噪声被定义为训练样本的目标标记与其真实实例之间的偏差。其产生主要原因包括:标注过程中的主观性,待标记样本的可辨识度较低,以及通信/编码过程中的相关问题。在自闭症诊断场景中,标记噪声普遍存在。由于诊断过程中的主观因素、诊断标准的不一致以及ASD子类界限的模糊性,这些特点导致了标记噪声的产生。
在ASD辅助诊断的多分类任务中,高维特征下的类别不平衡问题是一个重要挑战。神经影像特征成百上千,训练样本数量有限,这在构建分类器时容易导致过拟合。此外,用于构建ASD分类器的样本数据存在类别不平衡问题,导致预测结果偏向多数类(参考文献18)。
针对ASD辅助诊断问题,本文提出了一种基于标记分布的代价敏感支持向量回归学习方法。首先,多分类ASD辅助诊断面临的问题之一是标记噪声问题。而标记分布的独特性在于,通过不同标记对同一实例的描述程度,能够更有效地抵消标记噪声对分类器的影响,从而更精确地表征标记之间的相关性。这种特性使得学习过程蕴含了更为丰富的语义信息,有助于更清晰地区分各个标记之间的相对重要性差异,对ASD辅助诊断中的标记噪声问题具有较强的针对性[参考文献_19_ ,20]。同时,支持向量回归通过引入核方法,利用核函数的非线性映射特性,使得原始输入空间中的非线性问题得以转化为特征空间中的线性问题,从而提供更多可区分的特征信息。最后,为了解决类别不平衡问题,本文引入了代价敏感机制。通过考虑不同类别间误判成本的差异性,算法能够更好地适应实际应用需求,既合理对待少数类样本,又不失对多数类样本的公平性。
1****相关工作
1.1 标记分布学习
分布标记学习(label distribution learning, LDL)是一种新兴的机器学习方法,它基于单标记学习和多标记学习理论,提出了分布标记的概念。在多标记场景中,一个样本可能与多个标记相关联,这些标记对样本的重要性程度通常有所差异,而分布标记则用于描述不同标记对同一样本重要程度的标记形式。基于分布标记的学习方法,即标记分布学习,已经被广泛应用于多个领域。例如,Gao团队开发了一种结合卷积神经网络和分布标记学习的深度标记算法,用于通过人脸数据估计年龄;Zhou团队则提出了一种基于普鲁契克情感色轮(Plutchik’s wheel of emotions)的情感分布学习算法,能够从文本中自动识别用户情绪状态;Geng团队则开发了一种基于多变量分布标记的学习算法,用于实现头部姿势检测。目前在脑疾病辅助诊断领域的应用研究仍处于起步阶段。
1.2 标记增强
标记分布学习要求训练数据包含标记分布信息。然而,在现实生活中,人们通常采用单标记或多标记的方式对样本进行标记,这使得直接获取标记分布信息变得困难。尽管如此,这些数据的标签中仍蕴含着标记分布的相关信息。标记增强通过挖掘不同样本标记之间的相关性,强化样本的监督信息,从而在标记分布学习中取得了更好的效果。例如,Xu等提出了标记增强作为标记分布学习的辅助算法[26],用于从训练集中挖掘标记重要性信息,并将原始的逻辑标记转化为标记分布,从而辅助标记分布学习。Shao等则提出了标记增强多标记学习(label enhanced multi-label learning)的方法,旨在从逻辑标记中重建潜在的标记重要性信息,以改善标记分布学习的性能[27]。
2面向ASD****辅助诊断的代价敏感的标记分布学习
2.1 符号表示
本文主要的符号表示如下:用xi∈Rq表示第 i个样本,其中 q表示特征向量的维度,X=[x1,x2,⋯,xN]∈Rq×N; li=[li1,li2,⋯,liK]T表示 xi对应的逻辑标记, K表示可能的标记数, lij∈{0,1}。同样地,di=[di1,di2,⋯,diK]T∈RK表示第 i个样本的标记分布,其中 dij∈[0,1]表示第 i个样本的标记分布的第 j个值,满足 ∑j=1Kdij=1,D=[d1,d2,⋯,dN]∈RK×N。
2.2 方法流程
本研究开发的基于多分类自闭症辅助诊断的标记分布学习算法,其详细流程可通过图1进行查看。首先,我们对rs-fMRI图像进行了预处理,并在此基础上构建了功能连接矩阵。通过基于构建的功能连接矩阵,提取了每个样本的功能连接特征向量。同时,结合了逻辑标记数据和功能连接特征,通过标记增强技术,获得了样本的标记分布形式。最后,通过代价敏感的标记分布学习方法构建了多分类模型,从而实现了自闭症辅助诊断的自动化分析。
图1

图1代价敏感的标记分布支持向量回归的流程图
图1 成本敏感的标签分布支持向量回归流程图
2.3 标记分布自闭症辅助诊断数据集的获取
标记分布学习通过利用描述度表征每个标记与样本之间的相关程度,因此它能够从数据中提取比多重标记更加丰富的语义信息,并且能够更准确地表征同一个样本中多个标记之间的相对重要性差异。然而,标记分布学习的基本前提是要有一组标记分布的数据集,在现实中这一前提往往难以满足。可以通过标记增强方法将给定的多标签形式样本转换为标记分布形式数据。采用基于FCM(fuzzy C-means)和模糊运算的标记增强方法[26],其基本思路如下:
基于FCM算法将N个样本划分为p个模糊聚类,并计算各聚类中心位置,使得各训练样本到对应聚类中心的加权距离总和最小,如公式(1)所示。
mxik=1∑j=1pDist(xi,μk)Dist(xi,μj)1β-1
(1)
其中,mxik表示第i个样本对第k个聚类中心的隶属度,μk表示第k个聚类中心,β是一个大于1的模糊参数,Dist(,)表示距离测度方法。每个样本的隶属度即反映了样本与聚类体之间的关联程度。传统的FCM算法的聚类结果对初始值具有显著的敏感性,并不能保证收敛至全局最优解。但在标记增强过程中,FCM的聚类结果只是一个过渡性的桥梁,其聚类结果虽然存在一定波动性,但对增强后的标记结果的影响较小。经过多次标记增强,所得结果间的Chebyshev距离和KL散度(Kullback-Leibler divergence)的差距维持在10^-6以下。
(2)基于此,首先需要建立标记与聚类之间的对应关系矩阵 A。该矩阵的每个元素具体反映了标记与聚类之间的关联程度,而矩阵的计算方法则如式(2)所示。
Aj=Aj+mxik,iflij=1
(2)
在式中,Aj表示矩阵的第j行,即第j个类别对应的样本的隶属度向量之和。经过归一化处理后,关联矩阵A可以被视为一种同时进行聚类和标记的模糊关系矩阵。
基于模糊逻辑推理理论[28],通过将关联矩阵与隶属度进行模糊合成运算,从而得到样本对标记的隶属度,经过归一化处理后,即得到标记分布。
通过将FCM与模糊运算结合,引入聚类分析作为连接手段,实现样本对聚类的隶属度与聚类对标记的隶属度之间的复合运算,最终获得样本对标记的隶属度,即得到标记分布。在这一过程中,通过模糊聚类深入挖掘样本空间的拓扑结构,并利用关联矩阵将这种关系映射至标记空间中,从而将简单的逻辑标记转化为更为丰富的语义信息,最终呈现为标记分布。
2.4 代价敏感的标记分布支持向量回归学习
面向ASD辅助诊断的标记分布学习建模研究,需要重点关注的两个核心问题包括:首先,ASD数据样本在各类分布上存在显著差异。研究表明,这在有监督的机器学习任务中会对训练效果产生不利影响[29]。具体而言,这种分布不平衡不仅会影响模型在训练阶段的收敛速度,还会影响其在测试集上的泛化能力。因此,本文在基于标记分布支持向量回归的方法上引入了代价敏感机制,以平衡多数类与少数类对目标函数的影响。其次,ASD数据集通常涉及多分类场景,而用于标记分布学习的训练数据需要具备标记分布特性。为此,研究中引入了标记增强机制,将每个训练样本的单标记转化为多标记分布。这一过程在2.3节中进行了简要阐述。
假定样本 x对应的标记分布 d可以由样本在特征空间的投影线性表示:
d=g(z)=11+exp(−z)
(3)
其中,z=Wφ(x)+b代表特征空间中的划分超平面,其中φ(x)表示将输入x映射到特征空间RH的非线性投影,而W∈RK×H和b∈RK则为模型的参数。通过将z代入sigmoid函数,可以得到标记分布的估计值\hat{d}。然而,直接采用d与\hat{d}的欧氏距离作为损失函数,由于其不具备凸性,导致优化过程存在较大难度[30]。为此,我们进行了方法上的改进,将损失函数定义为d与\hat{d}对应的z和\hat{z}之间的欧氏距离(即d=g(z)),并引入了代价敏感机制,以平衡多数类与少数类对目标函数的影响力。基于此,代价敏感的标记分布支持向量回归(CSLDSVR)的目标函数可表示为:
Γ(W,b)=12∑j=1K||wj||2+C∑j=1K∑i=1NjLuiNj
(4)
L(ui)=0,ui<ε(ui-ε)2,ui≥ε
(5)
ui=||ei||=eiTei
(6)
ei=zi-zˆi=-ln1di-1-Wφxi+b
(7)
其中,wj代表W矩阵的第j行转置,L(ui)表示第i个样本对应的损失函数值,C为预设的权重系数,Nj为第j类样本的数量。基于此,通过设定阈值ε,形成了一个不敏感区域,即当损失值小于ε时,这部分损失可被忽略。为了使损失函数具备一定的稀疏性,采用带有不敏感区域的损失函数设计,从而提高了算法的计算效率。同时,这种设计能够有效抑制数据噪声的影响,增强算法的鲁棒性。然而,在设置过宽的阈值时,可能会导致关键信息的丢失,从而降低算法性能。为了在保持多数类样本影响的同时,赋予少数类样本更大的误判代价权重,引入1Nj项以达到平衡各类样本分类倾向的目的。
定理1 L(ui)是关于 、wj、bj的凸函数。
证明 证明式(5)是凸函数,即证明 L(ui)关于 、wj、bj的二阶导数恒大于等于0:
∂2L(ui)∂(wj)2=2φTxiφxiFwj,φxi
(8)
其中,F(w_j, \phi(x_i))涉及 w_j和\phi(x_i)两个变量。显然地,式(8)的值始终大于等于零,同样可以证明 L(u_i)对b_j非负,定理得证。
本文采用了迭代过程(iterative process)[31]对优化模型(4)进行优化。首先,本文对优化模型(4)的第二部分展开泰勒级数,取其线性项作为近似值,在第p次迭代期间,近似值如下:
Γ(W',b')≈12∑j=1K||wj||2+C∑j=1K1Nj∑i=1NjL(u'i)+dL(ui)duiu'i(e'i)Tu'i(ei-e'i)
(9)
其中,W'、b'分别代表第 p次迭代对应的权重参数和偏置参数。将这些参数值代入式(6)和式(7)中,从而计算出e'i和u'i。式(9)可进行二次近似(quadratic approximation)处理,即:
损失函数Γ(W',b')近似于12∑j=1K||wj||²加上C∑j=1K1/Nj∑i=1NjL(u'i)加上dL(ui)/duiu'i(u'i² - (u'i)²)u'i,其中u'i=12∑j=1K||wj||²+2∑j=1K1/Nj∑i=1Njaiui²+τai,当u'i<ε时,C(u'i-ε)u'i;当u'i≥ε时,C(u'i-ε)u'i。
(10)
其中,τ是一个与W、b无关的固定值。式(10)分别对wj和bj进行求导运算,并令其偏导数的值为零,可以得到公式。
12ΦTDaSΦ+14IΦTSaaTSΦ1TSaWTbT=-ΦTDaS⋅ln(1DT-1)-aTS⋅ln(1DT-1)
(11)
其中,Φ=[φ(x₁),φ(x₂),⋯,φ(x_N)]ᵀ,I为单位矩阵,1为全1列向量,a=[a₁,a₂,⋯,a_N]ᵀ,Da=diag(a₁,a₂,⋯,a_N),S=diag(s₁,s₂,⋯,s_N),其中s_i代表第i个样本的代价权重,本文将其定义为1/N_k,其中N_k为s_i所属类别所包含的样本数量。根据文献[32]可知,wj可以在样本的投影空间中通过训练样本的线性组合进行表示,即wj=Φᵀβ_j,WT=ΦᵀΒᵀ,其中Βᵀ=[β₁,β₂,⋯,β_K],将其代入式(11):
[12SK+14Da−1Da−1SaaTSK1TSK][BTbT]=[−S⋅ln(1DT−1)−aTS⋅ln(1DT−1)]
(12)
其中,Kij = k(xi, xj) = φᵀ(xi)φ(xj),其中Kij为矩阵K的第i行第j列元素,k(xi, xj)即核函数。在此基础上,将BT和bT代入式(3),预测函数得以更新为:
di=11+exp(-(BΦφ(xi)+b))
(13)
通过从样本的输入特征空间计算,可获得相应的标记分布。标记分布的结果表明,ASD及其子类在同一样本中具有重要程度,选择具有最大标记值的特征作为结果。
lˆij=0,dˆij<maxmaxdˆi1,dˆij=maxmaxdˆii=1,2,⋯,N;j=1,2,⋯,K
(14)
其中,dˆij、lˆij分别代表dij、lij的预测值,max(dˆi)是向量中的最大值。由此可得,我们建立了从原始输入特征空间到多分类结果的分类器。算法描述如下:
算法1 CSLDSVR
自闭症样本数据集 X,标记数据分布 D,权重参数 C,核函数类型选择,不敏感区域大小 ε,核函数带宽。
输出:预测模型 B、 b。
1. 初始化核矩阵 K,计算 S
2. 全零初始化 、B、b,计算对应的 、、、Dˆ、a、Da、Γ(W,b)
3. While不满足循环终止条件do
4. 根据式(12),更新 B,b
5. 根据式(13),更新 Dˆ
6. 根据式(4)~(7),更新 Γ(W,b)
7. 根据式(10),更新 、a、Da
8. end while
3****实验结果和分析
3.1 评估指标
本文综合运用标记分布评估指标与多分类任务评估指标,对算法性能进行评估。具体评估指标及其计算公式可参考 表 1 中的详细说明,其中前六种指标专门用于评估标记分布学习的效果,后两种指标则适用于多分类任务的性能评估。其中,指标名后带有“↑”符号表示数值越大,算法效果越好;而“↓”符号则表示数值越小,算法效果越好。
表1评估指标
Table 1 Evaluation measures
| 指标 | 公式 | ||||||
|---|---|---|---|---|---|---|---|
| 标记分布指标 | Chebyshev↓ | Dis1=maxj∈[1,K] | dij-dˆij | ||||
| KL↓ | Dis2=∑j=1Kdijlndijdˆij | ||||||
| Clark↓ | Dis3=∑j=1K(dij-dˆij)2(dij+dˆij)2 | ||||||
| Canberra↓ | Dis4=∑j=1K | dij-dˆij | dij | + | dˆij | ||
| Intersection↑ | Sim1=∑j=1Kmin(dij,dˆij) | ||||||
| Cosine↑ | Sim2=di⋅dˆi | di | ⋅ | dˆi | |||
| 多分类指标 | Precision↑ | P=1N∑i=1Nxnor(li,lˆi) | |||||
| mAP↑ | mAP=1K∑j=1KPj |
新窗口打开|下载** CSV**
在表1中,Pj即为第j类的Precision,xnor即为异或计算,Dis即为距离(Distance),Sim即为相似度(Similarity),mAP即为宏平均正确率(macro-averaging precision)。
3.2 数据集及预处理
本研究采用的所有rs-fMRI数据集均源自ABIDE平台(Autism Brain Imaging Data Exchange,http://fcon_1000.projects.nitrc.org/indi/abide/)。表2总结了各数据集各类样本的构成情况。以纽约大学(NYU)数据集为例,在数据采集过程中,受试者始终保持静息状态,未进行任何动作。具体参数如表2所示。
表2数据集的统计信息
Table 2 Statistics of datasets
| 数据集 | 样本数 | 正常 | 自闭症 | 亚斯伯格症候群 |
|---|---|---|---|---|
| NYU | 177 | 103 | 53 | 21 |
| UM | 144 | 76 | 57 | 11 |
| KKI | 48 | 31 | 8 | 9 |
| Leuven | 102 | 62 | 21 | 19 |
| UCLA | 81 | 53 | 16 | 12 |
新窗口打开|下载** CSV**
在表2中,UM对应密歇根大学,KKI对应肯尼迪克里格研究所,Leuven对应鲁汶大学,UCLA对应加利福尼亚大学洛杉矶分校。
尽管大脑各区域在空间上相互隔离,但它们在功能上相互作用。本文采用脑区间脑功能连接矩阵作为分类特征。功能连接矩阵的计算流程[13](即预处理步骤)如下:
基于静息态fMRI数据,通过DPARSF(数据辅助处理静息态fMRI)工具提取各脑区的时间序列信号,计算各脑区间的Pearson相关系数,获得功能连接矩阵。
各脑区的特征描述由功能连接矩阵的每一行代表,提取功能连接矩阵的上三角部分,将各部分按行串联起来,最终得到相应的特征向量。
3.3 对比算法
对比所提出的CSLDSVR方法、现有LDL算法集合以及两个多分类算法进行性能对比研究。这两个多分类算法分别对应决策树模型(decision tree model)[33]和 K最近邻分类器(K-nearest neighbor classifier, KNN)[34],它们均属于经典的多分类算法。在现有LDL算法集合中,包含以下六种代表性算法:PT-SVM[21]、PT-BAYES[21]、AA-K NN[21]、AA-BP(back propagation)[21]、SA-IIS(improved iterative scaling)[21]、LDSVR[30].对比结果的具体分析可参考 表 3。
表3对比算法
Table 3 Comparison algorithms
| 对比算法名称 | 对比算法说明 |
|---|---|
| PT-SVM[21] | 基于问题转化的SVM,利用改进的Platt后验概率得到二值向量机的概率,通过逐对耦合多类方法得到预测的标记分布 |
| PT-BAYES[21] | 基于问题转化的BAYES假设每个类都服从Gauss分布,由此计算后验概率作为预测的标记分布 |
| AA-K NN[21] | 基于算法改造的 K NN将 K 个近邻的标记的均值作为预测的标记分布 |
| AA-BP[21] | 基于算法改造的BP神经网络利用softmax激活输出,作为预测的标记分布 |
| SA-IIS[21] | 基于专用算法的IIS使用一种改进迭代尺度算法优化目标函数 |
| LDSVR[30] | 基于专用算法的LDSVR使用了支持向量回归改进目标函数,并用拟牛顿法优化 |
| Decision Tree[33] | 基于实例的归纳学习方法,能从给定的无序的训练样本中,提炼出树型的分类模型 |
| K NN[34] | 基于实例的分类方法,借由样本在特征空间中的 K 个最相邻的样本来为样本分类 |
新窗口打开|下载** CSV**
本文所设计的CSLDSVR算法包含4个关键参数,具体包括权重系数C、核函数类型、不敏感区大小ε以及高斯核的核带宽。这些参数的具体取值范围均体现在_表_ _4_中。为确保模型评估的客观性,采用十折交叉验证法进行模型评估。具体实施步骤如下:首先将待分析数据集均分为10个子集,随后在每一轮验证过程中,选取一个子集作为测试样本集,其余9个子集则作为训练样本集。依次进行10次验证循环,最终取10次验证结果的平均值作为模型性能评估指标。
表4参数范围
Table 4 Range of parameters
| 参数名 | 参数范围 |
|---|---|
| 权重系数 | 0.001,0.01,0.1,1,10,100,1 000 |
| 核函数的类型 | 线性核、多项式核、高斯核 |
| 不敏感区大小 | 0.000 1,0.001,0.01,0.1 |
| 高斯核的核带宽 | 0.01,0.1,1,10,100 |
新窗口打开|下载** CSV**
3.4 标记分布算法对比
表
表5 CSLDSVR和标记分布算法的性能比较
Table 5 Performance comparison of CSLDSVR and LDL algorithms
| 评估指标 | 算法 | NYU | UM | Leuven | UCLA | KKI |
|---|---|---|---|---|---|---|
| Chebyshev↓ | AA-BP | 0.223 7±0.035 6 | 0.218 4±0.045 8 | 0.248 0±0.044 6 | 0.250 6±0.053 5 | 0.254 7±0.052 9 |
| AA-K NN | 0.144 1±0.011 6 | 0.154 0±0.021 1 | 0.157 9±0.026 5 | 0.142 6±0.031 3 | 0.157 2±0.029 5 | |
| LDSVR | 0.150 1±0.024 3 | 0.140 0±0.012 8 | 0.162 9±0.034 4 | 0.169 4±0.053 4 | 0.160 2±0.057 0 | |
| SA-IIS | 0.147 8±0.011 8 | 0.153 5±0.023 7 | 0.174 8±0.021 4 | 0.145 8±0.032 9 | 0.162 7±0.049 5 | |
| PT-BAYES | 0.381 8±0.111 9 | 0.205 7±0.009 5 | 0.206 9±0.007 8 | 0.213 5±0.009 9 | 0.215 4±0.008 1 | |
| PT-SVM | 0.200 5±0.041 2 | 0.188 5±0.042 3 | 0.183 1±0.040 1 | 0.195 8±0.033 0 | 0.182 2±0.058 9 | |
| CSLDSVR | 0.141 3±0.016 2 | 0.135 2±0.023 6 | 0.140 2±0.024 4 | 0.138 6±0.038 4 | 0.126 7±0.034 9 | |
| Cosine↑ | AA-BP | 0.873 1±0.034 4 | 0.881 8±0.035 6 | 0.862 2±0.049 8 | 0.839 9±0.057 8 | 0.843 7±0.058 6 |
| AA-K NN | 0.935 4±0.009 6 | 0.928 6±0.017 3 | 0.927 4±0.020 8 | 0.929 7±0.022 4 | 0.913 0±0.024 4 | |
| LDSVR | 0.937 7±0.019 1 | 0.944 8±0.013 3 | 0.932 5±0.029 2 | 0.928 5±0.052 0 | 0.932 6±0.047 4 | |
| SA-IIS | 0.940 7±0.009 3 | 0.934 4±0.016 7 | 0.920 5±0.016 0 | 0.939 5±0.020 3 | 0.924 6±0.042 5 | |
| PT-BAYES | 0.798 5±0.071 3 | 0.915 6±0.006 2 | 0.915 1±0.005 3 | 0.910 4±0.006 9 | 0.909 2±0.005 7 | |
| PT-SVM | 0.898 7±0.038 5 | 0.904 3±0.042 8 | 0.914 5±0.030 9 | 0.897 4±0.036 5 | 0.906 8±0.045 8 | |
| CSLDSVR | 0.940 5±0.012 1 | 0.947 3±0.018 3 | 0.923 4±0.025 5 | 0.942 8±0.036 8 | 0.936 3±0.029 4 | |
| Clark↓ | AA-BP | 0.468 1±0.064 8 | 0.461 3±0.099 0 | 0.517 0±0.083 8 | 0.537 1±0.110 1 | 0.542 7±0.104 6 |
| AA-K NN | 0.263 1±0.020 3 | 0.282 2±0.036 7 | 0.287 3±0.047 3 | 0.261 3±0.053 5 | 0.283 2±0.053 9 | |
| LDSVR | 0.272 9±0.036 4 | 0.255 7±0.021 8 | 0.287 2±0.062 6 | 0.295 6±0.092 0 | 0.281 9±0.100 8 | |
| SA-IIS | 0.266 3±0.019 1 | 0.278 8±0.039 7 | 0.311 3±0.033 6 | 0.262 3±0.055 5 | 0.293 9±0.088 0 | |
| PT-BAYES | 0.893 6±0.359 8 | 0.352 0±0.014 5 | 0.352 3±0.012 7 | 0.363 6±0.016 2 | 0.366 3±0.013 3 | |
| PT-SVM | 0.358 0±0.070 2 | 0.348 1±0.075 8 | 0.325 3±0.065 5 | 0.350 5±0.056 1 | 0.328 7±0.098 1 | |
| CSLDSVR | 0.261 6±0.032 1 | 0.246 3±0.037 6 | 0.253 9±0.041 8 | 0.248 4±0.062 6 | 0.233 4±0.061 8 | |
| Canberra↓ | AA-BP | 0.717 6±0.102 8 | 0.710 4±0.152 9 | 0.810 8±0.125 6 | 0.811 8±0.169 0 | 0.831 9±0.160 2 |
| AA-K NN | 0.406 6±0.029 4 | 0.429 6±0.057 3 | 0.447 5±0.070 7 | 0.398 4±0.084 9 | 0.438 0±0.083 1 | |
| LDSVR | 0.432 1±0.064 3 | 0.399 8±0.039 2 | 0.469 9±0.097 7 | 0.493 5±0.129 8 | 0.464 0±0.159 8 | |
| SA-IIS | 0.426 8±0.034 2 | 0.438 4±0.067 8 | 0.502 2±0.060 1 | 0.422 4±0.093 5 | 0.469 6±0.127 4 | |
| PT-BAYES | 1.472 1±0.574 8 | 0.602 2±0.026 9 | 0.604 8±0.022 9 | 0.624 5±0.029 1 | 0.629 9±0.023 9 | |
| PT-SVM | 0.573 6±0.106 2 | 0.541 1±0.127 7 | 0.522 7±0.111 0 | 0.551 0±0.087 4 | 0.511 5±0.165 9 | |
| CSLDSVR | 0.386 3±0.047 1 | 0.387 5±0.061 7 | 0.393 8±0.069 5 | 0.402 3±0.109 2 | 0.354 4±0.093 9 | |
| Intersection↑ | AA-BP | 0.776 3±0.035 6 | 0.781 6±0.045 8 | 0.752 0±0.044 6 | 0.749 4±0.053 5 | 0.745 3±0.052 9 |
| AA-K NN | 0.855 9±0.011 6 | 0.846 0±0.021 1 | 0.842 1±0.026 5 | 0.857 4±0.031 3 | 0.842 8±0.029 5 | |
| LDSVR | 0.849 9±0.024 3 | 0.860 0±0.012 8 | 0.837 1±0.034 4 | 0.830 6±0.053 4 | 0.839 8±0.057 0 | |
| SA-IIS | 0.852 2±0.011 8 | 0.846 5±0.023 7 | 0.825 2±0.021 4 | 0.854 2±0.032 9 | 0.837 3±0.049 5 | |
| PT-BAYES | 0.618 2±0.111 9 | 0.794 3±0.009 5 | 0.793 1±0.007 8 | 0.786 5±0.009 9 | 0.784 6±0.008 1 | |
| PT-SVM | 0.799 5±0.041 2 | 0.811 5±0.042 3 | 0.816 9±0.040 1 | 0.804 2±0.033 0 | 0.817 8±0.058 9 | |
| CSLDSVR | 0.858 7±0.041 5 | 0.864 8±0.023 6 | 0.859 8±0.024 4 | 0.861 4±0.038 4 | 0.873 3±0.034 9 | |
| KL↑ | AA-BP | 0.166 7±0.042 9 | 0.161 2±0.051 7 | 0.192 0±0.069 3 | 0.222 2±0.089 8 | 0.227 9±0.076 4 |
| AA-K NN | 0.068 5±0.010 1 | 0.076 0±0.018 4 | 0.076 6±0.022 1 | 0.074 6±0.023 2 | 0.093 2±0.026 6 | |
| LDSVR | 0.066 5±0.019 9 | 0.059 3±0.014 6 | 0.070 3±0.032 3 | 0.074 9±0.062 5 | 0.071 1±0.049 8 | |
| SA-IIS | 0.063 9±0.009 3 | 0.069 8±0.017 8 | 0.083 7±0.016 6 | 0.063 9±0.021 0 | 0.080 0±0.044 1 | |
| PT-BAYES | 0.492 9±0.251 0 | 0.087 9±0.006 7 | 0.088 0±0.006 1 | 0.093 5±0.008 0 | 0.094 8±0.006 6 | |
| PT-SVM | 0.108 1±0.041 2 | 0.105 5±0.047 6 | 0.090 6±0.032 9 | 0.110 4±0.040 5 | 0.100 3±0.048 1 | |
| CSLDSVR | 0.060 3±0.041 5 | 0.056 7±0.019 5 | 0.069 9±0.024 0 | 0.060 1±0.046 1 | 0.068 2±0.030 1 |
新窗口打开|下载** CSV**
图2总结了CSLDSVR和标记分布算法在多分类任务中的性能指标,包括Precision和mAP。在最重要的两个指标上,CSLDSVR均表现出色。部分算法在分类精度方面表现优异,但在宏平均指标上效果欠佳,这主要由于这些算法未有效处理类别不平衡问题,导致模型在多数类别上占优。CSLDSVR采用了核方法,在更具区分能力的特征空间中解决了分类问题。此外,CSLDSVR综合考虑了各类别的样本数量,从而有效缓解了类别不平衡带来的挑战。
图2

图2 CSLDSVR和标记分布算法的分类效果对比
Fig.2 Performance comparison of CSLDSVR-based method and label distribution-based algorithms
为了评估代价敏感机制对系统性能的提升,本研究将本文提出的方法与传统LDSVR进行对比分析。如表5所示,在大多数情况下,本文提出的CSLDSVR算法展现出较好的学习效果。实验结果的标准差普遍保持在较低水平,表明算法稳定性得到显著提升。值得注意的是,传统LDSVR未采用代价敏感机制,其算法结果的标准差较高且波动明显,例如在UCLA和KKI的Canberra指标中,标准差均超过0.1。
3.5 多分类对比实验
表6展示了在5个数据集上的对比实验,比较了CSLDSVR算法与两个经典多分类算法决策树和K_ NN在Precision和mAP指标上的表现。其中加粗的数值代表在当前数据集上不同方法中表现最佳的指标。观察K_ NN方法的实验结果发现,其mAP值多次达到0.333 3,这与K_ NN方法过于偏向多数类有关。在自闭症神经影像数据的高维度不平衡场景下,传统的多分类算法往往面临维度灾难或偏向多数类的问题,而本文提出的CSLDSVR算法通过引入核技巧和代价敏感机制,成功解决了上述问题,获得了更好的分类模型。代价敏感机制通过提高少数类的分类错误成本,降低多数类的分类错误成本,从而实现了整体分类错误成本的降低,并使模型避免了对多数类的过度依赖。在实际应用中,本文引入了1Nj这一概念,旨在赋予不同类别误判的代价以区别对待。理论上,这一机制能够有效避免算法对多数类的偏向性,提升对少数类的预测精度【18
表6 CSLDSVR和多分类算法的性能比较
Table 6 Performance evaluation of CSLDSVR and multi-category classification algorithms
| 数据集 | Decision Tree | **K**NN | CSLDSVR | |||
|---|---|---|---|---|---|---|
| Precision | mAP | Precision | mAP | Precision | mAP | |
| NYU | 0.548 8±0.142 3 | 0.409 3±0.070 3 | 0.614 4±0.152 5 | 0.364 7±0.052 7 | 0.655 4±0.057 1 | 0.451 7±0.039 8 |
| UM | 0.576 7±0.132 5 | 0.385 9±0.087 2 | 0.528 5±0.121 4 | 0.374 0±0.086 1 | 0.701 4±0.070 8 | 0.497 1±0.125 0 |
| Leuven | 0.617 1±0.226 1 | 0.424 2±0.208 6 | 0.608 5±0 | 0.333 3±0 | 0.617 6±0.072 5 | 0.448 2±0.086 1 |
| UCLA | 0.605 2±0.183 3 | 0.442 0±0.208 6 | 0.654 3±0 | 0.333 3±0 | 0.665 2±0.150 4 | 0.443 4±0.165 9 |
| KKI | 0.559 8±0.256 7 | 0.395 4±0.294 1 | 0.646 5±0 | 0.333 3±0 | 0.687 5±0.123 7 | 0.447 6±0.101 6 |
新窗口打开|下载** CSV**
3.6 参数敏感性分析
本节探讨了参数变化对算法CSLDSVR性能的影响,图 3 显示了在五个不同的数据集上,参数C、ε取不同值时,评估指标Precision和KL散度的变化趋势。通过对比同一参数下不同评估指标的两张图,例如 图 3 (a)和 图 3 (c),可以观察到,同一数据集的曲线走势呈现出相反的趋势,其中Precision达到最大值的点往往对应KL散度的最小值。这与前文对KL散度的分析相互印证,说明在KL散度较小时,两者的标记分布更为接近,分类结果的准确性也相应提高。
图3

图3参数C、ε在5个数据集上的敏感度分析
Fig.3 Sensitivity analysis of parameters Cand ε on 5 datasets
研究发现,对于不同数据集,模型参数取值不同,这表明在自闭症诊断中,各数据中心的数据分布存在显著差异,因此需要采用相应调整的模型参数。进一步发现,样本数量较少的数据集对参数变化的敏感度较高,例如,KKI数据集仅包含48个样本时,参数变化对结果的影响最大。
由此可见,为使CSLDSVR算法有效运行,需根据数据集特性设定合适参数构建模型。当参数设置得当,CSLDSVR算法能够有效应对自闭症数据集的高维度和类别不平衡问题,实现更优的分类效果。
4****结论和展望
ASD患者在大脑功能特征上与正常人群存在显著差异[4 ,5 ,6],而rs-fMRI作为一种有效的脑功能成像技术,本文通过从rs-fMRI中提取的功能连接特征,提出了一种基于标记分布支持向量回归的代价敏感ASD辅助诊断方法。该方法通过引入标记分布学习机制,有效克服了基于多分类的传统方法在标记噪声处理上的不足。在标记分布支持向量回归方法的基础上,本文进一步引入了类别平衡机制,以平衡多数类与少数类对目标函数的影响。该机制能够有效平衡两类样本对分类器性能的贡献,从而解决ASD诊断中数据不平衡的问题。然而,该方法在分类过程中仍然存在偏向多数类的倾向,为解决这一不平衡问题,未来研究可以尝试优化数据采样策略或生成合成少数类样本来进一步提升模型性能,这方面的研究仍需进一步探索。此外,在损失函数的设计方面,可以考虑采用更为复杂的距离度量方式,例如欧氏距离等方法,以更精确地反映个体特征数值间的绝对差异。然而,引入基于相对距离的度量方式也有其必要性,但需要更多的先验知识来支撑。目前,研究中仍未充分利用这些先验信息,因此采用欧氏距离作为主要度量方式。未来研究可以进一步探索其他高级距离函数的优势,以提升诊断方法的性能。
