人工智能增强的心电图推导的身体质量指数作为未来心脏代谢疾病预测指标| 文献-基于人工智能(AI base)医学影像研究与疾病诊断
Title
题目
The body mass index derived from AI-enhanced electrocardiography emerges as a significant predictor for future cardiometabolic diseases.
通过人工智能技术优化的心电图图像能够计算得出身体质量指数,并可作为评估未来心脏代谢疾病风险的重要指标
01
文献速递介绍
心电图(ECG)能够记录与肥胖相关的脏器变化情况。通过人工智能增强的心电图分析(AI-ECG),能够识别出亚临床病症的存在。为了提高诊断准确性, 我们训练了一个基于AI的ECG分析模型.该模型是由贝丝以色列女执事医疗中心(BIDMC)利用512,950份12导联心电图数据集开发而成, 并在英国生物银行(UKB)中进行了验证(n = 42,386).该模型在BIDMC队列中的皮尔逊相关系数(r)值为0.65, 在英国生物银行中的决定系数(R²)值为0.43.同样地, 在BIDMC队列中, AI-ECG预测的BMI与实际测量值的相关性较高;而在英国生物银行中这一关系则较为显著.
在两项研究队列中引入该指标后模型性能得到明显提升
表型分析显示delta-BMI与其相关的多个生理指标显著关联。通过代谢组学及蛋白质组学研究发现,delta-BMI与其相关的氨基酸种类及其功能特性呈现出显著差异。基于全基因组关联分析, delta-BMI显著影响多种心血管及代谢性状调控因子,包括但不限于SCN10A, SCN5A, EXOG及RXRG等
总体而言,我们开发了一种专业的AI-ECG-BMI系统,并成功引入了无创的心脏代谢危险程度评估指标delta-BMI
Method
方法
By the Beth Israel Deaconess Medical Center (BIDMC), the ethical review process and necessary approvals for their cohort have been supplied through the Beth Israel Deaconess Medical Center Committee on Clinical Investigations, with IRB protocol number 2023P000042. The UK Biobank holds ethical approval from the North West Multi-Centre Research Ethics Committee as an approved tissue bank facility, with application IDs 48666 and 47602.
贝丝以色列女执事医疗中心(BIDMC)实施了ethics review and approval processes, with the IRB protocol number #2023P000042 being utilized to facilitate this procedure. The British BioBank obtained approval from the North West Multi-Centre Research Ethics Committee as its research organization registry (application ID: 48666, 47602).
Results
结果
The Beth Israel Deaconess Medical Center (BIDMC) served as a derivation cohort for this AI-ECG BMI study. The dataset comprised of routine medical records from secondary care patients in Boston, USA, included a total of 512,950 ECGs with paired BMI data available. The BIDMC dataset was systematically partitioned into training (60%), validation (10%), and testing (30%) sets. Detailed methodology information can be found in the Methods section. Cohort participant demographics are detailed in Supplementary Table 1.
基于美国波士顿二级护理数据集的AI-ECG BMI推导过程中,默认使用了Beth Israel Deaconess Medical Center (BIDMC)收集的所有常规临床心电图记录。这些心电图共涉及来自总计114,415名研究对象的心电图记录,并且其中匹配BMI值的数据样本数量充足。研究者将BIDMC数据库按照60%用于训练模型、剩余20%中的约一半用于验证性能以及余下约三分之一用于保留测试阶段的方法进行了划分(详细内容见方法部分)。具体统计信息可在表1中找到
Figure
图

Fig. 1 illustrates the correlation between AI-ECG BMI predictions and measured BMI across two cohorts: BIDMC and UK Biobank. The scatter plots in panels (a) and (b) demonstrate these associations specifically within the 30% holdout group of BIDMC and all participants from UK Biobank, respectively. A black identity line is included to serve as a reference point, representing an ideal scenario where predicted values align perfectly with actual measurements. A red best-fit line highlights trends in data distribution._ The R² value derived from Pearson's correlation was 0.43 (r = 0.65) for the BIDMC cohort's holdout group and slightly lower at 0.39 (r = 0.62) for the UK Biobank participants._
图1展示了AI-ECG BMI预测与其在BIDMC及英国生物银行队列中的实际测量BMI值的关系。通过散点图(a)和(b),分别观察到在30%保留样本时的原始AI-ECG-BMI预测值与真实BMIs之间的联系。其中黑色基准线作为理想状态的标准参考线;而红色回归直线则代表最佳拟合趋势。具体而言,在BIDMC样本群中其相关系数r=0.65;而在英国生物银行队列中则为r=0.62

图2展示了按ΔBMI分层的未来心代谢相关疾病生存曲线。在BIDMC队列中按ΔBMI的三分位数分层绘制了Kaplan-Meier生存曲线。子图a-d分别展示了心血管代谢相关疾病、2型糖尿病、高血压以及脂质代谢紊乱的生存曲线。基于ΔBMI值将患者分为三个分位组(ΔBMI ≤ -3.74为下限组;-3.74至2.44为中限组;>2.44为上限组),从而揭示了不同结局的风险差异。每个ΔBMI分位组中的生存情况均进行了Log-rank检验分析,并报告了相应的p值以反映各亚组间生存差异的统计学意义
图2 | 基于δBMI值分为三个分位数区间的Kaplan-Meier生存曲线被用于以预测BIDMC队列中的未来心脏代谢相关问题。四个子图分别展示了心肌梗死、2型糖尿病、高血压以及脂质紊乱患者的KM生存曲线。将δBMI值分为三个区间:底部(≤ -3.74)、中间(-3.74至+2.44)以及顶部(> +2.44)。四个子图分别展示了心肌梗死、2型糖尿病、高血压以及脂质紊乱患者的KM生存曲线;每个KM曲线上方标注了对应的95%置信区间;各组别间的Log-rank检验p值均进行了统计分析,并发现各组别间均存在显著差异性

_Fig. 3 | 图3 | 在英国生物银行中按delta-BMI分层绘制未来心代谢相关结果的Kaplan–Meier生存曲线图。在英国生物银行队列中按delta-BMI tertiles分层绘制Kaplan–Meier生存曲线图:子图a–d分别展示了心代谢疾病、2型糖尿病、高血压和脂质疾病等各组的结果。基于delta-BMI值将患者划分为tertile组别(底端组≤−3.74、中间组−3.74至2.44、顶端组>2.44),从而从不同层次分析了各结果的风险差异性。各结果对应的log-rank检验p值被报告出来以体现不同delta-BMI tertile组别间生存率的统计学差异显著性。根据分析结果确定了delta-BMI的分界线为底端(≤−3.74)、中间(−3.74至2.44)和顶端(>2.44)。为了提高图表可读性,在y轴下限设定为0.90(如图中虚线所示)。
图3 | 根据英国生物银行队列中的delta-BMI三分位数将Kaplan-Meier生存曲线进行分类:子图a–d分别对应心脏代谢疾病、2型糖尿病、高血压及脂质紊乱四种情况下的生存分析。将患者按照delta-BMI值分为三个区间段(底部:δBMI ≤ -3.74;中间:-3.74至2.44;顶部:δBMI > 2.44),从而为每种疾病差异风险提供了深入分析依据。每个结果对应的Log-rank检验p值均进行了报道,并突显了不同δBMI区间段间的统计学差异显著性水平。为了提高图表可读性,在y轴下限设为0.90,并在此区间内采用虚线表示

Fig. 4 | 在BIDMC队列中的ΔBMI关联研究(PheWAS)。通过系统性分析关联研究探索潜在的生物机制(PheWAS)在BIDMC队列中的应用:a部分展示了一个曼哈顿图(Manhattan plot),该图显示了ΔBMI与疾病谱代码之间的单变量Logistic回归p值的负对数,在校正BMI测量值、性别、年龄以及年龄平方后进行比较。虚线横跨整个图形标识多重比较校正后的显著性阈值。经过Bonferroni校正后,在1408次比较中发现55项(占3.9%)达到了显著水平。这些结果可以通过附录中的交互式版本进行进一步验证。b部分展示了与ΔBMI显著相关的前20种疾病谱代码及其对应的比值比(OR),并附上了95%置信区间。ΔBMI相关的亚急性冠脉综合征(ASCVD)。
图4 | BIDMC队列中基于PheWAS的研究:探索delta-BMI的潜在生物学关联

_Fig. 5 | Δ-BMI基因与英国生物银行(UKBiobank)关联分析(PheWAS)。通过基因关联分析探索潜在生物学机制_Δ-BMI基因与英国生物银行(UKBiobank)展开关联分析(PheWAS),基于临床标志物进行研究。该曼哈顿图展示Δ-BMI与临床特征之间的相关性分布(调整后BMI、性别、年龄及年龄平方项的影响),其中虚线表示多变量校正显著性阈值。共对1,368个标记进行检验,在Bonferroni校正后显著性水平下有231项(占总标记数的约17%)达到显著水平;其中大部分来自影像参数、生理指标和生化指标。Interactive版本的图表可在在线补充中访问。
图5 | 英国生物银行中delta-BMI的全面关联分析(PheWAS)。利用英国生物银行收集的临床数据进行系统性关联分析(PheWAS),探索delta-BMI的潜在生物学机制:a PheWAS曼哈顿图结果显示,在单因素分析中,delta-BMI与常规临床标记的相关性具有显著差异(p值对数值取负),调整因素包括BMI测量值、性别、年龄及其平方项。虚线设定在 Bonferroni 校正后的多重比较阈值水平。经过多重比较校正后,在总共 1,368 次比较中有 231 项(约 16.9%)达到了统计学意义。这些显著发现主要集中在影像学参数、体能测试指标以及代谢标志物领域。b 图表详细列举了与 delta-BMI最相关的 20 个重要临床指标,并展示了它们各自的线性相关程度(皮尔逊相关系数)。SHBG 表示性激素结合球蛋白;PWA 表示脉搏波分析;BP 表示血压;BMD 表示骨密度;HDL 表示高密度脂蛋白
互动版图表可通过在线补充材料获取

_Fig. 6 | Metabolomic analysis of delta-BMI variability. Investigating the biological underpinnings of delta-BMI variability through UK Biobank NMR metabolomic data—a metabolome-wide association study (MWAS) Manhattan plot is presented, displaying negative log values of univariate correlations’ p-values between delta-BMI and NMR metabolite concentrations, adjusted for BMI, sex, age, and age squared. From 168 comparisons, 136 (80.1%) reached significance using Bonferroni correction. An interactive plot version is accessible in the Online Supplement. b Stability selection employing LASSO regression on significant MWAS metabolites was conducted across 1000 iterations with 80% subsampling to identify robust metabolite-delta-BMI associations. Adjustments were made for measured BMI, sex, age, and age squared. The black dashed line represents the calibrated selection proportion. c Multivariate linear regression analysis was performed on stably selected metabolites against delta-BMI, adjusting for measured BMI, sex, age, and age squared, to demonstrate each stably selected metabolite’s individual contribution to delta-BMI variations.]
图6 | 基于英国生物银行NMR代谢组学数据的delta-BMI变异性的代谢组学分析

Fig. 7 | 蛋白质组学分析用于探索delta-BMI变异的生物学基础. 利用英国生物 bank PPP 数据进行蛋白质组-wide 联合检验(pWAS),生成了一个曼哈顿图(Manhattan plot),该图显示了 delta-BMI 与蛋白质浓度之间的负对数相关性 p 值的分位点分布, 已经校正了测量 BMI、性别、年龄以及年龄平方等因素的影响. 在 2919 个蛋白质中, 其中有 100 个(约 3.4%)达到了Bonferroni 校正显著性水平阈值以上. 在线补充材料中提供了互动式版本的图形. b) 使用 LASSO 回归在显著的 pWAS 蛋白质中实施稳定性选择分析, 并进行了 1000 次迭代抽样(每次抽取80%样本),从而识别出与 delta-BMI 具有稳定关联性的蛋白质组.P值调整已考虑到测量 BMI、性别、年龄以及年龄平方等因素的影响;黑色虚线表示选定的比例阈值;c) 经过稳定性选择后再次进行多元线性回归分析, 并对 delta-BMI 进行校正(已考虑测量 BMI、性别、年龄以及年龄平方等因素的影响),以此展示稳定选择蛋白各自在 delta-BMI 变异中的独特贡献
图7 | ΔBMI相关蛋白组学分析

_Fig. 8 | Genome-wide association study (GWAS) of delta-BMI variability. Investigation of the underlying biological mechanisms contributing to delta-BMI variability using GWAS: GWAS Manhattan plots illustrating the genomic loci associated with delta-BMI. a highlights the nearest genes linked to single nucleotide polymorphisms (SNPs), with a red line indicating significant P values (<5×10−8). b presents a Manhattan plot generated by MAGMA, which maps input SNPs to 18,882 protein-coding genes. Significant P values are represented by a red line (<2.65×10−6). SCN10A: Sodium voltage-gated channel alpha subunit 10; CASC20: Cancer susceptibility gene 20; RXRG: Retinoid X receptor gamma; SCN5A: Sodium voltage-gated channel alpha subunit 5; EXOG: Exo/endonuclease G.
图8 | delta-BMI变异性的全基因组关联分析(GWAS)。通过全基因组关联分析(GWAS)深入探讨delta-BMI变异性的潜在生物学机制:GWAS曼哈顿图清晰地展示了与delta-BMI相关的潜在遗传位点。a部分重点标注了与单核苷酸多态性(SNP)密切相关的最近候选基因,并用红线标示出了全局显著性水平(P < 5 × 10⁻⁸)。b部分则展示了基于MAGMA基因测试构建的曼哈顿图,在此图表中将输入的所有SNP信息成功映射至18,882个编码型蛋白质基因;同样用红线标示出了全局显著性水平(P < 2.65 × 10⁻⁶)。其中SCN10A代表钠电压门控通道α亚基10号蛋白,在癌症发生中有重要调控作用;CASC20为癌症易感性关键标记位点20号蛋白;RXRG为视黄醇X受体γ亚基蛋白,在信号转导过程中发挥重要作用;SCN5A则对应钠电压门控通道α亚基5号蛋白;EXOG为外切/内切酶G型蛋白,在细胞代谢调控中扮演重要角色。

Fig. 9 | Explainable AI in ECG morphology. Explainable ECG morphology: AnXGBoost model was trained using variational autoencoder-derived latent factors toestimate the AI-ECG-derived BMI predictions. a Depicts a beeswarm plot of the 20most influential latent factors, ordered by their feature importance derived from theSHAP (SHapley Additive exPlanations) values. Each dot represents a SHAP valuefor a specific latent factor, providing insight into the significance of these latentfactors and the direction of their impact on the AI-ECG BMI predictions. Forexample, for latent factor 50, lower values of the latent factor (in blue) indicate apositive impact on the AI-ECG BMI estimation, resulting in higher BMI predictions,while higher feature values (in red) indicate a negative impact on the AI-ECG BMIestimation, resulting in lower BMI predictions. b Illustrates the latent traversals ofthe top 5 latent features and their impact on the ECG morphology. ECGmorphologies corresponding with high and low AI-ECG BMI predictions arerepresented in red and blue, respectively. Subplots c and d show correlation heatmaps between ECG parameters and the VAE-derived latent factors for the BIDMCand UK Biobank cohorts, respectively.
图9展示了可解释性人工智能在心电图形态中的应用。可解释的心电图形态分析:基于变分自编码器提取的潜在因素,训练了一个支持梯度提升树结构的机器学习模型(XGBoost),用于估计AI-ECG生成的身体质量指数(BMI)预测值。a部分展示了20个最具影响力的潜在因素蜂窝状图,默认按照SHAP值提供的特征重要性排序排列。每个点对应一个潜在因素的SHAP值,在此过程中体现了其重要性和对AI-ECG BMI预测方向的影响程度:例如,在潜在因素50的情况下,默认较低值(蓝色区域)会带来正相关影响从而提高BMI预测结果;而较高的特征值(红色区域)则会带来负相关影响从而降低BMI预测结果。b部分呈现了前5个主要潜在特征及其对心电图形态的具体影响情况,默认将高BMI预测结果与红色表示的心电图形态相对应;低BMI预测结果则以蓝色表示。c和d子图分别展示了来自BIDMC中心和英国生物银行队列中心的心电图参数与其VAE衍生出的潜在因素之间的相关性分布情况。
Table
表

Table 1 | 调整后的ΔBMI分位数与未来心代谢相关的结果
表1 | delta-BMI三分位数对未来心脏代谢结果的调整风险比
