阅读笔记14:A non-invasive artificial intelligence approach for the prediction of human blastocyst ploidy
题目:A non-invasive artificial intelligence approach for the prediction of human blastocyst ploidy: a retrospective model development and validation study
作者:Josue Barnes, Matthew Brendel, Vianne R Gao, Suraj Rajendran, Junbum Kim, Qianzi Li, Jonas E Malmsten, Jose T Sierra, Pantelis Zisimopoulos, Alexandros Sigaras, Pegah Khosravi, Marcos Meseguer, Qiansheng Zhan, Zev Rosenwaks, Olivier Elemento, Nikica Zaninovic, Iman Hajirasouliha
发表期刊:Lancet Digit Health
发表时间:January 2023
摘要
研究背景
体外受精领域面临的一个挑战是选择最具生存能力的胚胎进行移植。传统的形态学质量评估和形态动力学分析都存在观察者之间和观察者内的变异性。另一种方法,胚胎植入前的基因检测(PGT-A),也有其局限性,包括侵入性和成本。我们假设胚胎的染色体异常与正常性,其差异能够通过模型基于形态学、形态动力学和相关临床信息进行分类。
研究目标
本研究旨在开发一种非侵入性、自动化的胚胎评估方法STORK-A,使用人工智能预测胚胎的染色体状态。
研究内容
在这项回顾性研究中,我们采用了机器学习和深度学习方法,使用包含10,378个胚胎的数据集,这些数据集包含了在卵细胞浆内单精子注射后110小时捕获的静态图像、形态动力学参数、囊胚形态评估、母亲年龄和染色体状态。为了测试STORK-A的普适性,我们使用了独立和外部数据集Weill Cornell Medicine EmbryoScope+ (WCM-ES+; 美国纽约Weill Cornell Medicine生殖医学中心) 和 IVI Valencia (西班牙瓦伦西亚IVI Valencia, Health Research Institute la Fe)。
研究结果
STORK-A预测异常胚胎与正常胚胎的准确率为69.3%(95% CI 66.9–71.5;AUC 0.761;阳性预测值[PPV] 76.1%;阴性预测值[NPV] 62.1%),使用图像、母亲年龄、形态动力学和囊胚评分。第二个分类任务,预测复杂异常与正常和单一异常的准确率为74.0%(95% CI 71.7–76.1;AUC 0.760;PPV 54.9%;NPV 87.6%)。第三个分类任务,预测复杂异常与正常的准确率为77.6%(95% CI 75.0–80.0;AUC 0.847;PPV 76.7%;NPV 78.0%)。STORK-A在WCM-ES+数据集上的准确率为63.4%(AUC 0.702),在IVI Valencia数据集上的准确率为65.7%(AUC 0.715),显示出与STORK-A测试数据集的准确率67.8%(AUC 0.737)相似的普适性。
研究意义
作为一个概念验证,STORK-A展示了以非侵入性方式预测胚胎染色体状态的能力,并展示了作为传统胚胎选择方法的标准化补充及植入或推荐PGT-A的未来潜力。
引言
研究的背景强调了体外受精中选择优质胚胎的难题,指出了现有评估方法的局限,包括主观性强和成本高昂。研究目标是开发一个名为STORK-A的工具,利用人工智能以非侵入的方式对胚胎的染色体状态进行预测。研究内容涉及了使用一个大规模研究的背景强调了体外受精中选择优质胚胎的难题,指出了现有评估方法的局限,包括主观性强和成本高昂。研究目标是开发一个名为STORK-A的工具,利用人工智能以非侵入的方式对胚胎的染色体状态进行预测。研究内容涉及了使用一个大规模的胚胎数据集,包括静态图像、形态动力学参数、母亲年龄和囊胚评分,采用了机器学习和深度学习技术。
研究结果表明,STORK-A在预测胚胎染色体状态(即异常与正常)方面取得了一定的准确率,并且在不同的数据集上显示出了普适性。这表明STORK-A能够跨越不同的临床环境,仍保持一定的预测能力。
研究的意义在于,STORK-A为体外受精中的胚胎筛选提供了一种新的方法。它降低了评估的主观性和侵入性,有可能成为传统方法的有效补充,并可能减少PGT-A的需求,从而降低与此相关的成本和患者的负担。此外,这种方法的标准化潜力意味着不同的临床环境可以采用它来提高胚胎筛选和植入的成功率。
研究问题:
随着女性接近生育年龄的末期,异倍体胚胎(即显示染色体异常的胚胎)的发生率增加,这通常导致不孕、流产和出生缺陷等严重临床后果。因此,越来越多的夫妇选择使用辅助生殖技术来怀孕。在体外受精(IVF)领域,如何选择并转移最有可能产生健康儿童活产的单个最具活力的胚胎,成为主要挑战之一。
国内外研究现状:
目前,生育诊所采用的胚胎选择方法包括非侵入性和侵入性两种。非侵入性方法主要是基于第三天或第五天发育的特定时点,通过专家胚胎学家对胚胎形态进行评估来选择胚胎。时序显微镜技术作为一种改进的胚胎选择工具也逐渐流行。然而,这些方法存在耗时、主观性强和观察者间可变性等缺点。侵入性的PGT-A技术通过确保转移染色体正常的胚胎来提供无偏见的种植潜力,尤其对高龄产妇有益。但是,PGT-A也存在侵入性、道德伦理问题、成本高以及实验室和胚胎学家技术要求高等局限性。
目前研究的局限:
尽管PGT-A技术可以解决形态评估和动态形态分析方法中的变异性问题,但它的侵入性可能会降低胚胎的质量和活力。此外,这种方法成本高,操作复杂,对诊断实验室和胚胎学家的技术要求很高。当前,利用深度学习方法进行非侵入性的胚胎质量评估,虽然有望减少观察者差异,但在临床应用上仍面临数据集规模小、数据不平衡等问题。
本文的研究目标:
本文提出一种名为STORK-A的深度学习方法,使用由时序显微镜拍摄的图像和临床信息(例如,母亲年龄、动态形态参数和形态评估)来准确预测人类胚胎的倍数性。STORK-A的目的是在费用效益高、标准化和非侵入性的前提下,帮助临床医生选择和优先考虑进行PGT-A活检或植入的胚胎。
研究内容:
研究内容涉及开发和验证STORK-A模型,该模型整合了时序显微镜图像和关键的临床信息,以非侵入性、标准化和成本效益高的方式进行胚胎倍数性预测。研究还将评估该模型的预测准确性、敏感性和特异性,并与现有的胚胎评估方法进行比较,以确定其在辅助生殖技术中的实用性和优势。此外,研究还会探讨在不同的患者群体(如不同年龄段的患者)中使用STORK-A的潜在效果。
数据采集
在这项回顾性研究中,研究者采集了以下数据:
- 采集方法 :收集了人类囊胚的静态时间延迟图像(500 × 500像素),拍摄时间为卵母细胞注射(ICSI)后110小时。
- 建库手段 :图像和形态动态参数使用Weill Cornell Medicine Center of Reproductive Medicine的EmbryoScope时间延迟成像仪器捕获。
- 组学数据 :包括患者的年龄、囊胚评分、囊胚分数、从原核消退到囊胚形成开始的形态动态参数,以及PGT-A(胚胎植入前遗传学测试)结果。
- 样本分组 :10,378个人类囊胚,其中第五天3994个,第六天6384个,来自2012年至2017年间在纽约Weill Cornell Medicine Center of Reproductive Medicine的1385名患者。
- 每组样本量 :数据集中包括5953个异常囊胚和4425个正常囊胚。异常囊胚还可进一步分为单个异常囊胚(n=2944)和复杂异常囊胚(n=3009)。
生物信息学数据分析方法
- 统计方法 :使用了Lasso回归和逻辑回归来确定临床特征的重要性。
- 软件 :使用了Python(版本3.7)中的scikit-learn包(版本1.1.1)进行Lasso回归和逻辑回归分析。
- 技术 :使用五折交叉验证,Z分数标准化特征,使用中位数替代法处理缺失数据。
- 显著性阈值 :机器学习和深度学习模型的二分类阈值保持在50%。
机器学习或深度学习方法
- 深度学习 :使用基于ImageNet预训练的ResNet18架构的深度学习模型进行囊胚分数回归,训练了STORK-A模型进行胚胎染色体倍性状态的分类。
- 机器学习 :使用了XGBoost、k-NN、SVM和随机森林进行预测,使用了R语言中的caret包进行训练和测试。
方法选择的可能原因
- Lasso回归 :选择Lasso回归是因为它可以进行特征选择,减少数据维度,有助于改善模型的解释性。
- 逻辑回归 :逻辑回归是一种广泛使用的分类方法,能够给出特征对分类结果的贡献权重,有助于理解特征与结果的关系。
- 深度学习 :深度学习模型,尤其是预训练的CNN模型如ResNet18,因其在图像识别任务中的强大性能而被用于囊胚图像的分析。
- 机器学习 :机器学习模型如XGBoost和随机森林因为它们的高准确率和对非线性关系的模拟能力而被选用。
分析方法如何回答研究问题或检验假设
通过以上方法,研究者可以:
- 评估各个临床特征与染色体异常的关系 ,例如,使用Lasso回归和逻辑回归确定哪些特征与胚胎的染色体状态有显著关联。
- 预测囊胚的染色体倍性状态 ,利用机器学习和深度学习模型结合临床特征和图像数据进行分类,预测胚胎是正常还是异常。
- 标准化胚胎形态评估 ,通过训练深度学习模型对囊胚评分进行回归分析,减少人为评分的差异性。
- 验证模型的普适性 ,使用独立数据集(WCM-ES+和IVI Valencia)来测试模型在不同数据上的表现,确保模型不仅在原始数据集上有效。
通过这些方法,研究者能够构建和验证一个预测胚胎染色体倍性状态的模型,这将有助于提高胚胎植入前遗传学测试的准确性,并可能在临床上为患者和医生提供更多的信息,从而做出更好的生殖医疗决策。
结果部分解读
数据集和模型开发
- 数据集 : 使用了来自1385名患者的10,378个胚胎的数据,所有胚胎均进行了PGT-A检测。
- 特征 : 包括患者年龄(21-48岁,平均36.98岁,标准差4.62岁)、形态动态参数、形态评估和ICSI后110小时捕获的图像。病人群体主要是白人(非西班牙裔),也包括亚洲人(非西班牙裔)、黑人(非西班牙裔)和西班牙或拉丁裔。
Lasso回归与特征重要性
- Lasso回归 :通过引入稀疏性来提高模型预测的可解释性,发现年龄和囊胚分数是预测染色体倍性状态的两个最重要的特征。
- 逻辑回归 :对囊胚分数影响的更细粒度评估表明,与岭回归相比,使用年龄和囊胚分数的逻辑回归模型预测的准确性相似。
形态学特征的独立分析
- 形态学分析 :单独分析形态学特征时,囊胚外围细胞层(TE)的评分最能预测染色体倍性状态,其次是扩张评分和内细胞团(ICM)评分。
- 特征重要性 :研究发现囊胚外围细胞层(TE)的评分变化对模型性能有最大影响,这可能与用于测序的DNA来自囊胚外围细胞层有关。
机器学习和深度学习模型评估
- 机器学习模型 :SVM和XGBoost在三个分类任务中表现最好,而k-NN表现最差。例如,SVM在使用母亲年龄、形态动态参数和囊胚分数时,对于异常胚胎与正常胚胎的任务,准确率为70.5%。
- 深度学习模型(STORK-A) :基于修改后的ResNet18架构的CNN,用于从ICSI后110小时的胚胎静态图像中提取特征,并与临床特征结合以预测染色体倍性状态。仅使用图像时,准确率分别为59.2%、61.1%和64.0%。结合母亲年龄和形态学评估可以提高所有三个分类任务的模型准确性。
STORK-A模型在实际测试集的表现
- STORK-A对于异常胚胎与正常胚胎 :准确率为69.3%,对于复杂异常胚胎的预测准确率为77.1%,对于单个异常胚胎的预测准确率为57.0%。
- STORK-A对于复杂异常胚胎与正常胚胎加单个异常胚胎 :准确率为74.0%,能够识别89.8%的正常胚胎和66.7%的单个异常胚胎。
形态学评估的应用
形态学评估 :囊胚形态评估在机器学习和深度学习模型中对染色体倍性预测很有用,但受观察者变异和偏见的影响。
通过深度学习预测囊胚分数 :使用深度学习和回归方法预测囊胚分数,以克服观察者变异和偏差问题。预测模型报告了平均均方误差为16.3,与胚胎学家评定的囊胚分数之间的皮尔逊相关系数为0.65。
STORK-A模型的年龄层次分析
- 年龄层次分析 :进一步将预测结果按年龄分组进行后置分析,以确定模型预测染色体倍性状态的能力是否基于年龄有所不同。尤其关注36岁以下和39岁以上患者的胚胎。
- 年轻年龄组 :STORK-A在年轻年龄组 (<36岁) 中的表现能够足够识别正常胚胎,但在识别异常胚胎时存在问题,可能导致假阴性结果。
- 高龄年龄组 :在39岁以上的患者胚胎中,STORK-A的预测准确率为85.1%,具有很高的敏感性,有助于识别异常胚胎,减少假阴性预测。
最优预测阈值的确定
- 最优阈值的确定 :对于37-42岁的母亲年龄组的胚胎,进行了后置分析以评估最大化特异性和敏感性总和的最优阈值。
STORK-A预测结果与临床结果的对比
- 胎心率 :在242个经PGT-A鉴定为正常胚胎的转移胚胎中,STORK-A预测了166个胚胎为正常胚胎。在这166个被预测为正常的胚胎中,有93个(56%)有胎心出现,这与PGT-A建立的59%的胎心率相似。
- 活产率 :STORK-A预测为正常胚胎的活产率为48%,与PGT-A观察到的49%的率相似。这表明STORK-A可能对于预测将导致胎心和活产的胚胎是有效的。
STORK-A模型的泛化性能测试
独立外部测试集 :为了测试STORK-A模型的稳健性和泛化能力,研究者将模型在两个独立外部测试集上进行了评估。
* **WCM-ES+测试集** :包含使用EmbryoScope+捕获的图像、母亲年龄、形态动态参数、形态评估(囊胚评分和囊胚分数)的841个胚胎。
* **IVI Valencia测试集** :包含554个胚胎的图像,使用原始EmbryoScope捕获,且可用的临床信息包括母亲年龄和形态动态参数。
STORK-A在WCM-ES+和IVI Valencia测试集的表现 :使用图像、形态动态参数和母亲年龄的STORK-A模型在WCM-ES+和IVI Valencia测试集的准确率分别为63.4%(AUC 0.702)和65.7%(AUC 0.715),与主测试集的67.8%(AUC 0.737)相比,STORK-A显示出较好的泛化能力。
STORK-A的用户友好型网络应用开发
- 网络应用 :研究者开发了一个用户友好的基于网络的应用程序,用于STORK-A。
- 应用功能 :平台至少需要一个囊胚的图像。用户可以选择添加患者年龄、形态评估和从原核消退到囊胚形成开始的完整形态动态参数。
- 结果输出 :应用程序会提供三个分类器的概率结果。
总体来看,STORK-A模型利用了深度学习和机器学习技术,结合了患者年龄、形态动态参数、形态评估和胚胎图像等多个特征,为提高胚胎染色体倍性状态的预测准确性提供了一个创新的方法。该模型不仅在主要测试集中表现出色,而且在独立的外部测试集上也显示了良好的泛化能力。通过开发网络应用,使得STORK-A模型更易于在临床实践中使用,以帮助医生和患者做出更明智的生殖医疗决策。
讨论和结论部分解读
研究目标
本研究的主要目标是发展一种利用机器学习和深度学习方法,非侵入性地预测胚胎的染色体倍性状态(即是正常还是异常胚胎),以便更好地选择和优先考虑具有最高着床潜力的胚胎。
研究内容
在研究中,研究者调查了多种临床特征对于染色体倍性分类的重要性,特别是患者在卵子取出时的年龄和形态学特征。研究还涉及了形态动态参数在分类中的作用,以及丢失形态动态参数的中位数插补对结果的影响。
研究结果
- 年龄和形态学特征 :发现年龄和形态学特征对预测染色体倍性状态有重要作用。
- 形态动态参数 :形态动态参数在分类任务中的作用较小。
- 静态图像 :使用ICSI后110小时的胚胎静态图像对模型性能的提升不明显。
- STORK-A模型 :提出了一个基于深度学习的STORK-A模型,该模型结合了图像、母亲年龄、形态动态参数和形态学评估(如囊胚评分或囊胚分数),在三个不同的分类任务中显示出良好的性能。
开展的讨论
- 非侵入性预测 :目前的方法尚未能非侵入性地预测胚胎的染色体倍性状态。
- 数据集偏差 :使用的数据集可能存在偏差,因为未经PGT-A活检的胚胎没有被包括在内。
- 泛化性问题 :由于使用了时间延迟显微镜捕获的图像,可能会限制模型的普适性。
- 人为偏差 :形态动态注释和形态学评估可能引入了人为偏差。
研究局限
- 训练数据集的选择 :仅包括被胚胎学家选为PGT-A候选者的胚胎,可能影响了模型的预测能力。
- 图像来源限制 :使用时间延迟成像仪器捕获的图像可能限制了模型泛化到其他成像方式和诊所。
- 模型训练 :理想的人工智能模型不应训练使用非标准化和主观的观测数据,而应基于标准化和可复制的数据。
- 镶嵌体 :由于遗传实验室间镶嵌体报告的差异,使用这些结果作为真实标签可能限制了泛化性。
- 二分类限制 :STORK-A的二分类方案可能会错误地将具有高着床潜力的镶嵌体胚胎分类。
结论
- STORK-A的未来角色 :STORK-A在生育诊所中具有潜在的应用价值,但目前尚未准备好取代PGT-A或作为产前测试的衍生物。它旨在作为一个辅助决策工具,提供一个标准化、非侵入性和成本效益的选择和优先考虑高质量胚胎的方法。
- PGT-A的真实效益 :尽管PGT-A能够以高精度检测染色体异常,但当前的证据不足以支持其临床使用,因为它并未导致怀孕率或活产率的提高。
- STORK-A的优势 :STORK-A特别适用于在临床中区分复杂异常胚胎与正常胚胎加单个异常胚胎,高特异性能够帮助在活检或转移时优先考虑正常胚胎和单个异常胚胎,而不会错误地将大量复杂异常胚胎归类。
- STORK-A的未来开发 :STORK-A将继续发展,以提供一个在不同诊所之间一致的、无偏差的、标准化的胚胎选择和优先考虑的方法。
综上所述,STORK-A模型在预测胚胎的染色体倍性状态方面取得了显著的进步,尽管在数据集选择、成像方式普适性和人为偏差等方面存在局限。未来的研究可能会集中在如何克服这些局限,以及如何将这些技术更好地应用于临床实践中,以改善辅助生殖技术的结果。
