AsymMirai: 可解释的基于乳腺X线摄影的深度学习模型,用于1至5年乳腺癌风险预测| 文献速递
Title
题目
AsymMirai: 可解释性乳腺X光片基拙深度学习模型用于1至5年乳腺癌风险预估
AsymMirai: An interpretable breast X-ray imaging-based deep learning model aimed at predicting breast cancer risk over a period of 1 to 5 years.
Background
背景
Mirai, a top-tier deep learning-driven algorithm designed to predict short-term breast cancer risk, demonstrates outstanding performance compared to conventional clinical risk models. However, Mirai’s black-box nature poses risks of high dependence on the algorithm and potentially misleading results.
Mirai 系统代表了当前深度学习领域的最高水平,并旨在评估未来短时间内乳腺癌发生可能性。然而,在这种情况下,该系统作为一个‘黑箱’模型可能会导致对分析结果的高度依赖性,并增加误诊的可能性。
Method
方法
该回顾性研究涉及从January 2013至December 2020年期间,在EMory BrEast成像数据集中获得的患者的乳腺X光片。为了近似基于深度学习模型AsymMirrorAI预测的乳腺癌风险(范围为1至5年),另一个模型MirrorAI被构建出来,并包含一个可解释性模块:局部双侧差异(左右乳腺组织之间的局部差异)。两个模型的风险分数之间的皮尔逊相关系数被计算出来。在AsymMirrorAI的一致年均推理适用的患者中进行了亚组分析。通过使用受试者工作特征曲线下的面积(AUC)比较了两个模型的风险分数,并使用DeLong方法计算了95%置信区间。
这项回顾性研究基于从2013年1月至2020年12月在Emory Breast Imaging Dataset(EMBED)中收集获得的一系列乳腺X光检查图像数据进行分析。为了模拟Mirai在1至5年内的人口基底乳腺癌风险预测模型的效果并进一步探索其可解释性特性,在此基础上构建了一个新型深度学习模型AsymMirai。该模型通过局部双侧差异性模块实现了对两侧乳腺组织特征差异性的定量描述,并且该模块具有良好的可解释性功能。通过皮尔逊相关系数评估了两个模型的风险评分间的关联程度,并对保持一致推理能力的一组患者群体进行了亚组分析研究。运用受试者工作特征曲线下面积(AUC)指标对比比较了两个模型的风险评分表现,并通过DeLong非参数法估计其95%置信区间范围
Conclusion
结论
Bilateral dissimilarity localized for imaging purposes, serving as an imaging-based marker associated with breast cancer risk, estimates its predictive capabilities and was a critical component in Mirai's analytical framework.
局灶性双侧差异特征可作为乳腺癌风险评估的重要影像标志,并与之具有相似预测效能同时也是其诊断机制的核心依据
Results
结果
Screening mammograms (n = 210067) from 81824 patients (mean age, 59.4 years ± 11.4 [SD]) were included in the study. Deep learning–extracted bilateral dissimilarity produced similar risk scores to those of Mirai (1-year risk prediction, r = 0.6832; 4–5-year prediction, r = 0.6988) and achieved similar performance as Mirai. For AsymMirai, the 1-year breast cancer risk AUC was 0.79 (95% CI: 0.73, 0.85) (Mirai, 0.84; 95% CI: 0.79, 0.89; P = .002), and the 5-year risk AUC was 0.66 (95% CI: 0.63, 0.69) (Mirai, 0.71; 95% CI: 0.68, 0.74; P < .001). In a subgroup of 183 patients for whom AsymMirai repeatedly highlighted the same tissue over time, AsymMirai achieved a 3-year AUC of 0.92 (95% CI: 0.86, 0.97).
这项研究涵盖了来自81,824名患者的详细数据(平均年龄59.4岁±11.4 [标准差])以及210,067张乳腺X光片筛查样本。基于深度学习提取出的双侧差异性特征生成了与Mirai模型具有一致的风险评估结果(一年期相关系数r=0.6832;四到五年期相关系数r=0.6988),并且在性能指标上表现一致。对于Asym Mirai模型,在一年期乳腺癌风险评估中的AUC值为0.79(置信区间为[置信下限: 0.73, 置信上限: 0.85]),而五年期评估中的AUC值则为最低水平;相比之下,在针对183名患者的亚组分析中重复验证了该模型的优势,并发现其在三年期乳腺癌风险评估中的AUC值达到最高水平
Figure
图

_Figure 1: Exclusion flowchart for the validation cohort. The EMBrIdge breast imaging dataset (EMBED) validation period included 23,382 patients and 76,373 examinations spanning from 2013 to 2020. Examinations with abnormal data (42 patients, totaling 1,344 examinations), those lacking two-dimensional (2D) imaging (88 patients, totaling 2,271 examinations), those without all four screening views (5,810 patients, totaling 28,175 examinations), and diagnostic examinations (1,228 patients, totaling 5,595 examinations) were excluded. The final cohort comprised 16,314 patients with a total of 41,988 examinations. The figure illustrates these exclusions at its lower section. For follow-up evaluations over varying time frames—1-year (16,314 patients and 41,988 examinations), 5-year (5,419 patients and their corresponding number of examinations)—the adequate follow-up data are depicted in the figure's lower portion.
图 1展示了验证队列的排除流程图。研究采用了一个来自EMory BrEast影像数据集(EMBED)的验证分组样本。该分组包含了从2013年至2020年的共计23,382名患者以及76,373次影像检查。剔除了含有异常数据的检查(共42名患者对应1,344次检查)、未包含二维(2D)图像检查(88名患者对应2,271次检查)、未涵盖所有四个筛查切面(view)的情况(5,810名患者对应28,175次检查),以及未能完成诊断性检测(1,228名患者对应2,595次检查)。经过上述筛选后最终获得符合要求的研究样本为总计16,314名患者及41,988次影像学评估。结果显示了针对不同随访时间点的数据分析结果:即评估周期分别为第1年(涉及全部样本)、第2年(N=10,523名患者及N=28,895次检查)、第3年(N=8,408名患者及N=21,274次影像)、第4年(N=6,807名患者及N=15,414次检核)以及第5年观察期的数据表现。

_Figure 2: A comparative architecture diagram of AsymMirai (left) and Mirai (right). Both models incorporate the four screening views into identical convolutional neural network (CNN) layers, yet their reasoning processes diverge subsequently. AsymMirai exhibits a more streamlined design with fewer computational layers, instead focusing on computing discrepancies in latent features, as evidenced by heat maps in both craniocaudal (CC) and mediolateral oblique (MLO) asymmetry steps. To identify the most critical regions for prediction, AsymMirai determines the prediction window containing the highest feature differences for each view, which are highlighted by red boxes during the Get Prediction Window step. The average of these maximum differences across all windows is computed to generate a risk score. Mirai's architecture was originally described by Yala et al (13). AHL = additive hazard layer.
如图2所示,左侧为AsymMirai架构,右侧为Mirai架构。两种模型均将四个筛选视图输入至同一个卷积神经网络(CNN)层中,并在此层后进行各自的处理流程。AsymMirai设计具有计算复杂度较低的特点,并且主要通过计算各视图间的特征差异来实现系统功能。具体而言,在头面部上下不对称和前后不对称的关键步骤中,该方法通过热图形式展示了各视图间的特征差异分布。随后,在每个筛选视图中分别定位出包含最大特征差异的预测窗口,并利用红色框标记这些区域。最终通过取各窗口内最大特征差异的平均值作为风险评分依据。该系统由Yala团队等进行详细描述(13)。AHL = 加性风险层

Figure 3: AsymMirai model outputs. Input images are full-field screening mammograms. The two bilateral screening images are overlayed within the heat map, and the prediction window (red box) indicates the area with the highest dissimilarity. The heat map and prediction window are visualizations of AsymMirai’s model outputs, not post hoc saliency maps such as GradCAM. Analyzing these outputs provides a deeper understanding of the scores, in these cases distinguishing confounded reasoning from nonconfounded reasoning for patients with macro asymmetries. (A–C) Images in patients who developed cancer within 1–5 years. (A) In a 49-year-old White woman with unilateral breast augmentation who underwent annual screening, AsymMirai predicted high risk for developing cancer. Biopsy confirmed invasive ductal carcinoma in the right breast 5 years later. The prediction window was not affected by the unilateral implant. (B) In a 43-year-old African American woman with initial screening at 42 years old, AsymMirai predicted high risk of developing cancer. The prediction window corresponds to retroareolar asymmetry. Biopsy performed 4 years later confirmed invasive ductal carcinoma in the right breast. Intramammary lymph nodes were correctly ignored. (C) In a 50-year-old African American woman with regular screening and coarse heterogenous calcifications at the 12-o’clock position, AsymMirai predicted high risk for developing cancer. Biopsy confirmed bilateral invasive ductal carcinoma 20 months later, with the cancer in the left breast occurring in the 12-o’clock position. (D–F) Images in patients who did not develop cancer but had identifiably confounded risk predictions. (D) In a 60-year-old White woman with bilateral breast augmentation and regular screening mammograms, AsymMirai predicted moderate risk for developing cancer, confounded by artificial asymmetry caused by the exclusion of the implant from the right craniocaudal view. (E) In a 73-year-old White woman with regular screening mammograms and known dystrophic calcifications in the left breast, AsymMirai predicted high risk for developing cancer, confounded by poor positioning in the left mediolateral oblique view and possible distortion in the right mediolateral oblique view. (F) In a 65-year-old African American woman with bilateral benign microcalcifications, AsymMirai predicted moderate risk for developing cancer, confounded by the calcifications. Among the patients with no cancer, Mirai correctly identified the patient in D as having a low risk for developing cancer (20th percentile risk) but also misclassified patients in Eand F (84th and 95th percentiles, respectively). These examples were chosen without knowledge of Mirai’s risk scores. Unlike when reviewing the tissue in AsymMirai prediction window, there is no way to ex ante identify the cases where Mirai was confounded because it produces only a score. CC = craniocaudal, IDC = invasive ductal carcinoma, MLO = mediolateral oblique.
图3展示了AsymMirai模型的输出结果。用于全视场乳腺X光图像筛查的输入图像被提供给该系统进行分析。两组对比的检查图像被叠加在热图上,并通过预测窗口(以红色方框标注)标识出差异性最大的区域。值得注意的是, 热图和预测窗口并非如GradCAM等后验显著性图所展示的结果, 而是直接反映模型输出的关键特征.通过分析这些输出结果, 我们获得了对评分机制更为深入的理解.在此过程中, 我们成功地区分出了因宏观不对称导致的不同类别间的混淆推理能力以及非混淆推理能力之间的差异.具体而言, 本研究涵盖了以下几类病例:(A–C) 1–5年发展乳腺癌患者的典型特征;(D–F) 没有发生癌症但在镜检中存在明显混淆风险的病例.其中,(D)组案例表现为双侧乳房假体置入后的早期发现; (E)组病例则因左侧检查切面位置不佳而出现镜像不对称现象; (F)组病例则由于右侧切面可能存在扭曲特征而导致判断困难.值得指出的是, 尽管AsymMirai能够有效识别低风险患者(如(D)组中的20th百分位), 但其在(E)和(F)组患者的诊断准确性却有所下降(分别达到84th和95th百分位).这种现象表明, 在不知道模型风险评分的情况下进行选择可能会带来一定的挑战.值得注意的是, 尽管镜检时可以看到预测窗口中的组织特征, 但目前尚无法通过预先查看检测到的风险评分来识别出此类潜在的问题.

Figure 4: 预测AsymMirai位置一致性能力。(A)一位白人女性在三个不同时间点获得全场扫描钼酸根 mammograms. AsymMirai模型预估其发展癌症的概率为中等水平,在三次检查中位置一致性保持较高水平. 该患者于2020年被诊断为乳管内癌. 位置一致性根据附录S5定义. 一致性的计算方法是窗口滑动百分比, 滑动100%表示连续两年检查无重叠区域. 图中的红色方框表示AsymMirai在每次检查中的预测窗口. (B)患者分组随位置不一致程度增加时AsymMirai 3年风险ROC曲线下面积(AUC)的变化趋势. 横坐标是包含在当前小组中的患者人数. 模型性能最佳的是位置一致性最高的患者群体(图左侧区域),其表现由前一次检查预测窗口的位置移动量决定. 图中阴影区域表示95%置信区间范围. (C)随位置不一致程度增加时AsymMirai 3年风险AUC的变化趋势与B相同, 只是横坐标采用滑动窗口百分比表示位置一致性强度. 图中虚线垂直标注处代表滑动50%的位置变化量. (D)根据前一次检查预测窗口位置划分的各阈值下AsymMirai ROC曲线表现情况. 当前研究发现, 随着两次检查间位置一致性的提高, 即滑动量减少, 患者模型性能得到提升, 其表现为更高的AUC值. 图表右端列示了满足每个阈值条件的病患群体数量及其至少有一次3年有效检查的情况统计信息. 其中3年有效检查是指三年内连续进行三次阴性筛查或当年诊断出乳癌的可能性在三年内不超过3年.
图4:AsymMirai方法对乳腺癌筛查预测能力的研究。(A)选取一名白人女性患者,在三个时间段内拍摄了全视场乳腺X光照片。AsymMirai模型预测其乳腺癌风险处于中等高危阶段,并显示出较高的位置一致性特征,在三次检查中保持了高度的一致性。该患者于2020年确诊为导管内癌。(B)展示了AsymMirai 3年风险预测性能的受试者工作特征曲线(ROC),按照位置不一致性的高低将患者分为不同子组;x轴表示各子组中的患者数量;模型在位置一致性最高的子组表现最佳;预测窗口的位置偏移量作为评估指标。(C)与(B)相同展示ROC曲线;但x轴表示为窗口偏移百分比;虚线竖直线标注50%的位置偏移值。(D)根据设定的位置一致性阈值绘制的ROC曲线;采用前一次检查预测窗口位置偏移量作为评估标准;结果显示随着位置一致性的提高(即检查间定位精度提升),模型预测性能有所增强;具体表现为窗口偏移量减少。(E)图例部分展示了满足不同阈值条件的患者数量及各子组中至少有一个有效三年随访结果的数量统计;其中有效三年随访包括三年间无阳性结果的阴性筛查以及三年内首次发现癌症的情况;CC代表头尾方向( cranio-caudal),FPR代表假阳性率(false positive rate),MAX代表最大值计算结果;MLO代表 mediolateral oblique方向上的图像特征;TPR代表真阳性率(true positive rate)。

Figure 5展示了Mirai和Asym镜像AI在EMBRICKS乳腺癌筛查数据集上的性能对比。(A)Asym镜像AI在1至5年期间的乳腺癌风险预测的受试者Operating Characteristic(ROC)曲线及其对应的面积Under曲线(AUC)值,并附有95%置信区间。(B)Mirai在1至5年期间的乳腺癌风险预测ROC曲线及其对应的AUC值同样包含详细的置信区间信息。(C)密度图显示了两种模型在不同时间点风险预测的相关性。具体而言,在1年、3年及第5年的风险预测中Pearson相关系数分别为:对于1年风险而言为r=−−−−−−−−−;对于3年风险则为r=−−−−−−−;而对于第5年的风险则为r=−−−
图 5:通过性能对比分析 Mirai 和 AsymMirai 系统在 BIMED 数据集中对乳腺 X 射线图像的筛查效果进行了评估检查
该研究采用受试者在1–5年期间用于乳腺癌风险预测的ROC曲线及AUC值作为评估指标,并在括号中注明95%置信区间。
(B) Mirai用于1–5年乳腺癌风险预估中的ROC曲线及其AUC值(95%置信区间)。Asymptotic Mirai与标准Mirai的AUC置信区间每年间相互覆盖。
密度图展示了AsymMirai与Mirai在1年、3年及5年风险预测上的相关性。Pearson相关系数分别报告了置信区间:例如,在1年时间点上得到的系数值为0.6832(对应的95%置信区间范围是0.6780至0.6882),而在3年时间点上则为更高的值。需要注意的是,在分析中未提及的是由于其与3年及5年风险预测相同的原因,在分析中未提及的是由于其与3年及5年风险预测相同的原因,在分析中未提及的是由于其与3年及5年风险预测相同的原因,在分析中未提及的是由于其与3年及5年风险预测相同的原因,在分析中未提及的是由于其与
Table
表

Table 1: Summary Statistics of Participants Included in the Validation Dataset
Table 1: Summary Statistics of Participants Included in the Validation Dataset
表 1:验证数据集中纳入的患者的描述性统计

Table 2: AsymMirai and Mirai Subgroup Performance Analysis
表 2:AsymMirai 和 Mirai 子组性能分析
