用深度学习改进乳腺癌MRI诊断| 文献速递--AI辅助的放射影像疾病诊断
Title
题目
Improving breast cancer diagnostics with deep learning for MRI
用深度学习改进乳腺癌MRI诊断
01
文献速递介绍
乳腺磁共振成像(MRI)是一种高度敏感的乳腺癌检测手段,在报告中其敏感度超过80%。传统的应用仅限于高风险患者群体中。新的研究证据表明,在中等风险及一般风险女性中进行乳腺MRI筛查具有显著作用。诊断性MRI不仅有助于解决问题,在新近确诊的乳腺癌患者以及其他适应症方面也显示出其有效性。随着更多人接受乳腺MRI检查的趋势日益明显,在确保高特异性和阳性预测值(PPV)的同时减少不必要的活检及后续建议的工作量以提高护理质量的需求显得尤为重要。在针对中等风险及一般风险女性的筛查研究中,活检推荐的PPV范围为19.6%至35.7%。这意味着每一次恶性结果都需要伴随两次至四次良性结果的检查过程。因此开发新型测试工具以进一步提升乳腺MRI的效果并优化护理流程变得至关重要;同时还需要研发符合临床医生或患者的决策偏好(如在决定是否进行活检时)的具体工具
Abstract
摘要
动态增强磁共振成像(DCE-MRI)在乳腺癌检测方面表现出较高的敏感性;然而,在实际应用中可能会引发不必要的活检检查以及进一步的患者检查负担。为了提升乳腺癌诊断的整体准确性和实现个性化管理目标;我们开发并应用了一种基于深度学习(DL)系统的创新方法;该系统能够优化DCE-MRI检查的选择与管理流程。经过内部测试集的数据验证(n=3936次检查);我们的系统实现了显著的检测性能;受试者工作特征曲线下面积(AUROC)达到0.92(置信区间:95% CI 0.92-0.93)。在一项回顾性读片研究中;与经验丰富的乳腺放射科医师进行比较分析的结果显示;两组之间的统计差异并不显著(P=0.19);其中DL系统在预测准确性方面表现更为突出(ΔAUROC均值为+0.04)。通过整合放射科医师与DL系统的预测结果;我们发现医师的表现得到了显著提升【平均ΔAUPRC提高至+0.07
Method
方法
本研究旨在开发并评估一种基于深度学习(DL)的系统来预测乳腺癌在DCE-MRI中的发生概率。研究人员从纽约大学 Langone 医疗中心获取了包含21,537例DCE-MRI检查的数据集,并利用该数据集对系统进行了训练、验证和测试。此外,他们还使用了三个独立的国际数据集来进行模型的外部验证。该系统基于对3D ResNet-18模型的修改版本,在学习空间和时间特征方面采用了三维卷积技术。我们在训练过程中整合了迁移学习、多任务学习以及在训练阶段和测试阶段分别进行的数据增强技术(TTA)。为了提高系统的性能,在最终构建了一个由20个最准确模型组成的集成系统(来自更大的模型集合中不同超参数配置)。我们通过将放射学家和系统的预测结果平均来模拟"混合性能"。最后运用了DCA方法论展示了该系统能够准确识别低风险BI-RADS分类4号病变并有助于减少不必要的活检。”
本研究旨在构建并评估一个基于深度学习(DL)的方法来预测乳腺癌在DCE-MRI中的发生概率。
Results
结果
The deep learning (DL) system documented in this study (Fig. 1) learned from datasets comprising DCE-MRI pre- and postcontrast sequences. These sequences were acquired and stored as three-dimensional (3D) volumes. This method reflects clinical practice by having radiologists evaluate changes in contrast enhancement within breast tissue to identify suspicious areas. The DCE-MRI volumes are processed by the model to predict breast-level probabilities of malignancy (POM). Essentially, for each patient’s breasts, the system calculates a numerical value ranging from 0 to 1 representing this probability. The underlying neural network evaluates these inputs using 3D convolutions—mathematical operations that enable extraction of spatiotemporal features essential for analysis.
本研究中所描述的深度学习(DL)系统(图1)基于监督学习的方法进行训练,并为此类机器学习模型提供了大量经过标注的真实示例数据集。该系统接收的数据是基于对比增强前后进行DCE-MRI扫描得到的序列影像,并将这些输入数据组织为三维(3D)体积结构体。这种方法模拟了临床场景中放射科医生评估乳腺组织中对比增强变化以准确识别可疑病变的过程。在这一过程中,DCE-MRI体积数据被深度学习模型接收作为输入特征,并通过特定算法计算出每位患者每个乳腺区域恶性肿瘤发生的概率值POM值介于0到1之间)。在线评估系统将根据分析结果向医生提供相关建议信息并最终输出结果报告以便临床判断与决策参考
具体而言,在分析完所有特征后,在线评估系统将为每位患者的每个乳腺区域生成一个介于0到1之间的数值结果,这个数值反映了相应区域出现恶性肿瘤的概率大小
该系统的底层神经网络架构采用了三维卷积操作,这种数学运算使得模型能够有效地提取出空间和时间维度上的关键特征信息从而实现对医学图像数据的有效分析与解读
Figure
图

Fig. 1. Overview of the study. In this work, we trained and evaluated a DL system based on deep neural networks that predict the probability of breast cancer in DCE-MRI examinations. Data collection and processing: To build the system, we collected 21,537 DCE-MRI imaging exams, consisting of one precontrast and two postcontrast T1-weighted fat-saturated sequences. We also collected diagnosis information from breast pathology reports to generate ground truth labels. Auxiliary information on patient demographics, tumor histological data, and radiological features enabled extensive subgroup analysis. Internal and external datasets: The internal dataset was collected from the NYU Langone Health system and divided into training (n = 14,198), validation (n = 3403), and test (n = 3936) subsets. We applied additional filtering on the test subset of NYU dataset to reduce potential label noise. To evaluate our system on data that the model had not seen before, we acquired three external datasets from Duke University (United States; n = 922), JU (Poland; n = 394), and TCGA-BRCA (United States; n = 131). Standalone evaluation of DL model: Using the NYU Langone training data subset, we trained deep neural networks to predict the probability of malignancy in MRI examinations. Our model was validated using standard metrics area under the receiver operating characteristic curve (AUROC) and area under the precision-recall curve (AUPRC). The plot presents ROC curves for all datasets. Reader study: To compare the performance of DL system to experts, five readers and the DL system interpreted 100 random MRI examinations and provided their predictions of probability of breast cancer presence in MRI examinations. We also simulated combining DL and radiologists’ predictions by averaging them into a “hybrid” prediction. DL performance in subgroups: To confirm that our model works well in all subgroups, we performed an analysis of the model’s performance across various subsets (with respect to demographic data, imaging features, and histological features). The grid subplot presents DL model performance in each subgroup (columns) across four metrics (rows). Detailed results are presented in the “Subgroup analyses” section. Personalizing management: We simulated a scenario that assessed whether the model could correctly identify low-risk patients with BI-RADS 4 lesions who might avoid an unnecessary biopsy (that is, a biopsy yielding benign results). This simulation included 956 patients from the NYU dataset and used a decision curve analysis (DCA) methodology. AI, artificial intelligence; EHR, electronic health record; FPR, false positive rate; TPR, true positive rate.
图1. 研究概述

注意
图2展示了DL系统在全部内部测试数据与外部测试数据上的性能表现。(顶部区域)基于重复抽样的方法计算得到了一个置信度为95%的ROC曲线下面积。(中间区域)呈现出部分面积 Under the ROC Curve (pAUC),其中绿色线条代表了真阳率为90%至100%范围内的pAUC值,而蓝色线条则对应于真阳性率为该范围内的pAUC值。(底部区域)同样基于上述方法绘制了置信度为95%的Precision-Recall曲线

Fig. 3展示了系统在内部测试集中的关键亚组性能分析。每个亚组均采用四个指标进行评估:受试者 Operating Characteristic曲线下的面积(AUC ROC)、精度-召回率曲线下面积(AUC PR)、灵敏度以及特异性。右边的蓝色(恶性病变)和绿色(良性的)条形图表示了每个亚组的检查数量。所有亚组及指标的数据均以95%置信区间的形式呈现(通过2000次重采样计算得出)。为了计算灵敏度与特异性,在DL系统中设定一个决策阈值后发现,在BI-RADS 1及2类别中没有对应的MRI数据支持恶性诊断;因此,在这些子组中的AUC ROC值将无法计算得出。此外,请注意表S4提供了每个亚组的具体数值结果。
图3展示了内部测试集中关键子组的系统性能分析。每个子组均采用四个具体指标进行评估:受试者工作特征曲线下面积(AUC ROC)、精确-召回曲线下面积(AUC PR)、灵敏度以及特异性。右侧呈现的蓝色线条代表恶性病例的数量变化趋势(对应非恶性病例则为绿色线条)。所有子组及其各项指标的数据均基于95%置信区间计算得出(共进行了2000次重复抽样)。在计算模型灵敏度与特异性时,在保证两者平衡的基础上选取了合适的决策阈值。详细数据可在表S4中查看。需要注意的是,在BI-RADS分类1和2中无法获得相关MRI检查数据的情况下,默认将这三个类别合并处理以避免AUROC值无法计算的问题。文中提及的一些专业术语包括:HER2、DCIS、IDC、ILC以及IMC等术语的具体含义也已明确标注

The DCA support integrated with a DL system was employed to analyze diagnostic decision-making for low-risk BI-RADS 4 lesions. The standardized net benefit metrics demonstrated that employing the DL system’s predicted outcomes (red curve) yielded superior performance compared to traditional biopsy-all approaches (gray curve at x = 0) across varying decision thresholds. A biopsy-none strategy was also included as a reference point. The net benefit analysis incorporated 95% bootstrapped confidence intervals derived from 2,000 resamples. On the right-hand panel, the number of avoided interventions per 1,000 BI-RADS 4 patients (y-axis) peaked when the decision threshold exceeded a threshold value of 3%.
图4. 在低风险患者群体中运用DL系统对BI-RADS 4级病变进行诊断决策支持的结果如图所示。(左图)对于所有相关的决策阈值范围,在基于DL系统预测结果进行决策的情形下(以红色曲线标记),所获得的标准化净效益值均高于单纯进行全活检策略的情况(以x=0处的灰色曲线表示)。而未进行任何活检操作的情况则由黑色曲线展示。(右图)每1000名BI-RADS 4级病变患者中可避免的净干预数量随着决策门槛的变化而变化。研究发现,在设定决策门槛高于3%时能够实现最大的干预效果。
Table
表

_Table 1 presents a comprehensive breakdown of the NYU Langone dataset, encompassing demographic details and imaging characteristics. Values are expressed as n (%) unless otherwise noted. The BI-RADS risk categories, background parenchymal enhancement (BPE), and fibroglandular tissue distribution are documented according to the American College of Radiology BI-Rads Atlas (20). Breast-level diagnosis statistics are detailed in Table S7.
表1列出了NYU Langone数据集的细分, 涉及人口统计信息及影像特征. 如无特别说明, 数值采用n(%)表示. BI-RADS风险评估类别、背景实质增强(BPE)及纤维腺体组织的数量基于美国放射学会BI-RADS Atlas第五版报告(20)。乳腺层级诊断的数据在表S7中展示.

表2肿瘤组织学及分子癌症亚型分类。每位患者可能在多个影像学检查中发现多种发现。报告值为n(所有恶性病例的比例),按检查级别列出。HR,激素受体;ER,雌激素受体;PR,孕激素受体;HER₂,人角质形成细胞生长因子受体2.
表 2. 组织学分类与分子癌症亚型研究概述。每个个体与影像学检查可能产生多种发现结果。指标值 n 表示(占所有恶性病例的比例),并按检查层级记录。其中:
- HR 表示激素受体类别代表;
- ER 表示雌性荷尔蒙受体代表;
- PR 表示孕激素相关蛋白代表;
- HER-2αβγδεζηθλνξουτασσιοναλ 表示人类表皮生长因子受体 2.

The following table summarizes the key findings and performance metrics of the primary model. Findings are typically displayed using confidence intervals (95%) calculated through bootstrapping methods based on 2,000 replicates, unless otherwise stated.
表3主要展示了主要模型的关键性能指标。如有特别说明,默认采用95%置信区间(基于N = 2000次重复抽样方法计算得出)。
