Advertisement

6.7.31 使用端到端训练的基于 EfficientNet 的卷积网络在双视图乳房 X 线摄影中进行乳腺癌诊断

阅读量:

最好的技术之一进行了两次迁移学习:第一种是使用在自然图像上训练的模型来创建“块分类器”,对子图像进行分类;第二种是使用块分类器扫描整个乳房 X 光检查并创建“单视图全图像分类器”。建议进行第三次迁移学习,以获得一个“双视图分类器”,以使用两个乳房 X 光检查视图:双侧头尾和内外斜向。

使用 EfficientNet 作为模型的基础。使用 CBIS-DDSM 数据集对整个系统进行“端到端”训练。为了确保统计稳健性,我们使用以下方法对系统进行了两次测试:(a) 5 倍交叉验证;(b) 数据集的原始训练/测试划分。使用 5 倍交叉验证达到了 0.9344 的 AUC(在 ROC 的等错误率点上,准确度、灵敏度和特异性为 85.13%)。使用原始数据集划分,技术实现了 0.8483 的 AUC。

1. 引言

乳房 X 线照片必须由经验丰富的放射科医生进行解读,以降低错误率。

在自然图像中,定义图像类别的目标占据了很大的区域。这不会发生在乳房 X 光检查上,其中癌症组织可能只占据很小的区域。因此,直接训练 CNN 或进行传统的迁移学习来对乳房 X 光检查进行分类通常效果不佳。

Shen 等人 [4] 提出了一个克服这一挑战的好主意,即进行两次迁移学习。 第一个 使用在 ImageNet [5] 自然图像上训练的模型来初始化“补丁分类器”,该分类器将小乳房 X 光片补丁分为五类:背景、良性钙化、恶性钙化、良性肿块和恶性肿块。第二个使用补丁分类器初始化“单视图全图像分类器” ,该分类器使用具有癌症状态的整个乳房 X 光片进行端到端训练。换句话说,首先构建补丁分类器,因为它比构建整个图像分类器更容易​​。 随后,补丁分类器扫描整个乳房 X 光片,生成描述乳房 X 光片每个区域存在不同类型病变的可能性的属性图。整个图像分类器使用这些图进行最终分类并进行端到端训练。

1.1 文章贡献

在本文中,提出了一些对 Shen 等人的方法的改进,以提高其性能:

  • 原始技术使用 ResNet [6] 和 VGG [7] 作为基础模型。用较新的 EfficientNet [8] 替换了它们。
  • 标准乳房 X 线摄影包括每个乳房的两个视图:双侧头尾 (CC) 和内外斜向 (MLO)。原始算法一次只处理一个视图,为了将两个视图考虑在内,它只是对独立处理的两个视图的分数取平均值。 除了原来的两个视图之外,我们的技术还执行了第三个迁移学习,以将两个视图考虑在内。 使用单视图分类器初始化“双视图分类器” ,然后使用具有癌症状态的双视图乳房 X 线摄影对整个系统(贴片、单视图和双视图分类器)进行端到端训练。

2. 文献综述

2.1 基于 CNN 的乳腺癌诊断

Kooi 等人 [12] 比较了使用最先进的经典方法、基于 CNN 的方法和放射科医生对乳房 X 线摄影 ROI 进行分类的结果。他们得出的结论是,CNN 的性能与放射科医生相当,并且优于经典方法。

Rodriguez 等人 [13] 使用来自美国和欧洲不同机构的 9 个数据集,将基于 CNN 的商业系统 (Transpara 1.4.0) 与 101 名放射科医生进行了比较。 AI 系统的 AUC 为 0.840,而放射科医生的平均 AUC 为 0.814。因此,AI 优于放射科医生的平均水平,但其表现不如最好的放射科医生。

Wu 等人 [16] 设计了一个四视图深度学习。使用 4 个视图预测癌症的 AUC 为 0.895,高于放射科医生的平均 AUC 0.778。 虽然 Wu 等人的工作和我们的工作都使用多视图对癌症进行分类,但存在根本差异。

2.2 公共乳房X光检查数据集

DDSM [17] 是最大的公共乳房 X 线照片数据集,包含 2,620 次检查,包含正常、良性和恶性病例以及经过验证的病理信息。 CBIS-DDSM [18] 是 DDSM 的更新和精选版本,经过组织以使其更易于使用。它包含 3,103 张乳房 X 线照片。表 1 总结了此数据集中的乳房 X 线照片数量。

InBreast 公开数据集仅包含 115 个病例,共 410 张图像 [19],规模太小,无法用于深度学习。

最近发布的公开数据集 CSAW-M [20] 未将病变分为正常/良性/恶性类别,因此无法用于我们的研究。其他近期公开数据集(如 KAU-BCMD [21] 或 VinDr-Mammo [22])缺乏经过验证的病理信息,在撰写本文时尚未完全可用。

2.3 比较 CAD 性能

当将 CBIS-DDSM 数据集随机划分为 5 个子集,并使用 4 个子集训练我们的双视图分类器并在剩余的集合上进行测试时,获得的 5 个 AUC 从 0.90 到 0.99 不等(4 个具有 TTA(数据增强) 的模型,见表 5)。因此,如果在随机划分中很幸运,双视图分类器将达到惊人的 0.99 AUC,如果我们运气不好,它只会达到 0.90。这两个值都不能反映我们系统的真实性能。因此,使用随机训练/测试划分获得的结果不可靠。

使用 CBIS-DDSM 的官方训练/测试划分,获得的 AUC 非常小。Shen 等人 [4] 使用随机训练/测试划分获得了 0.87 的 AUC,但是使用官方划分,他们的系统仅实现了 ∼ 0.75 [24] 的估计 AUC,或者在模拟他们的实验(单次运行)的测试中获得 0.7522±0.0105。 同样,Wei 等人 [9] 使用随机划分获得了 0.9182 的 AUC,但使用官方划分(单次运行)仅获得了 0.7964。

2.4 最近使用 CBIS-DDSM 的作品

工作基于 Shen 等人的 [4]。对 CBIS-DDSM 数据集进行随机划分 ,分别获得了 0.87、0.88 和 0.91 的 AUC(无 TTA 单模型、有 TTA 单模型和有 TTA 的四个模型的集成),正如我们之前所论证的,这些结果不可靠。 除了 Shen 等人,还有更多近期的工作使用 CBIS-DDSM 来训练和测试卷积模型。

Shu 等人 [25] 提出了两种新的池化技术 ,并用它们代替了传统的平均池化或最大池化层。方法获得的最大 AUC 为 0.838。使用 85/15% 的图像进行训练/测试,而原始数据集被分为 80% / 20%。

Wei 等人 [9] 提出使用神经网络变形代替传统的迁移学习 。报告称,使用原始训练/测试划分,单模型(无 TTA)、单模型(有 TTA)和四模型(有 TTA)的 AUC 分别为 0.796、0.822 和 0.831。报告称,使用随机训练/测试划分,AUC 为 0.9427(有 TTA),但结果并不可靠。

Almeida 等人 [23] 比较了经典 XGBoost 与卷积 VGG16 在原始数据集划分后调整为 224×224 像素的 CBIS-DDSM 图像上的性能,得到的 AUC 分别为 0.6849 和 0.6822,两种技术在低分辨率图像中使用时具有相似的预测精度。

Panceri 等人 [26] 从 CBIS-DDSM 中选择了 503 例CC向乳房 X 光检查结果,结果存在钙化病变,并训练 CNN 来区分癌变斑块和正常斑块。只需对斑块进行简单的阈值处理,即可获得乳房 X 光检查结果的分类。

3. 提出的方法

描述了用于评估算法的两种测试方法、预处理步骤和数据增强,然后描述了为补丁分类器、单视图分类器和新的双视图分类器实现的 CNN 架构。

3.1 两种测试的方法

为了获得公正的结果,并不将 CBIS-DDSM 随机拆分为固定的训练/测试集。相反,我们使用两种不同的方法重复实验。这两项测试中使用的技术相似,但我们在第二次测试中引入了一些小改进。

3.1.1 交叉验证 (CV) 测试

首先,进行了“CV 测试”,将数据集随机分为 5 个子集,使用其中一个子集作为测试集,其余四个作为训练集(5 倍交叉验证)对系统进行了 5 次训练和测试。然后,计算了五个结果的平均值和标准差。 在 3,103 张原始乳房 X 光检查中,丢弃了只有一个视图的检查,因为提出了一个双视图系统。还丢弃了那些被归类为“无复查良性”的检查,将病变定义为良性恰恰是因为癌症不会随着时间推移而发展。因此,使用了 2,260 张图像,代表 1,130 个乳房的两个视图。每个交叉验证折叠包含 452 张测试图像和 1,808 张训练图像,其中我们使用 20%(361 张图像)作为验证集。采取了预防措施,避免测试集向训练过程泄露任何“信息”。

3.1.2 原始分割 (OD) 检验

“OD 检验”,其中我们使用了 CBIS-DDSM 数据集的原始训练/测试分割。使用了所有 3,103 张图像来训练补丁和单视图分类器,但仅使用了 2,694 张双视图图像来训练和测试双视图分类器。没有丢弃“无回调的良性”案例,而是将其视为良性。使用 10% 的训练集作为验证集。使用 Hanley 和 McNeil [27] 提出的公式计算了获得的 AUC 的标准误差。

3.2 预处理和数据增强

在预处理过程中,由于 GPU 内存不足,将所有乳房 X 光片的大小调整为 1152 × 896 像素。从训练、验证和测试集中减去了所有训练图像的平均值。在这项工作的所有训练中,都使用了数据增强,参数包括:旋转 ± 25◦、缩放 ± 20%、剪切 ± 12%、强度偏移 ± 20% 和水平/垂直翻转。 使用边界反射来填充图像域之外的区域。

3.3 补丁分类器

创建一个类似于 Shen 等人 [4] 描述的“补丁分类器”,但基于现代 EfficientNet [8],而不是 VGG [7] 或 ResNet [6]。从 3,103 张图像中,选择了 3,568 个 ROI(某些图像有多个 ROI)。从每个 ROI 中,选择了 20 个大小为 224 × 224 的补丁:10 个在 ROI 周围,另外 10 个在背景中(图 1)。

左图:在病变以外的任意位置随机选择了 10 个背景(黄色)斑块;划定了以病变为中心的(白色)区域,并在该区域内 采样了 10 个具有随机水平和垂直位移的斑块。

右图:CBIS-DDSM 提供的病变分割掩模。

为了选择 ROI 周围的补丁,我们从相应的掩模中计算出它的质心,并选择一个围绕中心的 224×224 像素的区域,随机位移为高度/宽度的 ± 10%(图 1 中的白色矩形内)。按顺序,从图像中除 ROI 之外的任何位置采样了 10 个背景补丁。

进一步根据 CBIS-DDSM 中的标签将包含病变的斑块分为 4 个子类别:良性钙化、恶性钙化、良性肿块和恶性肿块。因此,一个斑块可以分为 5 种类型,其中背景总计占 50%,其余类别在“OD 测试”中分别占 9.5%、17.5%、11.1% 和 11.9%,在“CV 测试”中分别占 11.5%、11.5%、13.5% 和 13.5%。没有使用任何技术来弥补这种不平衡。

EfficientNet 有 8 个模型,编号从 B0 到 B7 [8]。EfficientNet-B0 是最小的模型,由神经架构搜索自动设计。然后,将此基础模型在输入图像的宽度、深度和分辨率上进行扩展 ,以获得剩下的七个模型。采用在 ImageNet [5] 图像上预先训练的 EfficientNet,进行迁移学习,将乳房 X 光照片块分为 5 类。由于乳房 X 光照片只有一个通道,因此相同的灰度会输入 EfficientNet 的红色、绿色和蓝色输入。

当向没有顶层(全连接层和softmax层)的 EfficientNet 输入 224×224 的图像块时,它会产生不同数量具有 7×7 属性的图。例如,EfficientNet-B0、B4 和 B7 分别生成 1280、1792 和 2560 个具有 7×7 属性的图。这些图经过平均池化并通过具有五个输出的全连接层,将其分类为 5 类。

2.4 单视图分类器

“单视图全图像分类器”由补丁分类器创建,首先移除具有 5 个输出的全连接层。如果该模型输入的是 1152×896 像素的乳房 X 光照片(而不是 224×224 块),它将产生 1792(“CV 测试”)或 1280(“OD 测试”)个图,其中有 36×28 属性,代表每个区域存在不同类型病变的可能性(图 2)。

在模型之上添加了额外的层来提取高级特征并将完整的乳房 X 光照片分类为恶性或非恶性。测试了许多不同的 EfficientNet 基于Block组合(即 MBConv 块 [8]、[28])。

(a) 一个、两个或三个 MBConv 块;

(b) 步幅为 1 或 2 的 MBConv 块。

测试了这两个超参数的组合后,得出结论,使用以下方法可以获得最佳模型

(a) 一个步幅为 1 的 MBConv 块(在“CV 测试”中);

(b) 两个步幅为 2 的 MBConv 块(在“OD 测试”中)。

最后一个 MBConv 块的输出后跟全局平均池化和具有两个输出类别的密集层。

2.5 双视图分类器

在标准乳房 X 线摄影中,每个乳房在 CC 和 MLO 视图中接受两次射线照射,因此在两个视图中都会出现异常。提出了一个卷积网络,它同时考虑乳房 X 线摄影同一侧的两个视图,进行第三次迁移学习。使用单视图分类器的权重来获得双视图分类器并端到端训练整个系统。此外,这里评估了不同的块数和步幅组合,以选择最佳网络架构。

2.5.1 “CV 测试”

采用一对单视图分类器并丢弃上层(MBConv 块及以上)。此操作将生成一个网络,该网络采用乳房 X 线摄影检查的两个视图(CC 和 MLO,每个 1152 × 896 像素)并生成一对 1792 个具有 36 × 28 个属性的特征映射(图 3)。然后我们将这些特征映射连接起来,获得 3584 个具有 36 × 28 个属性的特征映射,这些特征图由两个新的 MBConv 块处理,步幅等于 1。最后一个 MBConv 块的输出经过平均池化,然后经过密集层进行最终分类。

2.5.2 “OD 测试”

丢弃顶层,得到一个网络,采用两个视图并生成一对具有 36 × 28 个属性的 1280 个特征映射(下图)。

每个特征映射都可以看作是原始输入数据的一种特定表示或抽象。在卷积神经网络中,这些特征映射通常是通过应用不同的卷积核(或过滤器)到输入数据上得到的,每个卷积核都会学习并提取输入的不同特征。

36 × 28 个属性:每个特征映射都是一个36行28列的矩阵。

将这些特征映射连接起来,获得具有 36 × 28 个属性的 2560 个特征映射。这些特征映射由两个新的 MBConv 块处理,步长为 2,可降低维度,生成具有 9 × 7 个属性的 2560 个特征映射。 通过平均池化这些特征映射,然后使用密集层获得最终分类。

4. 实验和结果

4.1 补丁分类器

4.1.1 训练补丁分类器

“CV 测试”中,使用 Adam 优化器,固定学习率为 10−4 ,持续 20 个 epoch,批大小为 40,以使经过 ImageNet 训练的 EfficientNet 对补丁进行分类。在“OD 测试”中,使用 Adam 优化器,其学习率由“ 预热和循环余弦( warm-up and cyclic cosine)”[29] 确定,共 30 个 epoch,周期为 3(循环重复的 epoch 数),delta 为 2 × 10−4(学习率变化的幅度),预热延迟为 4 个 epoch(线性上升直到初始学习率为 10−4)。

“Warm-up”是一种学习率调整策略,通常在训练过程的开始阶段使用。学习率从一个较低的值开始,然后逐渐增加到一个较高的值。这种策略有助于模型在训练的早期阶段更稳定地学习,避免因为初始学习率过高而导致的训练不稳定或发散。Warm-up阶段可以帮助模型逐渐适应数据的分布和复杂性,从而在后续的训练中更好地进行优化。

“Cyclic Cosine”则是指循环余弦退火(Cyclic Cosine Annealing)学习率调度策略。这种策略使用余弦函数来周期性调整学习率。在训练过程中,学习率会根据余弦函数的波动在最大值和最小值之间变化。这种变化有助于模型在训练的不同阶段找到更好的优化方向,提高模型的泛化能力和训练效果。特别是在训练后期,通过逐渐降低学习率,可以帮助模型更好地收敛到最优解。

将Warm-up和Cyclic Cosine结合起来使用,可以形成一个完整的学习率调整策略。在训练初期,使用Warm-up策略使学习率逐渐上升,帮助模型稳定学习;在训练中后期,使用Cyclic Cosine策略调整学习率,帮助模型更好地收敛和优化。这种组合策略可以在一定程度上提高模型的训练效果和性能。

4.1.2 补丁分类器的结果

下表显示了使用不同 EfficientNet 模型的补丁分类器的准确率。最佳网络的选择取决于单视图分类器的性能。

使用不同基础模型的补丁分类器的准确度和单视图分类器的 AUC

“CV 测试”中,基于 EfficientNet-B4 的块分类器准确率最低(0.7644),但转换为单图分类器后 AUC 最大(0.8757)。因此,我们使用 EfficientNetB4 作为本次测试的基础。在“OD 测试”中,令人惊讶的是,情况正好相反:基于 EfficientNetB0 的块分类器准确率最低(0.7554),但其对应的单图分类器 AUC 最大(0.8033)。因此,使用 EfficientNet-B0 作为本次测试的基础模型。正如预料的那样,“OD 测试”的准确率和 AUC 比“CV 测试”小得多。

4.2 单视图分类器

4.2.1 “CV测试”的训练和结果

为了训练单视图分类器,向网络输入了标有癌症状态的乳房 X 光检查样本。反向传播调整网络参数以更好地对样本进行分类。

“CV 测试”中,使用固定学习率 10−5、批处理大小 3(以适应 GPU 内存)和 50 个epoch。获得的结果总结在表 3 中。正如我们已经解释的那样,通过随机划分的不同工作获得的结果不可靠,无法与我们的交叉验证结果进行比较。还测试了基于 ResNet 的网络,平均 AUC 为 0.8512,远低于基于 EfficientNet 的网络(单次运行)获得的 0.8757.

4.2.2 “OD 测试”的训练和结果

“OD 测试”中,我们使用 Adam 优化器,其学习率由“ 预热和循环余弦 ”决定,共 50 个 epoch,预热 4 个 epoch,周期为 5 个 epoch,增量为 2 × 10−5 ,初始学习率为 10−5 ,批处理大小为 4(以适应 GPU 内存)。表 4 总结了获得的结果(单次运行)。我们最好的单视图分类器的性能优于 Shen 等人的 [4],与 Wei 等人的 [9] 相似。

使用原始 CBIS-DDSM 划分的不同单视图分类器(单次运行,最后一行除外)的比较

4.3 双视图分类器

4.3.1 训练双视图分类器

为了训练双视图分类器,向网络输入了带有癌症状态的双视图乳房 X 线摄影样本。反向传播调整网络参数以更好地对样本进行分类。

“CV 测试”中,我们使用 Adam 优化器,批量大小为 2,学习率为

  • 10−3,3 个周期,仅训练新的完全连接层
  • 4 个时期内为 10−4,训练所有新层(MBConv 块及以上),底层(单视图分类器)保持冻结
  • 10−5,8 个时期,所有层均未冻结

“OD 测试”中,使用 Adam 优化器,其学习率由“ 预热和循环余弦 ”计算,100 个 epoch,预热warm-up 5 个 epoch,周期为 20 个 epoch,增量为 2×10−6 ,初始学习率为 2×10−6 。所有层都未冻结,我们使用批处理大小 6,因为 EfficientNet-B0 小于 B4。图 5 显示了所用学习率的分布情况。

4.3.2 “CV 测试”的结果

表 5 总结了“CV 测试”中获得的结果,图 6 描述了获得的 ROC。在单次运行、单个模型中,AUC 从 0.8757±0.0310(单个视图,表 3)增加到 0.9298±0.0379(两个视图,表 5)。使用 TTA 和 4 个模型,AUC 从 0.8907±0.0238(单个视图,表 3)增加到 0.9344±0.0341(两个视图,表 5)。 因此,我们可以得出结论,同时考虑 CC 和 MLO 图像实际上可以提高癌症检测率

使用ResNet50或EfficientNet-B4,1个模型或4个模型的集成,带或不带TTA,‘’CV测试‘’中,‘’双视图分类器‘’的AUC。

使用我们的两视图分类器与EfficientNet(0.9298)获得的AUC值大于shen等人报道的最佳AUC值(0.85+0.048=0.898)[4],使用VGG + ResNet组合获得的AUC值独立地处理两个视图并取其平均值。在没有TTA或模型集成的情况下测量了AUC,在相同的条件下比较了我们的两个视图方法,结论是我们的结果似乎比简单地分别取两个视图的结果平均要好得多,尽管作者使用了随机训练测试分区,使用了交叉验证。

4.3.3 “OD 测试”的结果

4.3.4 "Wu"等人的多视图技术

Wu 等人 [16] 使用多视图来提高乳腺癌 CAD 性能。然而,他们的四视图分类器和我们的分类器之间存在一些重要差异。首先,他们没有以端到端的方式从块分类器到整幅图像分类器进行迁移学习,这是 Shen 等人 [4] 提出的想法,对于获得高性能至关重要。

其次,Wu 等人用 ResNet-22 独立处理每个视图,并连接四个平均池化后获得的图。同时,分类器用 EfficientNet-B4 处理每个视图,并在进行平均池化之前连接属性图。测试了这两种想法(在平均池化之后或之前连接属性图),始终使用 EfficientNet-B4 作为基础模型,结果似乎表明,在平均池化之前连接图时会获得稍好的结果(表 7)。平均池化会丢失有关病变空间位置的信息。

比较在平均池化之后或之前连接属性图的情况。所有测试均使用 EfficientNet-B4 作为基础模型(单次运行)

5. 总结

提出了一种深度卷积网络,该网络同时考虑了乳房 X 线摄影同一侧的两个视图,该网络经过端到端训练,从而实现了三个迁移学习。

  • 首先,使用在自然图像上训练的 EfficientNet 的权重来训练补丁分类器
  • 其次,使用块分类器权重来训练单视图分类器
  • 第三,使用单视图分类器权重来训练双视图分类器

使用 5 倍交叉验证,系统在对具有两个视图的 CBIS-DDSM 乳房 X 光照片进行分类时实现了 0.9344±0.0341 的 AUC(在 ROC 的等错误率点处,准确度、灵敏度和特异性为 85.13%)。 使用原始 CBIS-DDSM 划分为训练/测试集,技术实现了 0.8483±0.0253 的 AUC。

在两项测试中,从单视图分类器到双视图分类器的 AUC 显着增加:在“CV 测试”中从 0.8907 增加到 0.9344,在“OD 测试”中从 0.8033 增加到 0.8483。此外,我们的技术获得的 AUC(0.9255)明显高于 Shen 等人在相同条件下(没有 TTA 和模型集成)独立处理的两个视图的平均 AUC(0.898)。我们还注意到,用现代 EfficientNet 替换 VGG 和 ResNet 作为基础模型似乎可以略微提高性能。

全部评论 (0)

还没有任何评论哟~