Advertisement

使用深度卷积神经网络和颜色转换的迁移学习在超声乳腺肿块分类中的应用

阅读量:

乳腺超声图像中的乳房组织分类在通过迁移学习的方法中使用了深度卷积神经网络模型,并结合颜色转换技术。


Purpose: 本研究旨在开发一种基于深度学习算法在乳腺癌超声图像分类中的应用方案,并通过对比分析其性能指标与经验丰富的放射科医生基于BIRADS报告及DSM Fourth Edition规范体系进行评估结果。

Methods: 基于一组882张乳腺肿块超声图像,采用多种迁移学习技术开发分类器。此外,我们引入了匹配层的概念。这一层的目的是重新调整灰度超声图像的像素强度,并将这些图像转换为红、绿、蓝(RGB),以更有效地利用在ImageNet数据集上预先训练卷积神经网络的鉴别能力。我们介绍在使用反向传播进行微调期间如何确定这种转换。接下来,我们比较了有颜色转换和没有颜色转换的迁移学习技术的性能。为了证明我们方法的有效性,我们使用两个公开的数据集对其进行了额外的评估。

Results: 颜色转换增加了每一种转移学习方法的接收器工作曲线下的面积(AUC)。为了更好的执行利用微调和匹配层的方法,在150个案例的测试集上,曲线下面积等于0.936。放射科医师阅读同一组病例时,曲线下面积从0.806到0.882。在两个独立数据集的情况下,利用所提出的方法,我们得到的曲线下面积约0.890。

Conclusions: 匹配层的概念具备扩展性,并且能够用于增强基于深度卷积神经网络的转移学习技术的整体性能。当这一技术被成功应用于临床实践时,本文提出的方法有望助力放射科医生通过超声影像实现乳腺肿块分类。© 2018 American Association of Physicists in Medicine [https://doi.org/10.1002/mp.13361]

Key words: BI-RADS, breast mass classification, convolutional neural networks, transfer learning, ultrasound imaging


1. INTRODUCTION

1

1

6

6

CADx流程主要包含四个阶段:图像预处理阶段、组织块分割、特征提取阶段和分类阶段。系统的性能与应用特性密切相关;这些特性通常通过结合专业知识进行设计。研究表明,在手工选择的特征中形态学特异性最为显著,在乳腺癌肿块分类中具有重要价值【6

19,25

基于深度学习的卷积神经网络(CNNs)在医学图像分析领域展现出强劲的发展势头。

在本研究中我们提出了如何更高效地利用深度CNN的颜色依赖性表征能力以改进超声图像中乳腺肿块的分类我们引入了一个称为匹配层(ML)的概念而非采用重复的灰度化处理或者修改第一卷积层我们将该额外设计放置于预先训练好的CNN原始输入层之前以实现将灰度化的超声图像转换为RGB格式通过实验结果表明该转换过程能够在微调过程中利用反向传播算法获得良好的学习效果随后我们将展示我们的方法带来了性能提升此外我们的分类方法的有效性是通过两个公开获取的乳腺肿块超声图像数据集来验证为了展示所采用方法潜在临床价值我们的最佳分类器与四位经验丰富的放射科医生共同评估了所有乳房肿块并采用了BI-RADS词典进行比较

这份手稿是按照下列步骤进行整理的


2. MATERIALS AND METHODS

2.A. Datasets

本研究所使用的主份数据集包含了882张独特乳腺肿块的超声图像,在每位患者仅有一个肿块的前提下进行了分类统计分析

m

15岁)。肿块范围为2.5 ~ 98

mm^{2}

(平均12.8

m

9.3

mm^{2}

超声检查由经ACR认证的专业中心依据标准化临床指南执行,并采用以下三种高端扫描设备:西门子Acuson(占59%)、GE L9(占21%)及ATL HDTI(占20%)。经由经验丰富的高级放射科专家团队独立完成对病例肿块的BI-RADS分级任务,并在连续两周内按随机顺序复查病例资料。该参考指南包含了最终评估级别、特征描述以及随访时间或活检建议等详细信息。所有参与诊断工作的专业人员均对该案例组的结果进行了严格保密。

22

33、34

26, 32

2.B. Transfer learning

29,35

29,35

37

37

我们采用两种不同策略来实现神经迁移学习【37

为了提升训练效果并为网络提供更加多样的图像样本, 项目负责人决定对主数据集进行扩充工作。具体而言, 每个乳腺肿块的超声图像均经过中值滤波处理, 并基于放射科专家提供的感兴趣区域(ROI)并以固定30像素宽度的外部边缘进行裁剪, 最后将这些图片的比例调整为与VGG19网络的标准尺寸一致(即224像素)。

imes

32

  1. 此外,在水平方向上对图像进行了15像素的平移变换。
    在裁剪之前完成了图像的平移操作。
    增强措施导致每组图像的数量增加了6倍。
    为了避免影响乳腺肿块的一些已知属性(例如后部阴影和增强区域),我们决定不进行纵向旋转或偏移。
    这将可能导致乳腺肿块的一些关键特征发生变化(例如后部阴影和增强区域),从而可能降低分类性能[38]。
    参考图1中的示例展示了这些处理的效果。
    从UDIAT数据集中获取的b模式图像按照与本研究数据集相似的方式进行了预处理和增强。
    基于原始论文所描述的方法框架。
    通过使用OASBUD数据集中的原始超声回波重建b模式图像【32

2.B.1. Neural feature extraction

19

37

19

2.B.2. Fine-tuning

原始VGG19模型的架构经过优化以适应微调需求。然而,在使用UDIAT和OASBUD数据集进行微调训练时面临数据量不足的问题, 从而限制了模型的有效微调效果, 因此主要依赖主数据集进行微调训练操作。通过验证集确定最佳参数的方法被采用, 其中最初的全连接层由专为ImageNet分类设计而成, 已被替换为包含4096个神经元的新全连接层以及一个256个神经元的新全连接层, 并附加了一个适用于二分类任务的sigmod激活函数(用于判断样本是否为良性和恶性)。对于前两个全连接层, 采用ReLU激活函数以提高模型非线性表达能力。全连接层权重初始化采用了Xavier均匀初始化策略以优化网络收敛性能。通过验证数据集分析发现, 当冻结前四个卷积块并仅对第五个卷积块及其后续层进行微调训练时, 可获得最佳分类性能指标; 同时针对第一个卷积块单独进行微调并未显著提升分类效果表现。为了实现对VGG19神经网络的有效微调训练, 采用了基于Nesterov加速的小批量随机梯度下降优化算法(SGD)。初始学习率为0.001, 每个epoch递减1e-5的学习率直至降至1e-5水平; 同时设定动量参数为0.9以及批大小为40以平衡优化效率与稳定性需求;为了防止过拟合现象发生, 在第一全连接层上实施80%退出率的概率性丢弃策略;实验运行环境配置上选择了配备GeForce GTX 1080 Ti显卡的计算机系统;在每一轮训练结束后均实时监控验证集上的Area Under Curve(AUC)指标值;与SVM算法类似的情况下, 我们选择在验证集上AUC值最高的模型作为最终预测基准

2.C. Matching layer

该研究提出的基于CNN的乳腺肿块分类技术将灰度超声图像用作预训练模型的基础输入(参考文献19至22)。在本研究中,我们建议将灰度超声图像转换至预训练模型所需格式,并非通过跨通道复制或修改第一个卷积层。通过这一转换策略的应用,在一定程度上提升了深度学习架构提取特征的能力。对于这一任务而言,在此基础之上我们将一个**匹配层(ML)**应用于系统中:该层能够通过对输入数据进行线性变换将其从单色转为彩色图像是一个关键组件

其中** _

I_{in}

_** 为灰度图像,

I_{out}

为输出RGB图像,

ec{a}

ec{b}

在训练过程中需要确定的重要变换参数是在深度学习模型训练中起到关键作用的因素之一。这种变换是一种带偏置的一维卷积运算。例如,在Google LeNet中的CNN架构采用了这种一维卷积技术来减少输入数据的空间维度(参考文献31)。在我们的案例研究中,在微调过程中我们利用反向传播算法来优化损失函数以确定ML层的最佳参数设置。为了实现颜色信息的有效提取和增强模型表现能力,在我们的实验设计中采用了一种改进型的人工提升策略:通过人为提升输入图像的空间维度,并有效地实现了从灰度图像到RGB图像的颜色转换过程(如图2所示)。该改进型网络架构基于传统的VGG19模型进行了重构与优化,并在此基础上提出了新的多标签分类方法框架


3. RESULTS

19、20、22、25

19、20、22、25

接下来,我们应用反向传播算法对融合机器学习(ML)与VGG19卷积神经网络(CNN)进行微调训练。在第7个epoch时,在验证集上的最高AUC值达到了0.961,在测试集上对应的AUC值为0.936,请参阅表II以及图4。为了展示机器学习(ML)的工作机制原理,我们将两个灰度超声图像转换为RGB图像。具体结果可见于图5。经过处理后得到的颜色呈现主色调为浅蓝与橙色。

基于原始VGG19模型生成的RGB超声图像未经过微调处理提取MP和FC特征。进一步地,在验证集上优化SVM分类器以确定最佳超参数配置。对于RGB图像数据集,在验证集和测试集上分别获得了较高的AUC值表现,并分别记录为MP特征的AUC值为0.889及FC特征的AUC值为0.873。颜色转换操作显著提升了分类性能表现。与灰度超声图像相比,在测试集上的AUC值显著提升约0.04个单位(P<0.001),具体结果可见表1中的数据对比情况。ML层构建的分类器计算所得ROC曲线曲线图示如图4所示

在下一步阶段中,在UDIAT和OASBUD数据集中提取了基于b模式的图像作为输入来训练VGG19模型的MP和FC特征。每个超声图像中的灰度信息被复制到RGB通道。在UDIAT数据集上获得的MP和FC特征分别具有AUC值0.858和0.849;而在OASBUD数据集上则分别为0.819和0.791。由于这些数据集规模较小导致无法有效执行微调操作因此我们采用了主数据集开发的ML模型进行替代处理。与我们的数据集一样所有用于提取特征的b模式图像都经过ML方法转换以生成RGB表示并用于后续分析工作。在相同的交叉验证设置下评估了性能结果显示由于颜色编码策略能够显著提升分类性能具体来说在UDIAT数据集中MP和FC特征对应的AUC值分别提升到了0.873和0.893;而对于OASBUD数据集则分别为0.831和0.881。特别值得注意的是在FC特征方面ML方法带来了统计学上的显著提升(P < 0.001)。然而对于仅使用MP特征训练的分类器效果提升并不足以达到统计学显著性水平。这些结果如表2所示图6直观展示了如何通过ML将来自两个不同数据集的b模式图像转化为RGB表示以实现更高效的特征提取过程

我们招募了四位经验丰富的放射科医师参与本研究。表III详细列出了测试集中肿块按照BI-RADS分类的分布情况。Fleiss ' kappa值为0.41表明该研究团队在最终诊断结果上存在一定的一致性。表Ⅳ则展示了采用BI-RADS分类标准时放射科医生们的分类表现其AUC值范围在0.806至0.882之间均值达到0.849。通过机器学习优化后采用卷积神经网络(CNN)其性能显著优于传统的人工诊断方法具体表现为AUC值高达0.936明显高于现有最优诊断方案的最大单个AUC值(P < 0.001)。我们通过设定BI-RADS 3类(可能代表良性病变)作为分界点来评估检测系统的准确性灵敏度和特异性结果表明该系统对于恶性肿瘤的概率判读能够随着BI-RADS分级的提高而增强这一观察结果得到了Bonferroni校正后的Mann–Whitney检验的支持除例外情况外其他分组间存在显著差异(P < 0.05)。这些例外案例仅限于完全良性的病变样本在此情况下网络系统对于恶性肿瘤的概率判定低于既定阈值

为了展示性能更优但难以分类的例子(使用经过微调的ML-VGG19模型),我们从测试集提取了良性和恶性乳腺肿瘤图像,并分别评估了每种类别中的最高置信度与最低置信度。例如,在图8(b)中展示了一个良性肿瘤样本,在这种情况下分类器对其恶性的预测结果具有最高的可信度。对于这一肿瘤样本,在放射科专家的眼中被划分为4级两次以及5级一次(见图8(c))。类似地,在图8(d)中描述了一个恶性肿瘤样本,在这种情况下分类器对其恶性的预测结果具有最低可信度。值得注意的是,在这种情况下所有放射科专家均将其归类为5级(见图8(e))。由此可见,在椭圆形形且具有中等增强区域及均匀无回声模式的情况下(见图8(f)),本例中的模型表现欠佳可能是由于上述特征所致


4. DISCUSSION

19,20,25

19,20,25

19,20,25

20

20

41

42,43

ec{b}

即可进行常规的图像预处理。此外我们决定使用尺度参数

ec{a}

有几个原因。

首先,在特定通道中执行颜色反转操作具有显著提升性能的效果。其次,在超声成像中观察到肿块区域通常表现为低回声或无回声特征,而周围组织则呈现较高的回声强度值。为了使网络模型能够更好地适应数据分布并提高预测准确性,在优化相关参数时可能需要进行一定的微调调整。然而需要注意的是,默认情况下所提出的方法是一种普适性的解决方案,并不仅适用于灰度图像或超声成像技术领域(即CMYK模型),因此它也能够应用于RGB模型设计中。此外,在处理多模态医学影像数据时还应考虑引入多种数学变换手段以提高数据预处理的有效性。值得注意的是,在微调阶段完成参数优化的过程可以通过动态计算出最优参数设置来实现这一目标。从本质上讲,在预先训练好的神经网络基础上附加一个可学习层的过程类似于构建一个两层神经网络结构。然而在实际应用过程中需要注意的主要问题是该过程可能会导致超出[0,255]的强度范围(即RGB值域),从而影响最终结果的质量甚至无法实现有效的可视化显示效果。

基于主数据集构建的卷积神经网络(CNN)模型所呈现的AUC值与放射科医师计算所得的结果相当或更高。我们的最佳模型在AUC指标上较放射科医生表现出显著提升([...])。这些实验结果表明所构建分类器具有重要的临床应用价值。值得强调的是,在诊断性乳腺超声中,并非仅用于确定活检的位置和数量;更重要的是评估病变性质。此外;我们发现该最佳模型输出结果与BI-RADS分类系统具有显著关联。

为了在临床环境中更深入地评估分类器的效果, 我们希望CNN能够成为放射科医生在临床决策中辅助判断的重要工具. 对于特定病例中的肿块分析结果可能会引发放射学家对现有诊断方案的重新审视. 当前的研究并未明确指出这些模型具备完全替代现有医疗设备的能力, 但它们可能为正确设计和研究此类工具提供必要的信息. 在我们的研究设计中,默认假设所有参与者的标记工作均需由专业的影像科医师完成. 该方法是否能够在不显著影响工作流程的前提下实现半自动或高效的执行, 并且对于需要准确评估乳房肿块类型(良/恶性)的疑难病例而言是否具有实用价值, 还有待进一步观察. 未来的工作是否能够进一步验证这一假设也值得期待.


5. CONCLUSION

在本研究中, 我们采用了VGG19卷积神经网络来进行乳腺肿块分类, 并设计了一个匹配层, 该层能够将灰度超声图像转换为RGB图像. 研究表明, 相较于在RGB通道复制灰度超声图像的方法, 使用多标签(ML)能够实现更为高效的分类. 该方法具有通用性, 可广泛应用于各类问题, 进而增强基于CNN的迁移学习技术. 在与使用BI-RADS词典以及四位放射专家进行的独立评估相比, 我们的最佳分类器不仅AUC值显著更高, 即使在灵敏度达到1.0的情况下, 其特异性也优于放射科医生所获得的结果. 在未来的研究中, 我们将继续深入探索所采用方法的实际临床应用价值


6. ACKNOWLEDGMENTS

这项研究获得了美国国立卫生研究院、国立癌症研究所以及美国NJ地区的Gustavus和Louise Pfeiffer研究基金会2R44CA112858部分财政支持。我们对已故的迈克尔·加尔佩林博士及其在我们长期合作中建立的良好关系表示衷心感谢,在他的巨大贡献下使得这项研究得以完成。本研究中的图像数据库基于Almen Laboratories公司的授权许可


7、CONFLICT OF INTEREST

作者没有冲突披露。

信件应该写给的作者。电子邮件:mbyra@ucsd.edu。

8、REFERENCES

全部评论 (0)

还没有任何评论哟~