AlexNet-BC:一种用于乳腺癌病理图像分类的深度学习方法
常见的卷积神经网络架构(如AlexNet、VGGNet、GoogLeNet等)在乳腺癌分类任务中容易出现过拟合现象。这一问题主要源于乳腺病理图像数据集规模较小以及使用过度自信的softmax-cross-entropy损失函数导致的模型特性。针对这一问题提出了一种新型乳腺病理分类框架——AlexNet-BreastCancer(简称AlexNet-BC)模型。该模型通过将ImageNet数据集作为基础进行预训练,并结合人工增强的数据集进行微调优化。此外还设计了一种改进型的交叉熵损失函数以惩罚低熵输出分布中的过度自信预测结果,并使预测结果能够适应均匀分布特征。随后通过BreaKHis、IDC和UCSB等多组真实病理切片数据集进行系列对比实验来验证该方法的有效性与优越性。实验结果显示,在不同放大倍数下所提出的方法均显著优于现有同类算法具有较强的鲁棒性和广泛的适用性 可应用于组织病理学临床计算机辅助诊断系统构建
1. 引言
机器学习(ML)引起了越来越多的兴趣转移至自动化领域,并通过更高准确性避免人为错误。许多基于ml的方法已被引入到计算机辅助诊断系统(CAD),作为辅助早期诊断手段,并被证明是可靠且有效的。基于ML的乳腺癌分类方法一般分为三个阶段:a)预处理;b)特征提取;c)分类。预处理技术用于从大型wsi中选取样本大小为256×256的小型局部斑块。特别地,在接受两种类型贴片的情况下(一种带有肿瘤细胞另一种不带),它们都被送至进行特征提取与分类。
在特征提取阶段中,常见的分类器包括支持向量机,AdaBoost,随机森林以及决策树等多种算法.所采用的特征提取工具往往受限于人类专业知识水平.因此,在人工特征体系不完善以及特征提取工具对数据高度敏感的情况下,基于机器学习方法实现乳腺癌分类系统的可靠度通常较低.
基于端到端网络[26]设计的深度学习方法能够使得自动特征学习与分类过程 seamless地结合在一起
1.1 克服过拟合问题
- 过拟合现象 :在乳腺癌诊断中,过拟合现象是一个普遍存在的问题,在这一过程中模型对训练数据表现出较高的适应性,在面对新的测试样本时却出现了识别能力的下降。
- 现有技术 :为了应对过拟合现象,在现有技术中常用的解决方案包括数据增强、引入随机丢弃(Dropout)、应用迁移学习以及进行标签平滑等操作。这些方法通过调节隐藏层激活模式或优化权重参数,并结合向输出层添加噪声干扰等方式来提升深度学习模型的泛化性能。
AlexNet-BC网络模型框架 :
该研究以经典的AlexNet模型为基础,在此基础上开发出一种新型网络架构命名为AlexNet-BC。针对该网络架构在面对小规模训练数据集时可能存在性能瓶颈这一问题,在实验部分我们采用多样的数据增强手段扩展了原始训练集的数据量;同时通过引入迁移学习方法优化并校准了改进型 AlexNet-BC 的参数配置。
新的损失函数 :
提出了一个新的损失函数模型,在交叉熵损失的基础上增加了惩罚性项。当预测的概率超过设定阈值时,该惩罚性项将引导模型使预测结果更趋近于均匀分布。这一设计旨在惩罚过于自信的预测结果,并以此来缓解模型可能出现的过拟合现象。
实验验证 :
该方法主要基于BreaKHis数据集完成训练与验证步骤。此外,通过IDC及UCSB两个数据集展开泛化性能的评估。
2. 相关工作
2.1 缓解数据集过小导致的过拟合
神经网络是一种基于数据驱动的方法,在实际应用中依赖于大量高质量的数据进行训练。然而,在许多应用领域仍面临这一挑战:例如,在医学图像分析中尚未实现大规模的数据接入。在这种情况下,默认的做法是采用一系列几何变换、色彩调整、随机裁剪等技术手段来弥补训练数据不足的问题;这种方法在提升小样本学习能力方面仍然存在一定的局限性:例如,在提高小样本学习能力方面的效果仍有待进一步优化和验证
迁移学习是一种应对小样本数据过拟合问题的有效方法,在深度神经网络领域具有重要应用价值。研究表明,在 ImageNet 数据集上进行大规模预训练能够显著提升模型性能,并且这种基于大量标注数据的学习过程能够继承并提取其他任务的相关特征。实验证明,在最坏的情况下(worst-case scenario),经过适当的微调处理后(processed appropriately),迁移学习方法能够达到与从零开始进行参数初始化和优化相当的效果(equivalent to zero-shot learning)。Vesal 等人(2018)分别基于 ImageNet 对 Inception-V3 和 ResNet-50 进行了系统的预训练工作(pretraining process),随后在此基础上对乳腺病理学数据集进行了进一步优化微调处理(fine-tuning)。Mohamed 等人(2018)则采用 AlexNet 作为迁移学习的基础架构,并将其应用于乳房 X 射线检查这一特定医疗领域的问题研究中(medical domain-specific application)。他们的研究结果表明,在某些医疗任务中(medical tasks),由 ImageNet 轭获现成深度学习模型所提取的关键特征表现出了较强的竞争优势(competitive edge in specific medical contexts)
在本文中, 充分地采用了数据增强技术和迁移学习方法, 以有效缓解因乳腺病理数据集规模较小及质量不高所引发的过拟合现象。其中一种技术旨在扩大原始乳腺病理数据集, 从而为其提供更多的训练样本;另一种技术则对所提出的网络架构进行了精细参数微调优化, 进一步提升了模型性能。
2.2 减少softmax -交叉熵学习的过拟合
标签平滑在多个领域中得到广泛应用,在缓解基于Softmax-CrossEntropy方法导致的过度自信所带来的过拟合问题方面发挥了重要作用。
研究表明,在去噪能力方面与现有技术相比,该方法表现出显著的优势。
此外,研究人员已经开始深入探讨标签平滑与其他降噪策略结合的可能性。
例如
3. 方法
首先,在ImageNet数据集上基于AlexNet-BC模型进行预训练后,在经过预处理的图像上实施粗调优化,并固定了原始模型的卷积层参数。随后,在释放这些参数后对模型进行了进一步优化。

乳腺病理分类建模框架流程图
3.1 数据增强
第一步, 从每张原始图片中随机选取六个Patch片, 如图2所示. 每个裁剪后的样本均经过几何变换. 图像增强. 直方图均衡化以及图像二值化四种预处理方式来实现数据扩展, 如图3所示. 本文采用的几何变换包括翻转和平移两种类型. 四种图像增强方法具体涉及色彩鲜艳度提升. 影像清晰度优化以及对比度拉伸等技术. 直方图均衡化的应用则分别针对灰度图与RGB彩色图进行操作, 从而有效提升其对比度水平. 在进行图像二值化处理时, 我们设置了多个灰度阈值以突出关键特征点. 利用上述多模态的数据增强手段将原始数据集规模提升了约20%. 最后将所有经Enhance后的样本统一归一化处理作为网络输入 fed into 网络训练过程


3.2 AlexNet-BC 模型

AlexNet采用整流线性单元(Rectified Linear Units, ReLUs)以促进其非线性特性,并通过引入dropout技术来减少由于有限训练数据所带来的过拟合问题。未采用ReLU和dropout层的网络架构通过灰色背景突出显示。
该技术旨在通过减少神经元连接来降低模型过拟合的风险。该方法通过随机从网络中移除输入神经元的概率参数d来进行处理,在保证普遍适用性的前提下(如图1至图4所示), dropout过程及其对每个输出神经元的具体影响已得到充分研究和验证。


其中,

为网络隐藏层的索引,

为每层神经元节点的索引。

和

分别表示第

层的输入/输出向量。

是第

层的权值,

是第

层的偏置值。

这是一个遵循伯努利分布的独立随机变量,在构建神经网络模型时,取值为0的概率为d (dropout ratio),取值为1的概率则为1-d.

的“稀释”输出

用作下一层

的输入。
在测试时,dropout操作后得到的神经元为输出权值乘以概率1-d(保留率) ,如式(5)所示:

随着实验参数d值的增大,在测试集上的性能有所提升;当d超过0.6时逐渐下降。通过随机移除部分神经元及其关联连接来抑制网络对单一节点的过度依赖,并促使所有节点以更强的泛化能力进行训练。然而地,在移除过多神经元的情况下,网络可能会出现无法有效运行的情况。

在原始AlexNet架构的基础上增加了一个额外的全连接层确实增强了网络的非线性特性,并有效提升了分类精度。然而,在全连接层数不断增加的过程中也伴随着过拟合问题的愈发显著。通过上述研究探索过程我们提出了一种改进型AlexNet网络结构即AlexNet-bc其构建方案是基于将原始AlexNet基础上添加一个全连接层并设置了Dropout参数值为0.6
3.3 新损失函数
softmax分类器常用于神经网络的输出层。该分类器通过将输入映射为logit值后转换为概率分布形式来推断出样本对各类别的归属概率。

k为softmax层神经元节点数;
为该层的原始输出矩阵;
为概率分布矩阵,

该模型具有较高的过拟合风险。通常情况下,在深度学习模型中,softmax函数通过将最后一个全连接层的多个神经元输出值限制在(0,1)区间内进行归一化处理。这会导致在乳腺癌二分类任务中,正确样本的预测概率被系统性地拉近至1这一极端值位置上,并因而使得交叉熵损失值趋向于最小化。

其中,
是标签矩阵。
损失函数M(p.q)
主要目的是以更低程度的信心和更高的适应性来正则化模型。特别地,在交叉熵损失超过预设阈值v的情况下,该新函数会对这种情形施加惩罚作用。

式中,v为阈值,λ为惩罚项的权重系数。
当

时,

其中

该附加惩罚项其实质是迫使网络在一定程度上趋向于均匀分布以防止过拟合
当预测的概率值趋近于1时,在原始损失函数中其输出熵将趋向于零状态,并可能导致模型出现过度自信问题。为了解决这一问题,在原损失函数中引入适当的惩罚项后可有效改善这一现象;通过这种方式使得各分类间的预测概率分布趋于均衡状态;研究表明,在引入惩罚项后的新损失函数设计中,深度学习模型的过置信度和过拟合现象得到了显著抑制。
3.4 绩效评估
3.4.3 损失函数
通过迁移学习策略进行训练。λ与v作为经验参数设定使用。在本文实验中研究发现:λ被设定为固定值为λ=−\frac{1}{2};当输入样本数量分别为N=4R_x、N=1R_x及N=4R_x时(即达到约R_x=4, R_x=1, R_x=4的状态),对应的v≈6;而当输入样本数量达到N=2R_x时(即约等于8倍于原始数据量),对应的v≈8。
针对四种不同的放大倍数,在应用所提出的损失函数后,模型表现出明显增强的平均精度水平。这种提升源于该方法有效降低了模型在面对不同类别样本时可能出现的过度自信现象。具体而言,在分类过程中若输出值低于设定阈值,则继续采用交叉熵损失进行优化;反之,在输出超出阈值情况下,则通过引入惩罚项以弥补分类均匀分布的需求。
