迁移学习在乳腺浸润性导管癌病理图像分类中的应用
1. 引言
乳腺癌主要分为两类:导管原位癌(DCIS)是从乳管中开始扩散的一种早期癌症;而侵袭性癌症则已经侵犯了附近的乳腺组织。对于大多数女性而言,在生完孩子后就会停止哺乳期(哺乳期)。哺乳期结束之后就不再分泌乳汁(绝经),这是女性一生中最特殊的一个生理现象。
在本文中, 采用了免疫介导性导管癌(Invasive Ductal Carcinoma, IDC)数据集. 这种数据集是一种常见癌症类型, 其致死率高于原位癌. 肿瘤分级是评估疾病侵袭程度的一种常用方法, 用于诊断和评估浸润性癌症的特征. 首先从乳腺组织中提取组织病理学特征斑块, 并在侵袭性和非侵袭性区域间寻找相似的兴趣区域. 然后对其进行分类. 不同分级方案被用来进一步分析肿瘤的分化程度. 这一过程通常需要病理学家的监督, 且这一过程可能耗时且复杂. 准确识别恶性肿瘤区域是一项既具挑战又耗时的任务.
乳腺癌筛查主要依靠医生的临床评估以及乳房X光摄影或超声成像等手段来进行。当初步检查提示可能有恶性病变时,则建议结合体格检查后再行乳腺活检以明确诊断。活检过程主要包括采集细胞样本,在显微镜下观察、固定以及随后进行标记处理。该方法的优势在于病理学家能够通过组织显微结构的具体形态变化实现精准诊断。

采用卷积神经网络(CNN)作为特征提取模块。其中CNN代表卷积神经网络(convolutional neural networks),全称为convolutional neural networks。该模型在处理图像的小块区域(patch)时采用了卷积操作以提取特征,并运用滤波器来增强这一过程。随后会对输出结果进行归一化处理并应用激活函数。这些组件被设计成深度堆叠的形式以构建复杂的多层卷积架构。批处理归一化层则负责将输入像素值标准化至0至1之间,并通过其特性进一步优化数据表示以便于后续计算步骤进行信号传递
2. 文献综述
该数据集采用了BreaKH作为名称,并包含了共计7,909张图片。这些图片源自82名患者的良性和恶性乳腺癌影像资料中。其中包含了2,480张良性影像和5,429张恶性影像,并通过经放大处理以获得相应的放大倍数
图像预处理 :经过对所有图像的旋转处理,并在原始数据集基础上增加了具有随机失真的样本。通过有效的数据增强技术的应用,原始数据集被扩展到了包含11,184张样本的新规模的数据集中,在这之中共有3504张属于正常类别而7680张属于异常类别。
该模型通过迁移学习方法实现,并融合了Inception-V3架构与经典的CNN结构。经过持续500次迭代训练后,在测试集上实现了89%的分类准确度。
性能 :恶性类别的曲线下面积(AUC)为0.93,良性类别的AUC也为0.93,截断值为0.4。
截断值一般被视为一种用于修正异常数据的方法论依据,在统计学中将其定义为设定超出常规范围的数据点为该范围的最大或最小数值。采用这种方法的好处是可以有效消除异常数据对数据分析的影响,并从而提高了分析结果的准确性和一致性。
数据集:基于两个不同类型的乳腺组织图像数据集对传统CNN模型的性能进行了对比分析。第一个研究用的是乳腺组织病理图像数据集(Breast Pathology Image Data Set),其中包含来自不同患者的50x50RGB图像共277,524张图片样本;其中有90,000张用于分析过程中的特征提取研究,并将其划分为两类:类别‘0’包含65,279张图片样本(约占总样本的72.4%),而类别‘1’则有24,781张图片样本(约占总样本的27.6%)。第二个研究则采用了乳腺组织学图像数据库(Breast Histology Image Database),其中包括来自同一区域的5547张标准化处理后的切片图像样本;其中约2788张切片被诊断为浸润性导管癌(IDC),而剩余的约2759张切片则被确定为非浸润性导管癌(Non-IDC)。
模型 :用于该研究的模型包括LeNet、AlexNet、VGG 19、VGG 16、ResNet 50、SVM和Twin SVM。
训练数据 :从乳腺组织学图像数据集中选择了4437张图像作为训练数据。
使用胶囊网络(Capsule Network)来识别和分类癌细胞:
首先经历了预处理流程的病理图片随后包含了像修复损坏区域和调节整体亮度这样的步骤以确保后续分析的有效性
GLCM用于区分正常与异常肿瘤细胞
灰度共生矩阵(GLCM) 是一种表征图像中灰度级空间分布关系的矩阵,在本研究中被用来区分正常与异常肿瘤细胞。
通过模糊化方法将癌细胞转化为模糊值。
本研究采用了三角形和梯形函数来进行计算。
利用已知样本的知识库来提取特征。
将经过模糊化处理和特征提取后的图像数据输入至 capsule 网络分类器中,并确定癌细胞类型及其阶段。
所得结果被研究人员分享,并可用于进一步评估与研究。
3. 方法
3.1 数据集
数据类型与数量 :
本研究采用了浸润性导管癌(IDC)组织病理切片作为样本,并将其分为两种类型:一种为免疫组化显示阳性的肿瘤细胞群(简记为 IDC +ve),另一种为免疫组化显示阴性的肿瘤细胞群(简记为 IDC -ve)。这些切片共计包含了27.4万个小块图像数据中的全部材料。其中约19.9万例属于肿瘤细胞群阴性情况(非癌),约11.4万例属于肿瘤细胞群阳性情况。
目标类别 :
该研究的主要目标分为两个方面:一是识别并分类IDC阴性和IDC阳性病变;二是评估相关特征对疾病诊断的影响。
其中,
将IDC阴性实例(非癌病变)划分为类别0,
而将IDC阳性实例(癌细胞)
归类为类别1。
数据集不平衡 :
数据集显示非癌症的图像块数量超过癌症图像块的两倍。
图像块与标签 :
每个图像块都对应一个患者ID标识。经专业医生标注后, 图像块的标签分别表示癌性和非癌性。
图像大小调整 :
原始图像块的大小是50x50,但在研究中被重新调整为70x70。
数据集划分 :
为了训练和测试的目的,在进行数据分析时将原始数据集进行了分割处理。未全部采用原始数据集中的所有样本信息(共计27.8万张),而是从原始数据集中随机筛选出约16万张进行后续分析工作。随后对选取到的所有样本图片进行了尺寸调整工作,在此过程中将原本尺寸为固定值(即每张图片均为 )的小区域进行了放大处理以适应后续算法需求。具体而言,在整个实验过程中有 的样本信息被分配用于模型的参数优化过程(即约 张图片信息),而剩余部分则作为模型评估阶段的关键指标依据(约 张图片信息)。
3.2 迁移学习
在机器学习领域中,预训练的系统模型被视为迁移学习的一个重要组成部分。其中知识(特征、权重等)是从原先的模型转移至新模型以增强其预测能力。

该模型在多个领域发挥着重要作用。通常采用如EfficiencyNet、DenseNet、MobileNet和ResNet等架构来解决相关问题。通过增加更多的层来提升其处理复杂任务的能力也是一种解决方案。但同时也面临诸多挑战:由于训练神经网络的工作量较大(可能导致性能下降),额外增加的层可能会对性能产生负面影响(同样会导致性能下降)。
MobileNet属于一种基于CNN的设计方案,并且它采用了深度可分离卷积结构作为其核心组件,在这一领域中具有重要的地位。该模型主要用于在移动设备上开发的应用程序设计中,并且相较于传统全连接卷积方法而言,在参数数量上有显著减少的优势。DenseNet是一种基于卷积神经结构的设计模式,并被称为密集连接卷积网络(Densely Connected Convolutional Networks)。 在这种架构中,在每层前馈时会将上一层的所有激活值传递给下一层进行处理,并且这种设计能够有效提升模型的表达能力与泛化性能。EfficientNet则通过引入复合系数的方法实现了对各维度(如分辨率、宽度与深度)的均匀缩放策略,在保证模型性能的同时显著降低了计算复杂度与资源消耗需求
3.3 模型

