基于Transformer进行乳腺癌组织病理学图像分类的方法比较
近年来,在致力于提升视觉Transformer精度与泛化性能的过程中,出现了基于Pooling-based Vision Transformer (PiT)、Convolutional Vision Transformer (CvT)、CrossFormer、CrossViT、NesT、MaxViT以及Separable Vision Transformer (SepViT)等多种创新性模型。
它们应用于BreakHis和IDC数据集中的图像分类任务,并涉及数字乳腺癌组织病理学研究。经过Break His 数据集 的 训 练 后 , 在 IDC 数据 集 上 进 行 微 调 , 以 检 验 其 广 泛 性 。 研究表明 MaxViT 是 最 有 效 的 基 于 Transformer 的 分 类 器 , 在 Break His 上 达 到 91.57 % 的 测试 准 确 率 , 在 IDC 上 达 到 91.8 % 。 当 Max Vi t 在 Break His 上 进 行 预 训 练 后 , 再 应 用 到 IDC 数据 集 上 进 行 微 调 , 其 测试 准 确 率 达 到 92.12 % 。 然而 , 现 存 的 工 作 中 所采 用 的 各 种 模 型 均 未 显 著 改 进 性 能 。 因此 , 提 出了 共 同 特 征 并 对进 一 步 提 高 模型 整 体 性 能 提 出 结 构 化建 议 。
1. 引言
作为医学诊断的重要领域之一
当模型经过训练来识别代表良性与恶性乳腺组织样本的图像时,这一过程被称为数字乳腺癌组织病理学。然而,在该任务中确定最优分类器的问题依然存在。
Vision Transformers(ViTs)的提出[4]揭示了在减少计算资源消耗的同时实现更高分类精度的可能性。这表明,在数字乳腺癌组织病理学领域中智能图像分类问题上可能通过ViT模型获得解决方案。
2. 文献综述
在计算机视觉领域中,CNN模型通常被视为首选方案。它们在多个应用场景中得到了广泛应用,并已在蒙面识别[13]、行人检测[14]、植物病害分类[15]以及道路物体检测[16]等领域取得了显著成效。这些主流架构AlexNet, ResNet和VGG-16因其卓越性能而备受关注,并且其准确率通常超过95%。这种趋势也延伸至医疗领域中的计算机视觉任务,在基于CT、MRI以及X线扫描的数据训练下表现优异[CAD][17]。进一步研究表明,在LUNA16数据集中采用SGD优化器的AlexNet算法在肺癌检测方面表现出色,在使用MRI图像进行脑肿瘤CNN架构开发方面同样取得显著成果[18]。针对脑肿瘤分类的研究表明ResNet50模型是该任务的理想选择[19]。此外,在四个相关数据集上的测试表明,CNN模型同样显示出在相关领域的可靠性能,包括对阿尔茨海默病的诊断能力[20]. 此外,通过对这些模型进行微调优化,其针对特定任务的表现也得到了显著提升 [21].
尽管CNN模型在性能与效率方面表现优异,在医疗计算机视觉领域仍无一通用架构能完美适应各类任务需求。不同训练方案中的预处理技术、优化算法以及参数配置均会对最终效果产生显著影响因素,在探索最佳解决方案的过程中仍需持续努力推进。受Transformer结构在语言处理领域的成功经验启发,在医学影像领域也出现了Vision Transformer(ViT)[4]这一重要创新成果通过对其实验结果的研究表明:尽管ViT在分类图像数据时展现出色性能但它却缺乏归纳偏差的能力为此一些研究者提出了结合混合型架构的方法以整合两种技术的优势从而实现更好的泛化能力提升
大部分这类模型都是在包括ImageNet-21k在内的大型数据集上经过训练与验证后开发出来的。这些主要的数据集并不专注于特定类型或类别的图像数据。因此这项研究尝试在规模较小且专门设计的数据集中评估模型性能。其泛化能力则主要通过微调阶段来评估。
3. 实验方法
3.1 数据集
两组乳腺癌组织病理学研究的数据集被选中。基于这些数据集采集到的图像样本将经过数据增强处理,并被用于训练与测试所选分类模型。作为机器学习算法优化的重要组成部分存在。采用特定的数据增强技术的具体实施过程如图3所示。所使用的确切技术将在第4节中介绍。
3.1.1 BreakHis数据集
BreakHis数据集包含7915张乳腺肿瘤组织图像

3.1.2 IDC数据集
IDC数据集[2,3]采集了162张40x扫描的浸润性导管癌(乳腺恶性肿瘤的一种)整张幻灯片图像,从中提取50x50大小的斑块277,524块。由此产生的补丁集被标记为“IDC”(78,786个样本)或“非IDC”(198,738个样本)。所有图像都有3个通道(RGB),并以PNG格式提供。本研究还使用该数据集进行二值分类。为了大致匹配BreakHis数据集的大小,实验中只使用了7906个补丁。

3.2 方法概述
所有被选中的模型均在 BreakHis 和 IDC 数据集上进行了训练与测试。这一流程如图 3a 所示。用于计算并记录二值图像分类指标的相关数值包括:完成训练所需的 epoch 数、训练所需的时间、测试精度、模型参数数量以及特异性、精确度、召回率、F1 分数以及 ROC-AUC 分数等指标。一旦初始性能得以记录,在 BreakHis 数据集中重新训练的所有模型(现视为预训练模型)也会在 IDC 数据集中进行微调(如图 3b 所示)。这种做法无需对执行环境做出任何改动,并将上述提到的各项指标再次记录下来。选择 IDC 数据集进行微调的原因在于其图像仅表示导管癌的存在或不存在,在 BreakHiS 数据集中捕获的乳腺肿瘤类型中更为严格(参见第 3.1.1 节)。

(a) 使用基于空白模型的方法对BreakHis和IDC数据集进行建模与验证的过程进行了详细说明。
(b) 在现有基础上通过调整模型参数的方式实现了对IDC数据集的优化以提高分类性能。
3.3 模型
3.3.1 ViT
随后,输入图像被划分为若干均匀且互不重叠的小区域。patch的数量则由以下公式表示。

其中h代表图像的高度,w代表图像的宽度,p代表patch的大小.每个patch被展平为一维序列,而非保持原有的二维结构.最终,分别对展平后的每一个patch在偶数索引处应用低频正弦函数,在奇数索引处应用高频余弦函数进行位置编码.在将整个补丁序列输入到Transformer Encoder之前,会在补丁序列末尾附加一个特殊的分类标记 token.随后系统利用这个 token 进行图像类别预测.
缩放的点积注意力

注意力机制
其核心架构主要由自注意力机制构成。(缩放点积)自注意力机制中, 输入块被视作向量序列而非图像数据。经过归一化处理后, 这些编码序列依次通过三个独立的线性变换层进行特征提取, 每一层输出对应同一区域的不同投影形式, 分别命名为Query (Q), Key (K)和Value (V)三者。随后, 通过计算Q与K转置矩阵的点积结果, 并对该乘积累加权求和, 最终获得经过比例缩放后的注意力输出结果

)并且经过softmax函数传递, 生成一个概率/权重矩阵; 现在可以通过另一个矩阵乘法来调整V中的相应数值

ViT的变压器编码器主要采用了多头注意力机制(如图5所示),它将查询(Q)、键(K)和值(V)作为输入,并分别将它们投影H次(其中H为头的数量)。随后,在每个投射操作中会并行地实现一个自注意力机制。最终输出结果是这些投射操作后的输出信息集合。

Transformer Encoder
整个Encoder架构整合了前馈连接这一关键组件,在处理原始输入数据时发挥着重要作用。具体而言,在进行多头注意力计算后会将原始输入信号进行融合处理,并将其整合到最终输出结果中。随后经过归一化处理及MLP模块(其中MLP由带有Dropout机制的密集层构成),同时这些操作也会被施加到最终结果中以增强网络表达能力。所有这些步骤都包含了一个Transformer模块(如图6所示)。根据需求,在ViT架构中可灵活配置多个这样的模块以提升模型性能。

分类输出
MLP头接收Transformer层的输出,并舍弃非分类令牌之外的所有补丁。这个getToken携带与分类过程相关的图像数据,并因每个其他补丁均经历自注意力机制而得以保留该特征信息。MLP头仅利用这些数据来进行图像类别预测

完整的ViT结构

3.3.2 基于池化的Vision Transformer
随着CNN结构中特征的迁移,在空间尺度上有所缩小的同时其通道数量得到增加这种维度转变主要由池化层这一机制所完成另一方面地其规模保持恒定在其Transformer架构各层次之中基于池化的视觉Transformer (ViT)通过整合卷积神经网络(CNN)降维机制将其融入到传统的ViT架构之中从而期望达到提升性能与泛化能力的目的
ViT经过处理后生成二维数据,并通过特定机制与三维张量交互。池化层则用于处理三维张量。其目的是在ViT网络架构中引入池化机制以便于特征提取。二维数据被重新排列成三维结构后进行操作:随后减少空间尺寸并扩展通道数量...这相当于应用基于深度卷积的操作来完成池化。最后输出结果再转换回二维矩阵传递给下一个Transformer模块进行进一步特征融合与更新...] 由于输入分类标记的空间分布特性不同...无法直接采用相同的池化操作方案...因此需要结合完全连接层对其进行优化设计...使得每个位置的特征表示能够适应不同空间尺度的需求...从而保证模型对复杂场景具有良好的适应性

PiT在架构设计上与ViT相似,在此基础上增添了两个池化层以实现多尺度数据处理(如图9所示)。经过这一改动后,在网络早期阶段注意力表现出较为分散的趋势,在较深层的位置则呈现出高度集中的特点。值得注意的是,在引入降维操作后不仅降低了模型所需计算资源的数量。相较于ViT而言其优势主要体现在抗干扰能力更强以及对细节特征捕捉得更加敏锐。

3.3.3 卷积化Vision Transformer(CvT)
当Transformer技术被广泛应用于计算机视觉领域时,在相较于现有数据的动态关注能力以及对全局情境的理解能力方面均显示出显著优势。然而,在平移、尺度变换以及形态畸变等方面的不变性表现上,传统的卷积神经网络(CNN)依然占据绝对优势。为了集成了两种方法的优点,在卷积视觉Transformer(CvT)的设计中实现了二者的融合。通过将卷积令牌嵌入操作与卷积投影操作整合到Vision Transformer架构中去实现这一目标。
CvT结构包含三个层次的阶段,在每个阶段中均分为两个组成部分。第一部分中,在给定输入的所有重叠块上应用指定步长进行卷积操作以形成该阶段的卷积令牌嵌入层;随后将层归一化处理应用于生成的所有令牌,并将输出传递至第二部分即由Convolutional Transformer Block构成的操作模块中进行进一步处理。值得注意的是,在这一设计中每一层均采用深度可分离卷积来直接提取查询、键和值嵌入(而不是通常采用线性投影操作),其中较大的步长有助于捕获较短范围内的特征信息,在此过程中生成较短长度的键和值向量(因而相对于查询嵌入而言其规模较小)。这种投影机制被命名为卷积投影机制
在整个CvT架构中,在最后一阶段才引入了分类令牌。到最后阶段,在这些分类令牌上应用多层感知机(MLP)头以实现图像的分类任务,并使其其分类机制与ViT的方法相匹配

借助层归一化技术的应用,在每一步骤中都减少了tokens的数量,并提升了tokens宽度。这表明这些tokens所承载的信息随着他们在不同阶段的变化而变得更加集中。同时,在每一个Convolutional Transformer块中对key和value嵌入规模进行了进一步缩减,并由此提升了计算效率。引入卷积到ViT模型中能够有效地捕捉到局部上下文信息,并消除了位置嵌入的需求
3.3.4 CrossFormer
在Vision Transformer(ViT)中,默认情况下每个嵌入都是从大小相同的块中提取的。这表明图像特征仅在一个特定尺度上进行处理。为了提升基础模型的表现能力,CrossFormer通过引入跨尺度特征提取机制实现了这一目标。为此,我们开发了跨尺度嵌入层以及区分长短距离关注机制这两种核心组件。
该模型通过将ViT划分为四个阶段来进行构建。在每个阶段的开端设置了跨尺度嵌入层,在此处,输入通过四个不同尺寸的核采样进行捕捉,并保持一致步长。其中每个内核生成相同数量的嵌入向量,并且其中每组嵌入组从各自不同的尺度角度存储了与输入相关的信息。所有核对应的嵌入信息被整合在一起,并通过连接机制生成了该层最终的整体嵌入表示。为了提升计算效率较大尺寸的核采用较低维度的设计而较小尺寸则采用了更高维度的设计以确保层次结构的有效性
在各个阶段中剩余的部分均由多个CrossFormer模块构成,在这些模块内部分别配备短距与长距注意力机制,并通过交错地执行短距与长距注意力机制来处理跨模块的信息,在每一块的具体实现过程中还嵌套着一个多层感知机结构,在近邻注意力机制下会将相邻位置上的嵌入直接连接并结合在一起形成复合特征向量;而远邻注意力则会基于固定间隔采样出待融合的位置信息并完成相应的特征整合;无论是在哪种情况之下都会对最终得到的所有中间特征进行常规自注意力计算以生成最终输出
该模型通过多级跨尺度嵌入层实现了对输入图像在不同分辨率下的多维度捕捉能力,并通过跨尺度嵌入层提取出具有多样性和丰富性的特征表示。值得注意的是,在每一步跨变换器块(CrossFormer block)中都融入了长短距离注意机制以促进局部与全局信息的有效融合,在此过程中ViT模型被系统性地划分为四个构建阶段。每个阶段均以一个跨尺度嵌入层开始,在此之后依次叠加多个跨变换器块(CrossFormer blocks),从而实现了比ViT更高的泛化性能。
嵌入即指将原始输入数据(如图像像素信息或文本词汇标识)经过编码映射生成统一维度表示的过程, 这些统一维度表示会被神经网络系统作为输入层数据进行后续处理应用
3.3.5 CrossViT
该模型也被命名为CrossViT,其主要目的是在视觉 Transformer架构中引入多尺度特征以描述图像。
为实现这一目标,团队开发了一种双支路 Transformer系统,该系统通过交叉注意力机制促进两个分支之间的信息交流。
首先将相同的输入图像分割为两次补丁操作:一次采用较小的空间分辨率生成补丁;另一次则采用较大的空间分辨率生成补丁。随后将这两组不同的空间分辨率下的Transformer模型分别经由两个独立的Transformer架构进行处理,并命名为小支路(s-path)与大支路(l-path)。在每个分支中为输入附加了一个分类标记:其中在大支路由(l-path)中的分类标记较大,在小支路由(s-path)中的分类标记则相对较小。最后将这些带有标记的信息并行传输至各自独立的Transformer编码器模块进行处理。
随后
最终,在两个分类标记之间建立联系,并将其输出被应用于实际图像分类任务。通过在分支之间交换令牌以获得注意机制内部查询投影的方式 ,每个分支能够从其他分支收集到累积的信息;同时结合自己带有 getToken 和 patch 的情况进行注意力机制处理后发现的信息能够进一步丰富自身信息量。与现有同类方法相比,在一定阶段内交叉注意力融合方案通常展现出更好的性能;而本方案则能够在线性时间内完成所有计算过程
3.3.6 NesT
ViT在准确性方面展现出卓越的效果,并且在大规模的数据集上进行训练仍面临挑战。然而,在大规模的数据集上进行训练仍面临挑战。NesT通过引入嵌套式Transformer块构建层次化架构以解决这些问题。
首先,在模型架构中,Transformer 块由多个 transformer 层组成,并负责通过线性投影处理输入图像时所划分的不重叠区域。在每个 Transformer 块内部的操作流程是:将输入图像划分为大小相等的小块区域,并对这些小块执行自注意力机制以捕捉空间特征。为了向下一个层次结构阶段过渡,在完成当前层的操作后会执行块聚合过程。具体而言,在这一过程中,四个相邻的小块会被组合成一个较大的单元。这种聚合操作主要通过卷积层和最大值池化操作来实现:即对四个小块的所有输出进行综合计算并生成新的特征表示。由于每次聚合都会减少四分之一的数量,在多次重复该过程后最终只会剩下最后一个大单元——即顶层的特征提取模块——从而完成整个模型信息融合的过程。基于这个顶层特征提取模块的结果进行分类任务处理
基于块聚合机制,在每个分层阶段都可以完成跨区域的信息传递。此外,在各个图像区域部署独立的Transformer模块以实现局部关注的同时借助块级联的方式完成全局感知。随着层次结构中信息流动逐渐向高位扩散,在相同条件下NesT不仅能够更快地收敛(训练损失下降速度显著提高),而且所需的训练样本数量显著减少(与ViT相当)。这种特性使其对于数据增强操作具有较强的鲁棒性

3.3.7 MaxViT
自注意力机制,在计算上是高消耗资源的(例如,在Vision Transformer (ViT)中所使用的机制)。然而由于其对输入图像尺寸以及计算机视觉任务复杂性的限制而显得不可扩展。
MaxViT通过引入多轴关注与卷积模块来有效缓解这一问题。
其主要目的是实现对任意分辨率输入的空间信息进行精细且全面的处理
MaxViT以初始卷积层的结果作为其接收输入的基础,在该模型的工作流程中采用基于相对位置的信息进行自注意力计算,在自注意力权重计算中加入位置相关的偏置项,并对多通道特征图进行逐元素加权求和的操作以增强网络对不同位置信息的感受能力;该模型将输入依次经过多个并行分支处理;每个分支包含三个关键组件:首先是一个深度卷积模块用于提取低级特征信息;随后经过压缩模块进行特征提取;最后通过激励激活函数引入非线性变换;在此基础上分别执行多尺度的空间聚合操作;最终得到的整体特征表示会被 fed 到全连接层进行分类任务
相对自我注意机制基于常规自注意力基础上增强了位置感知能力和归纳偏差意识。灵活设计的多轴自注意力机制(包括块注意力与网格注意力)能够有效处理不同层次的信息特征。单个块内能够处理本地信息与全局信息并行处理的能力显著提升了一种新的自注意力计算方式:将常规自我注意力过程被划分为两个连续的小规模关注机制从而降低了操作复杂度并提高了计算效率。每个MBConv块采用了压缩激励模块这一改进设计显著提升了网络泛化能力的同时也简化了网络架构结构设计避免了显式位置编码层的需求从而实现了更加高效的特征提取能力与空间定位能力的整体提升研究发现MaxViT模型在网络多个计算机视觉任务上表现出色并且能够高效扩展至大量数据规模这一创新性设计带来了在网络性能上的显著提升
3.3.8 可分离Vision Transformer(SepViT)
该架构的目标是减低视觉Transformer在计算复杂度上的显著提升。该研究通过引入深度可分自注意力机制、窗口标记嵌入方式以及单点自注意力方法来取代传统ViT架构中的标准自注意力模块。同时为提升模型性能能力,该研究还开发了基于分组自注意力的设计策略。
首先通过输入图像生成特征映射此映射经过区域划分并在每个区域生成一个像素令牌深度自注意力机制在每个区域及其对应的像素上展开作用在此过程中区域令牌整合了各自区域内的像素信息从而完成了区域令牌嵌入过程随后执行逐点自关注其中区域令牌通过层规范化与GeLu激活函数作用下分别生成查询与键分支在注意力计算中直接将区域的特征映射作为值分支处理这一系列操作构成了SepViT自注意力层的功能在模型后续阶段分组自注意力取代了这一层在这种架构下分组进行深度可分离自注意力运算而不是在每个区域单独处理
通过深度可分自注意力机制能够有效提取图像的局部特征;同时采用点自注意力模块则能够处理整体信息。通过窗口令牌嵌入技术可以建模不同窗口之间的注意力关系;基于这些特性设计的SepViT架构能够在单个Transformer块中高效整合本地与全局信息。在实现过程中仅采用了最少必要的中间层(如MLP和层归一化),从而保证了模型结构的紧凑性;在此基础上 SepViT也实现了性能与延迟之间良好的平衡;此外该方法还支持将输入信号划分为多个组别并分别执行自注意力操作;这种设计策略不仅能够增强模型对长距离依赖关系的学习能力;还显著提升了其整体性能表现
4. 实验设置
BreakHis和IDC数据集各自划分为训练集合、验证集合以及测试集合,在数据比例上占用了85%以上的训练样本、约5%的验证样本以及10%左右的测试样本。在数据预处理阶段,对每一张图像均进行了相应的增强处理。


5. 结果
该实验划分为三个主要阶段。所选模型均基于BreakHis和IDC数据集独立训练完成。随后,在基于BreakHis的数据集上使用IDC对该模型进行了微调优化。本节详细报道了各阶段的训练与测试结果。
5.1 在BreakHis上从头开始训练
收集各个模型的参数量(Parameter Count)、训练时长(Training Duration)以及包括测试准确率(Test Accuracy)、平衡准确率(Balanced Accuracy)、特异性(Sensitivity)、精密度(Precision)、召回率(Recall)、F1值(F1 Score)和AUC(Area Under Curve)等关键指标的数据集。由于采用了提前终止策略(Early Termination Mechanism),因此我们还统计了各模型在训练过程中的迭代次数(Iteration Count)。
5.2 在IDC上从头开始训练
5.3 在BreakHis上预训练然后在IDC上微调
大多数机器学习模型在内部分布式计算平台(IDC)上的微调迭代次数不超过从零开始训练该数据集所需的迭代次数。
然而,在学习一个模型所需的时间与其性能之间并不存在直接关联。尽管某些情况下收敛速度较快的模型并不一定表现出更好的性能水平,并且反过来也不成立;基于对每个单独的学习过程所需时间的不同分析可知,在此过程中无论是快速还是缓慢地完成都未必能带来更好的效果表现。此外,在考察不同配置下的参数数量变化时也可以发现这一普遍规律:即无论参数数量是增加还是减少,并不能简单地认为其与最终得到的效果表现存在必然联系
BreakHis数据集涵盖了一系列以不同放大倍率拍摄的完整幻灯片图像;相比之下,在IDC数据集中所有图像均采用相同的放大倍率拍摄。这表明,在进行从零开始训练时;大多数模型在IDC数据集上的测试精度显著高于其在BreakHis数据集上的表现。值得注意的是;在经过BreakHiS预训练后;在IDC数据集上的性能表现更为突出;尽管采用了预训练策略(如基于BreakHiS);但性能提升的空间仍然有限。
MaxViT、NesT和CvT能够识别更多样化数据集(如BreakHis)中的图像特征,并在更长时间进行训练后表现出更强的适应性。通过将IDC数据集与从头开始训练的模型进行微调,在保持较少训练时间的前提下显著提升了测试精度,并且所需计算资源消耗也有所减少。从结构上讲,在逐层处理输入图像的基础上构建了这些模型,并且这些模型最终输出的所有标记集合能够反映图像处理过程中的所有分类结果信息。
MaxViT展现了极强的分类器性能,在当前模型中占据首位地位;紧随其后的是NesT与一种称为卷积视觉Transformer(CvT)架构的表现。这些模型共有的关键设计特点包括分层架构与信息多级聚合机制,在这一系列设计特点下实现了显著提升的分类准确性;研究结果表明,在图像处理任务中采用层次化框架构建、分阶段整合所有令牌信息的方式不仅能够有效提升模型灵活性以适应不同分辨率下的图像处理需求,并且结合了知识蒸馏技术这一创新性方法为开发基于Transformer的新一代分类器提供了一定的技术参考价值
