Advertisement

数字乳腺癌组织病理学图像分类的Vision Transformer及其变体

阅读量:

该方法被视为一种高效的图像分类工具,并基于自注意力机制而被提出;近年来出现了多种新型视觉Transformer模型

该方法应用于BreakHis和IDC数据集的图像分类任务,并针对数字乳腺癌组织病理学领域展开应用。在完成对BreakHis数据集的训练后,在IDC数据集上进行微调以评估其泛化性能。


在医学领域中,组织病理学被视为一个至关重要的分支学科。它专注于探索各种组织疾病及其特征。在乳腺癌组织病理学研究中,在患者乳房部位采集的样本具有重要意义。通过这种分析手段,在临床诊断中能够帮助医生确定癌症的具体类型以及其当前阶段。

数字组织病理学:以计算机视觉技术进行图像分类的方式帮助机器学习以区分健康与病变组织样本。

当模型经过训练以识别代表健康与癌变乳腺组织样本的图像时,这一过程被称为数字乳腺癌组织病理学。

数字乳腺癌组织病理学:研究利用深度学习技术进行图像分析的方法,以辅助诊断乳腺癌。

Vision Transformer展现了其在仅需较少的计算资源时,在分类精度方面具有更高的潜力。

基于深度学习的CNN模型仍然是计算机视觉领域的主流解决方案。这些技术在多个领域得到了广泛应用,涵盖蒙面识别、行人检测等技术。其中AlexNet, ResNet以及VGG-16网络因其卓越性能成为最常采用的技术架构,并且其准确率普遍超过95%。

虽然ViT在各种图像数据上的分类效果都很出色;但其归纳偏差相对较低

归纳偏差的具体定义如下:

  • 基于有限的数据集和实践经验推导出普遍规律时所形成的认知偏差 ,这种现象在一定程度上是合理的。然而,在样本量较小或缺乏代表性的情况下会导致认知偏离实际情形。
  • 指机器学习模型在训练阶段表现出的预测不准确性和不稳定特征 。这一现象通常源于模型对训练数据分布的学习依赖性不足,在面对分布偏移的新数据时容易产生预测错误。

数据集

本研究采用了BreakHisIDC 两个乳腺癌组织病理学数据集作为研究基础。经过预先处理的数据增强步骤对这些图像进行处理。

  1. 本研究涉及的所有模型均在BreakHis和IDC数据集上经过训练与测试,并标注了相关结果(左图所示)。
  2. 一旦记录了初始性能,在Break His 数据集中从零开始训练的所有预训练模型也会被迁移到 IDC 数据集中进行微调。(右图所示)这样做不会影响执行环境,并且会重新记录之前提到的关键指标。为了提高效率并聚焦于诊断目标,在 IDC 数据集中进行微调是合理的。

BreakHis数据集

BreakHis数据集包含来自乳腺肿瘤组织的7,909张数字化切片图像,并采用四种不同分辨率的显微镜进行观察:分别为高倍显微镜下的4×、10×、20×和40×放大倍数。研究中发现,在该数据集中包含了2,481例良性的乳腺肿瘤样本以及5,431例恶性的乳腺肿瘤样本。每幅图像均为701像素宽、461像素高的RGB三色图像,并提供无损压缩的PNG格式文件。

IDC数据集

IDC 数据集包括 162 张 40x 分辨率的浸润性导管癌(乳腺恶性肿瘤的一种)完整切片图像,并从中提取了 50×50 像素大小共计 277,524 个斑块区域。这些提取出的斑块区域被分别标记为 "IDC" 类(共 78,786 样本)和 "非 IDC" 类(共 198,738 样本)。每幅图像包含 RGB 三个通道,并以无色压缩格式 PNG 格式提供给研究者使用。此外,在这项研究中还采用了这些数据进行二值分类任务训练。为了模拟 BreakHis 数据集的数量规模,在实验过程中我们仅选取其中约 8k 的样本进行分析计算

模型对比

ViT

输入

输入首先将输入图像分割成大小相等、互不重叠的补丁。patch的个数:

n=rac{hw}{p^2}

这些补片被展平和平移投影,并将其以一维的形式保存而非二维格式存储。随后分别对展平后的偶数与奇数位置应用不同频率的交替正弦与余弦函数来进行位置编码。在传递给Transformer编码器前,在补片序列中附加一个分类标记 token

之后,使用此令牌对图像进行实际分类。

注意力机制

其核心组件主要由自注意力机制构成,在其中未将输入补丁视为图像而将其视为向量序列进行处理。这些向量序列经过归一化处理后得到编码补丁序列并分别通过三个独立的线性变换层进行处理。每个线性变换层的作用相当于对同一组原始补丁进行不同维度的空间映射

这些投影被命名为Q、K、V,经过Softmax函数传递,给出一个概率/权重矩阵

attention=softmaxV

该编码器架构由一个前馈连接构成;该连接将带有位置编码的块向量加入多头注意力机制的结果中;经过归一化处理后,进入由一个带dropout层的密集层构成的MLP阶段;在此阶段之后,还对结果进行前馈处理.

MLP头获取Transformer层的输出,并且舍弃除了明确包含分类标记之外的所有片段。该标记携带着与分类任务相关的图像数据。由于在每个其他片段中它都通过自注意力机制捕捉到了相关特征,在此模型中仅基于这些特征进行图像类别预测。

基于池化的Vision Transformer(PiT)

当CNN结构中的特征发生移动时,其占据的空间区域变小,而通道宽度却随之扩大;这种维度变化主要归因于池化层的应用.相比之下,在Transformer架构的所有层级中保持不变的是特征尺寸.

通过池化机制构建的Vision Transformer致力于将CNN的核心降维思想整合进ViT架构中,从而显著提升模型在性能和泛化能力方面的能力

ViT通过转换二维输入数据的方式进行操作,在此过程中与三维张量池化层相互配合工作。在ViT网络架构中实现池化机制时,则需对输入矩阵进行重新组织以形成三维张量结构。随后,在降低空间分辨率的同时显著提升通道数量,则可执行基于深度卷积的操作以完成池化任务。最终将这些操作的结果重塑为二维矩阵形式,并将其传递至Transformer模块的下一个阶段继续完成后续计算流程

当下,在全连接层与池化层之间建立联系的同时,并非只有这种组合方式能够实现效果;而是可以通过灵活搭配这两种结构,在确保与其他令牌的通道尺寸保持一致的前提下提升模型性能。

PiT的整体架构基于ViT设计,在此基础之上额外添加了两个池化层。这些改动旨在对数据在三个不同尺度进行处理。通过这一改动,在模型初期各层产生较为分散的注意力权重,在深层区域则形成了更为集中的关注机制。

Convolutional Vision Transformer

当将其应用于计算机视觉领域时,在这一环境中(从)Transformer引入了一系列关键优势:首先实现了聚焦机制以及数据的整体语境等核心特征;相比之下,在CNN中这种优势更为突出。另一方面,在Vision Transformer架构中融合了一种创新性的解决方案——即结合了两种基于卷积的操作以平衡性能与效率之间的关系

模型架构

CvT包含三个层级结构,在每个层级中均分为两个主要组成部分进行设计与实现。具体而言,在每个层级的第一个模块中, 我们设定特定的空间步长被应用于处理输入图像中的重叠区域, 从而构建了该层级的空间令牌嵌入模块。随后, 在生成的空间令牌上应用归一化处理, 将其输出传递至由Convolutional Transformer Block构成的第二部分模块进行进一步运算操作。值得注意的是, 该类模块的设计与传统Transformer架构存在显著差异: 使用深度可分离卷积模块分别提取空间特征并生成查询(Query)、键(Key)和值(Value)向量, 而非传统的线性投影操作方式来进行特征提取过程。其中, 较大的空间步长被特意选择用于提取关键特征以增强模型性能, 同时相对于查询向量而言, 这些提取到的关键信息由于其更大的尺寸而具有更强的表现力

在整个 C-v-t 的过程中,其分类标记仅在后期阶段被引入。最终阶段,在图像上应用 MLP 头以与 ViT 的相似机制进行特征提取和图像分类。

通过Layer Normalization的应用,在不同阶段中流动的tokens所携带的信息愈发集中。同时减少token数量,并逐步降低每个Convolutional Transformer Block中key和value嵌入的空间维度,在提升计算效率方面效果显著。将convolution引入到ViT架构中能够有效捕获局部上下文信息,并非必要依靠位置编码就能实现这一目标。这简化了实现新型计算机视觉任务的方法流程,并显著提升了模型的泛化能力。多项研究表明,在微调任务上CvT的表现优于传统的ViT架构。

CrossFormer

在ViT架构中,默认情况下所有的嵌入模块都是基于相同尺寸的补丁进行提取的。这表明图像特征仅在一个固定的尺度下进行处理。CrossFormer旨在通过在过程中引入跨尺度特征提取来改进基本模型,并提出了两种关键机制:一是交叉尺度嵌入模块;二是长距离注意力机制。其中主要包含两个关键组件:一个是交叉尺度嵌入层;另一个是长距离注意力机制。

CrossFormer 模型是通过将 ViT 模型分为四个阶段而创建的。

在每个阶段的起始位置上设置了跨尺度融合层,在此过程中,输入通过四个不同尺寸的小核进行采样,并且各小核保持一致的空间取样间隔。由此可得,在此设置下每种小核均产生等量的结果特征向量,并且从多级空间特征的角度提取并保留了与输入相关的信息;将各小核提取的所有特征响应信息整合后构建出该层次的整体表征空间

考虑到管理层对计算效率的关注,在较大的核心下采用较低维度,在较小的核心中则采用较高维度。每个阶段中剩余的部分则由若干CrossFormer模块构成。

3、每个CrossFormer单元均配备有长短距离注意机制,在各相邻单元之间轮流执行短距与长距注意作用。该模块中的每一个实例均包含多层感知机网络架构,在处理短距注意时,则需将相邻位置上的嵌入进行组合计算;而在处理长距注意时,则需从嵌入序列中按固定步长采样选取相关元素进行综合评估。

4、在任何一种情况下,都会对组合嵌入执行定期自注意力。

跨尺度嵌入层通过支持多个不同尺度下的输入图像观察进而为特征提取提供多样性和丰富性。此外, 长短距离注意力模块通过确保注意力机制在本地和全局嵌入上进行操作。

CrossViT

CrossViT 努力整合到 ViT 结构中的多层次图像表示方案。以实现此目标为目标,构建了一个双分支Transformer架构 ,该架构通过交叉注意力机制完成信息交互过程。

首先同一个输入图像依次分为两次块第一次采用小尺寸分割第二次则使用大尺寸分割这两组数据分别进入两个独立设计好的Transformer架构即s-path和l-path每个网络单元都会在其接收的数据旁边增加一个分类标识符其中l-path中的分类标识符较大而s-path中的则较小需要注意的是这些信息会同时传递给各自独立负责处理的小尺寸编码模块和大尺寸编码模块以完成整个特征提取过程

接下来,在两个分支的信息之间通过交叉注意力模块实现了融合。l分支利用自身的分类标记生成了相应的查询投影;与此同时,则有s分支的处理输出(包括补丁和分类标记)用于生成相应的键和值投影。传统的注意力机制在此过程中采用了这些投影来进行计算,并在必要时引入额外的功能以统一所有输入的空间维度。

在处理完第一个交叉注意力块后,在第二个块中的l-分支token将会与自注意力机制内部特有的补丁发生交互作用,并且这一过程会按照预定次数交替进行。与此同时,在s分组中同样会执行这一操作,并拥有本分组特有的token以及从l分组获得的patch。

最后,将两个分类标记连接起来,并将输出用于实际的图像分类。

在各分支间交换令牌的过程中,在注意力机制内部实现了查询投影这一过程得以实现。各分支能够从另一方获取并整合其积累的信息内容作为进一步计算的基础依据。
交叉注意融合方案用于实现各分支间通信的过程能够在多项式时间内完成这一特性赋予其高效的计算能力。
CrossViT系统在图像分类任务中的性能表现不低于现有的相关方法这一结论基于大量实验数据的支持。

NesT

ViT 在准确性方面的性能表现优异,然而其主要依赖于大量训练数据。该方法在推广至新数据或任务方面存在不足。NesT 通过采用嵌套Transformer block构成的层次结构来改善这些问题。

首先,在计算机视觉领域中,每一个由多个Transformer层构成的模块都会接收并处理经过线性变换后的图像数据,并专注于分析其中不重叠且尺寸一致的小块区域。这些模块通过将输入划分为若干不重叠的小块区域,并通过自注意力机制进行深度变换来提取特征信息。

在层次结构的下一阶段,通过块聚合进行操作。在每个过程中,将四个相连的块进行合并。使用卷积和最大池化操作对四个块的所有输出进行综合处理。减少到原来的四分之一数量的操作继续下去直至仅剩最后一个特征图。持续进行这一操作直至仅剩最后一个特征图。最后通过分析该特征图来识别图像类别。

基于块聚合机制,在各个层级阶段能够实现跨区域非本地信息的有效传递。其中局部注意力则由各自独立地运用不同Transformer block进行处理;而全局注意力则依赖于块聚合机制完成传递。当数据沿着网络层次结构流动时,“感受野”的扩展程度逐渐提升。研究者们发现NesT算法不仅收敛速度更快的同时,在训练数据量上也更为高效地接近ViT模型的表现水平;而且相较于ViT模型,在面对增强后的数据时具有更低的敏感度,并展现出更强的学习能力。

MaxViT

该模型主要基于自注意力机制,在图像尺寸参数和视觉任务复杂度方面存在局限性。

通过在基础模型中引入多轴注意力卷积 来解决这一问题。

多轴注意力旨在通过不同分辨率的输入实现对空间信息的局部与全局处理。

MaxViT 采用其初始卷积层的结果作为输入 。在整个过程中,在使用相对自我注意力时(即通过将相対學習偏差加入到獲得的注意权重中)。

输入依次穿过多个并列设置的MaxViT模块,在各个模块中采用不同分辨率进行运算操作。每一个处理单元均包含三个关键组件:MBConv模块、Block Attention机制以及Grid Attention机制。“其中**MBConv(倒置瓶颈卷积:主要思想是倒转残差结构)**由深度卷积层构成,在此之后连接有压缩与激活组件”。其输出信号被直接馈送给Block Attention组件作为输入信号。随后该处理单元将其空间分割成多个互不重叠的小区域,在每一个区域内执行自注意力计算。

接下来,网格注意力 混合 获得的令牌并对它们实施稀疏注意力。

对于分类任务而言,在处理这些连续排列的MaxViT块时,全局平均池化被应用于其输出。所得的特征向量随后被传递至分类头进行识别。


在常规注意力机制的基础上引入位置感知能力及归纳偏差处理,在其结构设计基于Block Attention与Grid Attention的结合下实现了高度灵活性。该结构支持在同一块内同时处理局部特征与全局信息,并将常规自注意力流程分解为两个连续的小规模子过程以降低计算复杂度。MBConv模块内的压缩与激活组件显著提升了模型的泛化性能,并整体而言不仅增强了条件位置编码能力,并取消了显式位置编码层的需求。


可分离Vision Transformer(SepViT)

该模型的目标是降低ViT计算复杂度,并采用深度方向可分离自注意机制取代其自身特征提取过程中的常规方法。此外还实现了分组自注意方案以进一步提升模型性能

SepViT架构 首先在图像上构建特征图随后将该图像划分为多个非重叠区域并在每个区域内生成表示性令牌在此基础上应用深度自注意力机制以捕捉局部空间关系接着对各区域之间的相互关系再施加另一种自注意力机制这些令牌先经标准化处理并激活函数作用以生成查询向量和键向量最终直接获取各区域对应的特征图并将其作为关注机制中的值分支

分组自注意力在模型训练后期取代了这一层结构设计;深度可分离型自注意力是基于一组固定大小窗口进行计算;而对比之下其计算方式与逐个窗口处理的方式不同

通过分层可分离自注意力机制能够有效提取图像的局部特征;而点自注意力模块则能够实现对全局信息的捕捉与处理。通过窗口标记嵌入方法能够建立并刻画跨窗口区域间的注意力关系;基于上述关键组件的设计理念,在一个Transformer块内 SepViT 实现了对局部与全局信息的有效融合;同时该架构还能够在性能与延迟之间实现一种平衡性的权衡策略;此外,在模型训练过程中,基于自注意力机制的设计不仅能够有效捕捉输入序列中的长程依赖关系,在提升整体性能指标方面也展现了显著的优势


该实验的具体过程如下:BreakHis 和 IDC 数据集被划分为各自的训练集、验证集和测试集,并各自占比例为 85%、5% 和 10% 的图像。所有图像均经过了数据增强处理。

基于BreakHis平台自监督学习训练形成的模型现已被归类为预训练模型。随后,在IDC数据集上对其进行微调训练以进一步优化性能。

其周期数与其性能之间无显著关联。即使收敛速度更快的模型也不一定表现得更好

全部评论 (0)

还没有任何评论哟~