DCET-Net:用于乳腺癌组织病理学图像分类的双流卷积扩展变压器( Dual-Stream Convolution Expanded Transformer )
基于局部性归纳偏差的影响,CNN在乳腺癌组织病理图像全局特征提取方面存在局限,这导致其分类效果未能得到显著提升
本文提出了一种纯 Transformer 主干结构,并在此基础上增加了额外分支。该主枝络由自注意力模块构成,并旨在从组织病理切片中提取具有长程依赖能力的关键信息。以弥补卷积神经网络在关注局部区域方面的局限性。分别构建基于卷积神经网络与 transformer 模型的核心支路,并通过逐级整合两支路提取的信息实现对组织病理切片图像进行分类分析。这种双支路融合框架命名为 DCET-Net(Dual-Channel Efficient Transformer Network),其主要优势在于能够有效结合局部与全局空间信息,在保持模型简洁的同时实现了对复杂医学图像数据的良好解释能力。
组织病理学图像能够清晰地呈现乳腺组织细胞的形态特征,在当前医疗领域中处于无可替代的重要地位。然而,在实际应用过程中存在明显的主观局限性和时间成本限制。这种观察方式不仅难以实现快速判断,在分析结果时也可能受到不同人的主观认知影响。
当前基于深度学习的乳腺癌组织病理学图像分类方法主要可分为两类。一些研究者选择具有代表性的卷积神经网络(CNN)架构作为提取模块以捕获乳腺癌组织病理学图像中的深层特征,并随后建立基于传统机器学习模型的特征分类器以区分所提取的深层特征。这通常被视为一种非端到端的方法
该方法并非基于整体系统或流程的设计理念。
它强调通过分解目标为多个独立的任务来进行操作,
并整合各子任务的结果以生成最终输出。
引入基于注意力机制的端到端模型架构,并旨在用于对乳腺癌组织病理学图像进行分类分析。根据研究可知,在缺乏长距离空间感知能力的情况下(即CNN算法设计特性),这些模型难以有效捕获乳腺癌组织病理图像的整体特征信息;因此,在较大程度上制约了分类性能的进一步优化
除了 CNN 主干之外,在CNN的基础上又增加了基于自注意力机制的Transformer主干结构后广泛应用于多个视觉任务并展现出显著的性能水平。 Vision Transformer相较于传统的 CNN 主干具有更强的全局语义关联捕捉能力而不仅仅局限于关注局部区域特征的传统 CNN 主干存在显著差异
Transformer的几种变体
DETR 是以 Transformer 为基础构建而成,并且它是物体检测领域首个取得显著成果的应用
Max-DeepLab中采用了一种称为掩码Transformer的技术方案,在该方案中可以直接识别并标记出带有所属类别的目标区域。此外还结合了 二分图匹配的方法来进行优化训练,并通过该方法实现了具有高保真度启发式损失函数的支持。
Video instance segmentation by VisTR is framed as a parallel sequence decoding and prediction problem. Based on an input consisting of multiple image frames, VisTR directly generates the mask sequence for each instance within the video. In the domains of object detection and comprehensive instance segmentation, VisTR has demonstrated its exceptional performance. Research efforts increasingly focus on exploring its applications in current hot topics like image classification.
在VisTR(Video Instance Segmentation with Transformers)输出的视频中,每个实例的掩码(Mask)是指用于标识和区分视频帧中各个独立实例(如物体、人物等)的二进制图像。掩码通常是一个与输入视频帧相同大小的矩阵,其中每个像素点的值表示该像素点是否属于某个特定实例。
具体来说,掩码中的每个像素点都有一个对应的值,通常为0或1。值为1的像素点表示该像素点属于某个特定实例,而值为0的像素点则表示该像素点不属于该实例。通过将这些值为1的像素点连接起来,就可以形成一个轮廓,用于精确地勾勒出该实例在视频帧中的位置和形状。
在VisTR的输出中,每个实例都会生成一个独特的掩码,用于标识和区分视频帧中的其他实例。这些掩码的顺序通常按照视频帧的顺序生成,即按照时间轴上的顺序排列。同时,为了保持连贯性和一致性,VisTR还会利用跟踪算法将不同帧中的相同实例关联起来,生成一个连贯的掩码序列。
总之,VisTR输出视频中每个实例的掩码是一种用于标识和区分视频帧中各个独立实例的二进制图像,通过掩码可以精确地勾勒出每个实例在视频帧中的位置和形状。
输入序列的Transformer能够自动回归预测像素,并未将来自二维输入框架的信息进行整合。
ViT则完全使用纯Transformer处理图像块序列,并在多个图像识别基准上展现了强大的性能。
SETR基于Transformer架构实现了对像素级预测任务的突破,并且超越了基于CNN架构的基本模型。
思考:Transformer主干是否有利于乳腺癌的分类?
DCET-Net
替代现有的Transformer主体结构以提升分类性能,并开发了一种双流网络模型。该模型成功地将长距离依赖性与局部信息提取能力相结合。
- 模型主体中的Transformer层具备感知图像上下文的全局视图特征,并对性能提升具有积极作用。
- (例如,在实际应用中)该架构通过整合多模态信息实现了更高的识别准确率。
DCET-Net作为一种创新性设计,在整合CNN与Transformer主干时充分发挥了优势。基于这一系列关键里程碑节点,在传统的CNN架构中仅关注局部特征的基础上,该网络还能够从Transformer架构中提取并融合全局特征信息。在协同作用下实现了信息的有效融合与逐步优化提升,并最终使得主干网络在Transformer主干引导下获得了更为全面的全局视角。
模型架构
DCET-Net通过卷积神经网络捕捉组织病理学图像的空间细节特征,并借助Transformer架构提取图像全局空间信息;该网络设计实现了更加精细的特征表征能力,并可应用于乳腺癌组织病理学图像识别任务中。⊗表示内积运算

DCET-Net模型是一个具有创新性的双流架构,在CNN和Transformer两大核心模块的基础上实现了高效的特征提取能力。经过数据增强与预处理操作后获取的输入图像被分配至不同的流进行组织病理学切片的组织特征提取分析。
CNN流程:基于多组残差块构建的ResNet架构,在每组主要由卷积层构成的基础上旨在捕获局部特征及其相互关系,并且由于其设计限制无法在任何中间层中对全局上下文进行建模。远距离位置之间的特征通信能力有限。
Transformer流程:每个 Transformer 层通过自注意力机制来收集远程关系;为每个特征设计全局视角,并基于其与其它特征间的相似性输出非局部特征。
在MLP结构之前的位置上,在经过位置编码(Positional Encoding)处理之后,在这一区域上,在MLP头之前的那个位置上,在经过了位置编码之后的位置上,在MLP层之前位置上的那个地方,在经过了位置编码之后的位置上的那个地方,在MLP层之前的位置上进行了一次位置编码(Positional Encoding),随后又进行了多头自注意力(Multi-Head Self-Attention)操作,并且在此过程中形成了一个完整的循环结构,并且在这个循环结构中不断重复这个操作步骤;随后又将这些融合后的结果传递给下一个循环单元;在这个过程中每一个循环单元都会执行相同的操作步骤;最终在完成整个循环体的所有操作之后,在最后一个循环单元结束后又进行了前馈神经网络(Feed-Forward Network)操作;随后又对所有中间结果进行了整合处理,并对这些结果进行了进一步的优化;最后将整个过程中的最终结果进行了归一化处理,并将其作为整体图像表示的一部分提交给分类器进行识别任务;
Transformer流
该模型处理的对象是一维数据结构,相较于处理二维图像信息而言有着显著的不同特点。该编码器由大量使用多个Transformer层构成,在设计上每个层均实现自注意力机制。
该模型处理的对象是一维数据结构,相较于处理二维图像信息而言有着显著的不同特点。该编码器由大量使用多个Transformer层构成,在设计上每个层均实现自注意力机制。
给出二维输入图像

,我们首先将其转变为一个展平的包含N个二维补丁的序列

,其大小为

,这些补丁不重叠,也被称为视觉标记。通过线性嵌入

,将N个C维度的扁平补丁(

)映射到D维度

。
当我们进行块嵌入时,在此之后我们会引入一个可学习的位置表示标记;此外,在此过程中我们需要确保能够保持位置编码的信息,并为每个块设计了一种特定长度的一维表示。这些一维表示会被作为块嵌入的一部分加入进去

中从而形成最终的序列输入,通过下一个Transformer编码器进行传递。
Self-Attention
由多个标准Transformer模块组成的编码器结构中包含了多个并列的子结构单元。每个子结构单元均集成了一个多头自注意力机制以及一个由两个全连接层构成的多层感知器(MLP)。其中,在第一个全连接层后配置了GRLU非线性激活函数。值得注意的是,在每个子结构单元前后设置了 层归一化 操作以及残差连接。
自-attention机制是Transformer架构中的核心组成模块,在处理序列数据时发挥着不可替代的作用;该机制通过整合输入特征的全局表示来不断更新各空间位置上的视觉编码器(Visual Token Sequence)。


,


多头注意力MSA
MSA由独立SA组成,首先将所有的SA连接起来,然后将其投影出来,从而获得最终的输出。
,其中

是投影矩阵。

是MSA中SA的维度。
则整个的transformer块的公式为:

DCET-Net
如图所示,浅层 ResNet−18 和 ViT−Base 被选作 构成 DCET−Net 的 两个 主干部分。针对 ResNet−18 来说,在 略微 调整 其 架构之后,在 整合 这两个主干 的 特征 时无需 执行 上采样 或 下采样 处理即可实现 输出与 ViT−Base 相同的空间分辨率(即 14×14) 的 特征 图像。
DCET-Net基于ViT-Base主干全局特征融合的方式,在ResNet-18中的每个残差块上实现了增强其特征的效果。经过这一强化过程后得到的增强后的特征依次被传递至后续每一个残差块。在ResNet-18架构中共有三个连续排列的残差模块,在其输出空间维度分别为56×56×64、28×28×128以及14×14×256的情况下完成了一系列深度学习任务处理
在Layer 1中, 我们首先执行一个1\times 1卷积操作以减少通道数至64个. 随后通过上采样技术将分辨率提升至56\times 56.
import torch
import torch.nn as nn
import torch.nn.functional as F
# 假设输入特征图大小为14x14x256
input_feature_map = torch.randn(1, 256, 14, 14)
# 第一步:上采样
upsample_layer = nn.Upsample(scale_factor=4, mode='bilinear', align_corners=True)
feature_map_after_upsample = upsample_layer(input_feature_map) # 56x56x256
# 第二步:调整通道数
conv_layer = nn.Conv2d(in_channels=256, out_channels=64, kernel_size=1, stride=1, padding=0)
feature_map_after_conv = conv_layer(feature_map_after_upsample) # 56x56x64
print(feature_map_after_conv.shape) # 输出应为[1, 64, 56, 56]
然而,在Layer3层面的情况下,在对ResNet-18以及ViT-base提取出的特征进行点乘计算时,并不需要执行卷积操作以及上采样步骤。随后,在ResNet-18模型顶部应用池化操作后可以获得一个256维的图像表示向量
同样的情况,在ViT-Base中使用MLP Head来获得这些向量时,其模型架构中最后的全连接层(FC)也会产生256维的表示。
import torch
import torch.nn as nn
# 假设我们有一个128维的向量
input_vector = torch.randn(1, 128)
# 创建一个线性层,输入维度为128,输出维度为256
linear_layer = nn.Linear(in_features=128, out_features=256)
# 将输入向量传递给线性层
output_vector = linear_layer(input_vector)
print(output_vector.shape) # 输出应为[1, 256],表示我们得到了一个256维的向量
数据集
本研究收集了82名患者共791×5张临床乳腺肿瘤组织病理图像样本(注:原文应为791×5?可能是笔误应为791*5=3955张?根据上下文推测应为单片样本数量)。其中每张样本图像均为700×463像素分辨率(注:原文为"每张图像"可能是笔误应为"每张样本"?根据上下文推测应更正为"每张样本")。良性肿瘤类型包括纤维腺瘤、腺瘤、管状腺瘤及毛状体瘤等四种共计2,481例;而恶性肿瘤类型则包含小叶癌、导管癌以及乳头状癌等四种共计5,438例。这些数据分别对应于使用不同放大倍数(包括4X, 1X, 2X及4X)下的显微切片统计结果

评价指标
在乳腺癌组织病理学图像分类应用中,图像级识别率与患者级识别率被视为最常用的两个重要指标。其中,其数值等于正确分类的图像数量除以总待分类的图像数量;该指标未考虑患者的个体特征信息。然而,在计算患者的分级识别度时,则会充分考虑到患者的个体特征数据。
