融合CNN和ViT的乳腺超声图像肿瘤分割方法
本文提出了一种结合卷积神经网络(CNN)和改进的Vi Transformer(Swin Transformer)的分割方法,用于乳腺超声图像的肿瘤区域分割。研究目的是提高传统CNN在处理乳腺超声图像肿瘤区域分割中的性能。方法上,作者改进了Swin Transformer结构,提出了多头跳跃注意力机制(MSKA),并结合可形变卷积(DC)和交叉注意力机制(CA),提出了混合损失函数(HL)以优化模型。实验结果表明,该方法在Dice系数、Jaccard指数、Hausdorff距离、准确度和召回率等指标上均优于现有经典算法,特别是在两个公开数据集(BUSI和Dataset B)上的表现尤为突出。消融实验进一步验证了各模块的有效性,表明所提出方法在乳腺超声图像肿瘤分割中具有较高的精度和潜力。
摘要
该研究提出了一种基于Swin Transformer的新型深度学习架构,显著提升了乳腺超声图像分割的性能。该模型通过创新性的可形变卷积设计,实现了对交叉注意力机制的优化,最终达到了混合损失函数下的最佳平衡。
我国国家癌症中心于2022年2月发布的最新一期全国癌症统计数据显示,乳腺癌是我国女性发病率最高且死亡率第四的癌症,分别占比较高的29.05%和6.39%。我国乳腺癌的发病率和死亡率呈逐年上升趋势。乳腺超声成像因其无需创口、无需放射线照射且成本低廉的特点,已成为临床中广泛应用于乳腺肿瘤检测的重要手段,尤其在资源匮乏的国家和地区,乳腺超声成像已成为开展大规模乳腺癌筛查和诊断的理想方法。然而,即使是经验丰富的放射科医师也难以准确和快速地标记乳腺超声图像中的病变区域。随着人工智能和深度学习技术的快速发展,乳腺超声图像的计算机辅助诊断(computer aided diagnosis, CAD)技术应运而生,而乳腺超声图像CAD系统中的一个重要内容就是乳腺肿瘤区域的精确分割工作。
近年来,深度学习分割方法逐渐兴起,并在医学图像分割领域展现出显著优势[4]。通过将图像分割问题转化为逐像素分类问题[5],可以显著提升分割效果。卷积神经网络(convolutional neural networks, CNN)作为医学图像分割的核心技术,在乳腺癌相关图像处理中发挥着重要作用[6]。U-Net[7]作为一种基于CNN的主流架构,因其高效的特征提取能力而备受关注。Almajalid等[8]首次将U-Net应用于超声图像的乳腺病变分割,相较于传统的基于图论和模糊c均值聚类的分割方法,取得了更好的性能。然而,与普通图像相比,乳腺超声图像中肿瘤区域的纹理、形状和尺寸差异显著[9],且存在许多外观相似但与肿瘤距离较远的正常像素[10]。单独使用U-Net难以达到预期效果。为了克服这一局限性,Zhuang等[11]提出了一种改进型残差扩张注意力门U-Net(residual dilated attention gate UNet, RDAU-Net)。该方法通过引入扩张的残差块和注意力门来替代传统架构中的基本块和跳跃连接,显著提升了肿瘤分割的灵敏度和准确性。尽管基于CNN的网络在乳腺超声图像分割中取得了显著成果,但其有限的感受野和固有的归纳偏置限制了对全局上下文和长距离依赖的建模能力,这在一定程度上影响了医学影像分割的效果。
近年来,受自然语言处理领域中Transformer的显著成效激励,视觉Transformer(vision transformer, ViT)[13]应运而生。ViT借助多头注意力机制,成功构建了长距离依赖关系,并有效捕获了全局上下文。最突出的是Valanarasu等[14]提出的医用Transformer(medical Transformer, MedT)中的门控轴向注意层,用于构建多头注意力模块。ViT的缺点在于需要在大规模数据集上进行预训练。此外,ViT在处理高分辨率图像时存在一定困难,因为其自注意力机制的计算复杂度与输入图像的尺寸呈平方关系。此外,当ViT应用于图像处理领域时,二维图像被分割成一维序列输入模型[13],这种处理方式仅关注全局上下文,而无法通过直接上采样恢复低分辨率特征的详细定位信息,导致分割结果欠精细。
在小数据集场景下,基于ViT的方法的适应性提升一直是研究热点。其中,混合型架构通过结合CNN的局部特征表达能力和ViT的全局特征表达能力,实现了图像分割任务的优化。具体而言,Chen等[15]提出的TransUnet架构,通过在CNN和ViT模块间建立跳跃连接,实现了局部与全局特征图的有效融合,形成类似于U-Net的模型结构。Zhang等[16]提出的TransFuse模型采用了并行分支结构和BiFusion模块,实现了CNN与ViT特征信息的高效融合。然而,现有研究仍面临信息融合不够高效、特征一致性难以保持、乳腺超声图像中肿瘤区域细节信息学习不足以及分割精度等问题。
针对乳腺超声图像肿瘤区域分割效果的提升问题,本文提出了一种新的乳腺超声图像肿瘤区域分割模型。该模型采用了多尺度Swin Transformer-CNN混合架构,并通过引入交叉注意力机制,融合了细粒度和粗粒度的特征表示。在两个公共数据集,即BUSI[18]和Dataset B[19]上进行的实验表明,本文提出的方法具有显著的有效性。
1. 本文模型结构
针对乳腺超声图像分割中的关键挑战,本研究提出了一种创新性模型架构。该模型的架构设计见图1。具体而言,该模型首先对乳腺超声图像进行预处理过程,随后通过改进的Swin Transformer模块提取全局上下文特征,接着利用残差连接机制构建三层级特征交互结构,将局部特征与全局特征进行有效融合。在此基础上,采用交叉注意力机制对多级特征进行整合处理,最终通过分割头生成分割掩膜图。
[

](http://html.rhhz.net/tis/html/PIC/202304046-1.jpg)
图 1 模型结构
Fig. 1 Overall structure of model
下载: 全尺寸图片
1.1 基于可形变卷积的CNN结构
基于CNN的典型架构,编码器层采用了U-Net网络的设计方案。在每层卷积操作后,均紧跟ReLU激活函数和批归一化(BN)处理,确保各层网络的输入始终服从相同分布。肿瘤区域由于形状不规则,与背景区域的亮度变化相对较小,因此区分肿瘤边界与背景区域的难度较大。可形变卷积[20]通过引入位移量和可学习权重,显著提升了网络在提取细节特征方面的性能,因此在CNN特征提取结构中,我们采用了可形变卷积替代传统卷积。如图2所示,可形变卷积的工作原理是:输入图像通过卷积核进行滑动,同时伴随位移量的调整,最终生成位移后的特征图。本文所设计的CNN特征提取结构包含三层卷积操作,其中前两层卷积操作后均采用了最大池化层,对通过残差连接融合的特征图进行下采样处理。
[

](http://html.rhhz.net/tis/html/PIC/202304046-2.jpg)
图 2 可形变卷积示意
Fig. 2 Schematic diagram of deformable convolution
下载: 全尺寸图片
1.2 改进的Swin Transformer结构
与传统的ViT方法不同,Swin Transformer采用了窗口自注意力机制[21],这一改进使得计算复杂度从O(n²)降低至O(n),具体实现则基于四级金字塔结构(如图3所示)。
[

](http://html.rhhz.net/tis/html/PIC/202304046-3.jpg)
图 3 Swin Transformer示意
Fig. 3 Diagram of Swin Transformer
下载: 全尺寸图片
Swin Transformer由两个连续的Swin Transformer块构成,通过基于窗口的多头自注意力(W-MSA)和移位窗口的多头自注意力(SW-MSA)架构来替代传统Vision Transformer(ViT)中的多头自注意力(MSA)。在W-MSA架构中,自注意力运算应用于大小为MM×MM的局部窗口区域。然而,由于缺乏跨窗口连接,其建模能力存在局限性。为此,引入了SW-MSA,该模块采用与W-MSA相同的输入配置,但通过移位窗口设计,确保了跨窗口连接的完整性。这一改进过程可通过以下数学公式进行描述:
| A(Q,K,V)=softmax(Q(K)Td−−√+B)VA(Q,K,V)=softmax(Q(K)Td+B)V | (1) |
|---|
其中,QQ、KK、VV分别代表每个像素点的查询(query)、键(key)、值(value),用于计算注意力AA;而BB则表示Swin Transformer中所采用的相对位置偏差。
通过更有效地利用不同阶段的特征映射,本研究将Swin Transformer中的注意力机制从传统的单头自注意力(self-attention)改进为多头跳跃自注意力(multi-head skip self-attention, MSKA)。传统的单头自注意力(self-attention)仅计算同一位置的相似度,难以有效激活一个注意力头中的单一类别。而改进后的多头跳跃自注意力(multi-head skip self-attention, MSKA)则通过计算语义相同但位置不同的两个特征映射的相似度,更好地利用了注意力机制,能够有效激活一个注意头中的单个类别。在这一改进基础上,研究采用前一阶段的输出特征图作为键和值,使用当前阶段的特征映射作为查询。基于窗口的多头跳跃自注意力(window multi-head skip self-attention, W-MSKA)的设置为
| A(QF,KM,VM)=softmax(QF(KM)Td−−√+B)VMA(QF,KM,VM)=softmax(QF(KM)Td+B)VM | (2) |
|---|
QFQF是跳跃注意力机制的查询向量,是FFN层的线性变换输出;KMKM和VMVM分别作为键和值向量,均基于MM层的线性变换生成。如图4所示,改进后的Swin Transformer架构采用了模块化设计。
[

](http://html.rhhz.net/tis/html/PIC/202304046-4.jpg)
图 4 改进的Swin Transformer块示意
Fig. 4 Diagram of improved Swin Transformer block
下载: 全尺寸图片
1.3 基于交叉注意力机制的特征融合模块
为了有效融合改进Swin Transformer编码器传递的嵌入信息,我们引入了交叉注意力机制[22],实现了不同层级特征的高效融合。具体而言,在融合操作前,我们实现了两个层级类标记的交互,使得同一层级的类标记能够与相邻层级的标记建立连接关系。随后,每个嵌入信息被独立地输入到融合模块中进行处理,并通过反向投影机制被映射回其对应的层级。这种与其他级别标记的交互使类标记不仅能够获取自身层级的信息,还能充分整合跨层级的特征信息。
基于这一思想开发的特征融合模块如图5所示,分别用PlPl和PsPs表示来自CNN和Swin Transformer不同分辨率的特征图。通过Transformer编码器输出的高分辨率视觉标记和关键点标记与CNN的低分辨率标记重组,生成新的视觉标记和关键点标记作为多尺度交叉注意力模块的输入。为避免关键点标记的冗余和多次融合,模块采用了移动关键点标记策略。具体实施时,在输入前将高、低分辨率视觉标记分别拼接固定分辨率的关键点标记,将包含关键点和视觉特征的高分辨率标记作为键和值,低分辨率标记作为查询进行交叉注意力计算。当进行下一次交互时,该关键点标记与其他高、低分辨率视觉标记重新拼接。
[

](http://html.rhhz.net/tis/html/PIC/202304046-5.jpg)
图 5 交叉注意力机制特征融合示意
Fig. 5 Diagram of cross attention for feature fusion
下载: 全尺寸图片
1.4 混合损失函数
基于预测与真实标签在每个像素上的差异,损失函数用于在训练过程中调整网络参数。在医学成像领域,常用的分割损失函数包括交叉熵和dice得分。然而,由于乳腺超声图像中肿瘤像素所占比例较小,导致肿瘤分割面临数据分布失衡问题。因此,该模型主要学习非肿瘤样本的特征。二元交叉熵损失函数被广泛应用于解决这一问题。交叉熵通过衡量图像中每个像素的预测概率与校正概率的对数值,对图像进行二值分割。对于像素级别的分类问题,二元交叉熵在像素级损失函数方面表现良好。其数学表达式如下:
| LBCE=−1n∑i=1n[yilogp(yi)+(1−yi)log(1−p(yi))]LBCE=−1n∑i=1n[yilogp(yi)+(1−yi)log(1−p(yi))] | (3) |
|---|
对分割图中的每个像素值进行预测,其中每个像素值均为0或1的二元变量。在医学图像领域,组织间的边界往往具有显著的区分特征,在人工分割过程中是实现对不同目标进行识别的关键依据。然而,在卷积神经网络中,边界通常位于不同类别区域的交界处,与网络分割区域的形态特征和强度特征等不同,属于高频信息特征。若不施加适当约束,网络在不断进行卷积操作过程中会逐渐丢失这些高频细节特征,从而导致分割结果的准确性受到影响。
为了解决网络分割精度不高问题,我们提出以下优化方法:首先,对网络施加额外的边界约束,以更好地利用网络对边界信息的感知能力。其次,通过设置交叉熵损失权重来缓解数据分布不平衡问题,同时通过对目标施加额外的监督损失,边界损失[23]进一步提升了分割精度。边界损失能在不增加网络复杂性的同时,充分发掘区域和边界互补信息,辅助区域分割。二元边界损失函数的数学表达式为
| P=1 | Bp | ∑x∈Bp[[d(x,Bg)<θ]]P=1 | Bp | ∑x∈Bp[[d(x,Bg)<θ]] | (4) |
|---|
| R=1 | Bg | ∑x∈Bg[[d(x,Bp)<θ]]R=1 | Bg | ∑x∈Bg[[d(x,Bp)<θ]] | (5) |
|---|
| LBoundary=1−2P⋅RP+RLBoundary=1−2P⋅RP+R | (6) |
|---|
在式中,BgBg和BpBp分别表示真实标签和分割预测结果的边界,d(⋅)和d(⋅)分别基于像素单位的欧氏距离进行计算,θθ为预先设定的阈值。采用混合损失函数的方法能够实现更好的分割效果,因此在本研究的实验训练过程中,我们综合运用混合交叉熵损失和边界损失来计算预测分割结果的损失,损失函数的定义为:
| L=αLBCE+(1−α)LBoundaryL=αLBCE+(1−α)LBoundary | (7) |
|---|
其中αα为超参数,需要进行实验确定适合值。
2. 实验仿真及结果分析
实验所使用的计算机系统环境基于Ubuntu20.04系统,使用Python编程语言,Pycharm作为集成开发环境(IDE)工具,被采用为深度学习框架,具体在配备10GB显存的NVIDIA RTX 3080 GPU上进行训练。输入图像尺寸设置为224像素大小,起始学习率设置为0.0001,权重衰减设置为0.00005,数据批次大小设置为4,最大训练次数为80000轮次。
2.1 数据集和数据预处理
本研究采用公开的乳腺超声图像数据集BUSI[18]和Dataset B[19]进行对比实验,以验证本文所提出的算法的可行性和有效性。其中,BUSI数据集包含133张正常超声图像、437张良性的乳腺肿瘤图像以及210张恶性的乳腺肿瘤图像。Dataset B数据集则包含110张良性的乳腺肿瘤图像和53张恶性的乳腺肿瘤图像。为了更直观地评估本文方法在恶性肿瘤和良性肿瘤上的分割性能,实验仅在BUSI和Dataset B中的良性肿瘤和恶性肿瘤图像上进行训练和测试,而不使用正常超声图像进行训练。
针对数据量偏小的问题,本研究采用数据增强技术以扩大数据规模。具体包括平移变换、水平翻转操作、裁剪操作等多方面的数据增强措施。通过将数据集BUSI扩展至3,235张图像,数据集Dataset B扩展至815张图像,并采用4:1的比例进行随机划分,将数据集划分为训练集和测试集。在数据预处理阶段,实验采用双线性插值方法,将所有图像统一缩放为224×224像素。同时,采用最近邻插值方法,将所有样本的真实标签(Ground Truth)统一缩放为224×224像素。
2.2 评价指标
在各项实验中,为量化评估分割性能,本文采用了5个关键的分割性能指标,包括dice系数、Jc指数、95%Hausdorff距离(Hd95)、准确度和召回率。
dice系数可衡量分割结果与真实标签之间的相似程度,其取值范围限定在0至1之间。数值越大则表明分割结果越优。计算公式如下:
| Idice=2NTP2NTP+NFP+NFNIdice=2NTP2NTP+NFP+NFN | (8) |
|---|
其中,NTPNTP表示图像中正常且被模型预测正常的像素点数量,NFPNFP表示图像中肿瘤但被模型预测正常的像素点数量,NFNNFN表示图像中肿瘤且被模型预测肿瘤的像素点数量。
出乎意料地超越了asio的性能,我认为这得益于其简单的设计和简洁的代码。
该杰卡德指数(简称Jc指数)也可以用于计算分割结果与真实标签之间的相似程度,作为辅助评价指标使用,其数值越大则表明分割结果越优。
| IJc=NTPNTP+NFP+NFNIJc=NTPNTP+NFP+NFN | (9) |
|---|
该方法通过计算分割结果与真实标签边界之间的最大距离差异来评估分割质量,其主要作用是评估分割边界的准确性。分割结果越优,其值越小。计算公式已详细说明如下:
| IHd(A,B)=max(h(A,B),h(B,A))IHd(A,B)=max(h(A,B),h(B,A)) | (10) |
|---|
| h(A,B)=maxa∈A{minb∈B∥a−b∥}h(A,B)=maxa∈A{minb∈B‖a−b‖} | (11) |
|---|
| h(B,A)=maxb∈B{mina∈A∥b−a∥}h(B,A)=maxb∈B{mina∈A‖b−a‖} | (12) |
|---|
在计算过程中,Hausdorff距离HHH被认为是衡量图像相似性的一种指标,而IHdIHd则代表最终的Hausdorff距离结果。在分割任务中,通常不取单个最大值,而是取前5%的距离值,这样可以有效排除一些异常离群点对分割结果的影响。
precision(准确率)可用于衡量分割结果中真实肿瘤区域的比例,数值越大则分割效果越佳。
| Iprecision=NTPNTP+NFPIprecision=NTPNTP+NFP | (13) |
|---|
召回率(Recall)用于计算所有被关注的肿瘤区域的正确率,其数值越大则表明分割效果越好。
| Irecall=NTPNTP+NFNIrecall=NTPNTP+NFN | (14) |
|---|
2.3 超参数设置
为验证本文提出的混合损失函数的性能,采用数据量较大的BUSI进行实验。在αα取值范围0.1~0.9时,实验结果表明,0.4和0.5是评价指标最大的两个值。随后,取αα=0.45进行实验验证,最终获得各评价指标的峰值。实验结果如图6所示。
[

](http://html.rhhz.net/tis/html/PIC/202304046-6.jpg)
图 6 混合损失函数超参数设置结果
Fig. 6 hybrid loss function的参数设置情况结果展示图
下载: 全尺寸图片
2.4 对比实验
为了验证本文所提出的算法的有效性,本文选择6个具有代表性的医学图像分割网络结构与本文提出的算法进行对比分析。其中,U-Net为经典的CNN架构,Swin Transformer为纯ViT架构,其余均为混合型CNN-ViT架构。
U-Net[4]:基于跳跃连接机制,将收缩路径与扩展路径相结合,从而能够有效地融合低分辨率与高分辨率特征。
Swin Transformer[21]:基于ViT模型提取全局特征信息,通过多头注意力机制,基于窗口的区域进行计算,实现跨窗口信息的交互与融合,具有线性计算复杂度。
TransUnet[15]通过自传统的CNN和现代ViT网络提取的局部特征图和全局特征图,利用跳跃连接机制构建了与U-Net类似的架构。
TransDeeplab[24]:通过具有位移窗口的Swin Transformer模块对deeplabv3+进行扩展,并对其空洞空间金字塔池化模块进行建模。
SwinUnet[25]通过模仿Swin Transformer模块拼接结构,构建了一个类似于U-Net型的编码器−解码器架构。
TransNorm[26]:将ViT融入U-Net编码器和跳跃连接中,通过双级注意力机制动态调整跳跃连接路径。
在两个数据集(Busi和B)中分别进行分割实验。在不同硬件环境下计算时间有所差异,因此为了提高泛化性,改用对比各个方法的参数量来进行间接说明计算时间。实验中采用的算法参数量如表1所示,实验中测试集的定量结果如表2和表3所示,表中加粗字体为每列的最优值。
表 1 不同算法的参数量对比
Table 1 Comparison of parameter quantities of different algorithms
| 算法 | 参数量/106 |
|---|---|
| U-Net | 28.05 |
| Swin Transformer | 29.43 |
| TransUnet | 105.28 |
| TransDeeplab | 21.14 |
| SwinUnet | 27.17 |
| TransNorm | 117.63 |
| 本文算法 | 25.51 |
表 2 不同算法在Dataset BUSI上的分割结果
Table 2 Segmentation results of different algorithms on Dataset BUSI
| 算法 | dice系数 | Jc指数 | Hd95 | 准确度 | 召回率 |
|---|---|---|---|---|---|
| U-Net | 0.787 320 | 0.703 703 | 56.255 785 | 0.815 321 | 0.807 724 |
| Swin Transformer | 0.781 523 | 0.702 417 | 63.498 802 | 0.795 067 | 0.813 038 |
| TransUnet | 0.797 532 | 0.714 024 | 53.049 520 | 0.828 517 | 0.815 834 |
| TransDeeplab | 0.803 847 | 0.717 159 | 55.842 163 | 0.813 009 | 0.838 311 |
| SwinUnet | 0.804 722 | 0.720 576 | 59.828 857 | 0.817 851 | 0.836 466 |
| TransNorm | 0.799 316 | 0.719 628 | 51.095 965 | 0.827 717 | 0.814 157 |
| 本文算法 | 0.825 732 | 0.744 134 | 33.203 520 | 0.844 956 | 0.840 086 |
表 3 不同算法在Dataset B上的分割结果
Table 3 Segmentation results of different algorithms on Dataset B
| 算法 | dice系数 | Jc指数 | Hd95 | 准确度 | 召回率 |
|---|---|---|---|---|---|
| U-Net | 0.755 240 | 0.705 914 | 47.186 216 | 0.806 826 | 0.811 233 |
| Swin Transformer | 0.750 100 | 0.674 348 | 51.348 517 | 0.777 199 | 0.774 130 |
| TransUnet | 0.807 067 | 0.743 791 | 24.456 953 | 0.801 030 | 0.819 393 |
| TransDeeplab | 0.811 323 | 0.716 784 | 24.501 722 | 0.799 767 | 0.853 850 |
| SwinUnet | 0.806 981 | 0.700 275 | 30.370 696 | 0.783 342 | 0.818 952 |
| TransNorm | 0.781 180 | 0.700 323 | 24.035 719 | 0.799 767 | 0.853 850 |
| 本文算法 | 0.825 857 | 0.740 428 | 23.125 318 | 0.827 233 | 0.859 421 |
通过参数量对比分析,所提出的算法在参数量上显著少于TransDeeplab等经典算法。鉴于本文主要针对乳腺超声图像分割精度问题进行研究,因此所提出的算法虽然运算量未达到最优,但仍在合理范围内。
实验结果表明,本文所提出的算法通过融合改进的CNN和ViT模型,引入了交叉注意力机制,对乳腺超声图像的分割性能均优于其他现有算法。在各项性能指标上均有显著提升,其中dice系数较经典U-Net提升了3.8412%。通过在两个独立数据集上的实验验证,本文算法展现出良好的泛化能力,其优势在实际应用中更加明显。实验中,部分测试集的分割结果如图7所示,也可以看出,采用混合边界损失函数对肿瘤边界分割的精度更高。
[

](http://html.rhhz.net/tis/html/PIC/202304046-7.jpg)
图 7 不同算法分割结果对比
Fig. 7 Comparison diagram of different algorithm segmentation results
下载: 全尺寸图片
2.5 消融实验
为了验证本算法的性能优势,我们在较大的数据集BUSI上进行了五组消融实验,实验结果如表4所示。实验表明,单独使用U-Net的分割Dice分数仅为0.787 320,随后增加了可形变卷积(deformable convolution, DC)、混合损失函数(hybrid loss, HL)、交叉注意力机制(cross attention, CA)、多头跳跃注意力(multi-head skip self attention, MSKA)四个模块后,分割结果在多个指标上均有提升。具体而言,Dice分数、Jc指数、准确率和召回率分别提升了3.841 2%、4.043 1%、2.963 5%和3.236 2%。其中,DC模块的提升效果最为显著,这表明这些模块组合能够有效提升乳腺超声图像肿瘤分割的性能。
表 4 在Dataset BUSI上的消融实验分割结果
Table 4 Ablation experimental segmentation results on Dataset BUSI
| 算法 | dice系数 | Jc指数 | Hd95 | 准确度 | 召回率 |
|---|---|---|---|---|---|
| U-Net | 0.787320 | 0.703703 | 56.255785 | 0.815321 | 0.807724 |
| U-Net+DC | 0.803680 | 0.722510 | 37.643451 | 0.829810 | 0.816059 |
| U-Net+DC+HL | 0.809869 | 0.726249 | 38.527125 | 0.840414 | 0.811717 |
| U-Net+DC+HL+CA | 0.819256 | 0.738401 | 34.681035 | 0.834446 | 0.808971 |
| U-Net+DC+HL+CA+MSKA(本文算法) | 0.825732 | 0.744134 | 33.203520 | 0.844956 | 0.840086 |
3. 结束语
为了解决乳腺超声图像肿瘤分割问题,我们提出了一种基于CNN和ViT的融合模型。该模型通过引入可形变卷积模块,显著提升了CNN在特征提取方面的性能。在训练过程中,我们采用了二元交叉熵损失与混合边界损失函数相结合的方式,有效优化了算法模型,从而提升了乳腺超声图像肿瘤区域边界分割的效果。对于Swin Transformer的改进,我们主要将注意力机制从多尺度自注意力(MSA)优化为多尺度自注意力加邻居注意力(MSKA),即不仅计算当前特征图之间的注意力关系,还考虑了相邻特征图之间的注意力关系,从而更充分利用了注意力机制的优势。最后,我们通过交叉注意力机制将CNN提取的局部特征与ViT提取的全局特征进行有效融合。通过对比实验和消融实验,我们验证了所提出方法的有效性,且在多个评价指标上均优于现有经典算法。在智能医疗辅助诊断领域,该方法具有良好的应用前景。然而,本文的不足之处在于,恶性肿瘤的分割效果较良性肿瘤有所欠缺;此外,在无Ground Truth的情况下,分割结果的评估依赖于专业医师的主观判断。未来的研究工作可以考虑引入分类任务,探索无监督分割方法,或进行多任务学习等。
