Advertisement

5.25.1 用于组织病理学图像分类的深度注意力特征学习

阅读量:

我们开发了一种新型组织病理学图像分类方法。该方法以深度学习为基础,并整合了两个独立的注意力机制来优化特征学习过程。

具体来说,在多维空间中推导出多种注意力图谱有助于聚焦于关键图像区域并强调具有鉴别能力的特征通道的同时抑制那些与分类任务无直接关联的信息其设计简洁高效并通过少量额外计算显著提升了特征表达能力

1. 介绍

显微镜组织病理学检查作为一种被广泛应用的癌症诊断手段,在实践中已被视为金标准。诊断报告通常由经验丰富的病理学家通过直接观察组织学样本来完成鉴定工作。随着图像处理技术的快速发展,这种分析过程逐渐实现了高度自动化,并显著提升了相关工作的效率与准确性。作为一项核心任务,组织病理学图像的分类近年来受到了广泛关注。然而,由于其固有的复杂视觉特征,在这一领域仍然面临诸多挑战。

早期的组织病理学图像分类研究主要基于从整体图像或分块处理中采集的手工特征。然而手工特征具有一定的可解释性,在对图像进行描述时较为有限,并因此通常难以达到该任务预期的目标。

通过卷积神经网络(CNN)实现自动生成图像特征的过程研究表明该方案较人工设计优化方案具有更高的性能

1.1 主要贡献

我们提出了一个新的CNN架构,并通过多维度的角度优化了组织病理学图像(斑块)分类中的特征提取。我们的核心创新在于引入了注意力机制,在这一关键环节上实现了精准关注与高效学习。

主要灵感源自人类视觉系统的特性:当观察场景时,观察者通常会在观察场景时首先聚焦于其中的关键元素,并迅速将注意力集中在具有显著特性的对象上;这种行为模式被广泛应用于计算机视觉领域中的人工智能模型设计中。通过全局特征的相关性分析构建了相应的注意力机制模型;具体而言,在研究过程中我们借鉴Transformer架构与非局部神经网络 [11] 的理论基础,在模型架构设计中融合了多维注意力机制;最终得出了两个独立的注意力模块方案;每个模块都具备不同的关注维度选择能力,并能根据输入数据自适应地调整其关注重点区域范围

通道注意力(C-Attn)模块使网络能够专注于提取区分性通道的同时降低冗余信息量,并通过空间注意力(S-Attn)模块强调重要区域的同时抑制干扰区域的影响。这两种机制相互协作提升了模型的判别能力,并且能够方便地整合到现有CNN架构中以提升性能

在实践中,我们基于 VGG19 [12] 建立了基础模型,并在其多个关键部位加入了注意力机制。我们将该方法用于良性与恶性乳腺癌分类任务,并在公开 BreakHis 数据集 [2] 上验证了我们方法相较于现有最佳方案的优势。

2. 方法

给定一个中间特征图

athbf{F}nathbb{R}^{Cimes Himes W}

由(其中C代表通道数,H为高度,W为宽度)输入数据,C-Attn模块通过在通道维度上推导出并关注其相关的注意力机制,而S-Attn模块则在空间维度上通过分析图像的空间信息来构建相应的注意力图

A_c

A_s

。然后将生成的注意力图

A_c

A_s

应用于 F 以进行特征细化。

2.1 通道注意力模块

基于对特征通道间关系的显式建模,C-Attn模块能够构建注意力机制以生成注意力图

具体来说,给定输入特征图

athbf{F}nathbb{R}^{Cimes Himes W}

,C-Attn 模块首先生成通道特征向量:

athbf{M}=Reft

(1)

W_c

表示无偏置的二维卷积层的权重,它生成大小为

Cimes H^{rime}imes W^{rime}

的特征图。R 是重塑操作,生成

{athbf{M}nathbb{R}^{Cimes N}}

,其中

N=H^{rime}imes W^{rime}

。这里,M 可以看作是包含长度为 N 的 C 个向量的集合。

如同 Transformer [10] 中的做法,通过应用等式 (1) 到输入 F 两次,并分别采用不同类型的卷积权重进行计算,从而生成多个独立的向量集合。

M_Q

M_K

。同时,通过将等式 (1) 中的二维卷积固定为 1×1,特征图 F 转换为另一个向量集

M_V

(见图 1)。之后,我们通过计算逐通道统计数据来捕获通道间关系:

athbf{D}=athbf{M}{Q}athbf{M}{K}^{T}
athbf{D}^{rime}=athrm{softmax}

其中softmax操作按列应用:

athbf{D}{ij}'=rac{xp}{um{i}^{C}xp}

然后我们计算注意力图作为特征向量的加权和:

athbf{A}{c}=athbf{D}^{rime T}athbf{M}{V}

最后,将注意力图

A_c

添加到输入特征图 F 中以进行特征细化:

athbf{F}_{new}=athbf{F}+athcal{R}^{rime}

其中,操作

athcal{R}^{rime}

A_c

重新整形为 C × H × W。然后,改进后的

F_{new}

代替 F 被前馈到后续层。由于注意力图

A_c

学习了特征通道之间的长距离语义关联之后,它便能够凸显出类特有的判别性特征,从而有助于提升分类性能水平

A_c

也可以解释为残差分量,这已被证实有利于特征学习 [13]。

2.2 空间注意力模块

不同于C-Attn, 空间注意力机制使网络能够聚焦于图像中的重要区域并有效地抑制非关键细节.其工作原理类似于C-Attn, 但特别关注像素层而非深度神经网络中的特征通道.

athbf{F}nathbb{R}^{Cimes Himes W}

,首先对其进行线性变换和重塑,如下所示:

athbf{S}=athcal{R}eft

(7)

其中

W_s

是 1×1 Conv 层的权重,其输出特征图大小为

C^{rime}imes Himes W

。在实践中,为了减少计算开销,

C^{rime}

设置为

C^{rime}=C/r

,缩减比率

re2

。卷积输出通过重塑操作

athcal{R}

转换为一组长度为

C^{rime}

的 N 个特征向量,即

athbf{S}nathbb{R}{C{rime}imes N}

,其中 N = H×W。将等式 (7) 应用于 F 三次,从而生成

S_Q

S_K

S_V

,其中向量集

S_V

是在没有通道缩减的情况下创建的,即

r = 1

。然后我们计算不同位置之间的空间相关性:

athbf{E}=athbf{S}{Q}^{T}athbf{S}{K}
{E}^{rime}=

其中softmax是按列执行的:

softmax 表示‘按行计算’时,则等价于我们在每个行向量上单独应用 exp() 函数并归一化。

athbf{E}_{ij}{\prime}=\frac{\exp(\mathbf{E}_{ij}^{\prime})}{\sum_{i}{N}xp}

相似的特征向量将对应于

{E}^{rime}

中的高相关值。最后,我们生成注意力图

A_s

并将其添加回输入特征图:

athbf{A}{s}=athbf{S}{V}athbf{E}^{rime}
athbf{F}_{ncw}=athbf{F}+athbf{R}^{rime}

注意力图

A_s

学习并聚合全局上下文到细化的特征图

F_{new}

中,从而有效地引导网络集中于对分类任务更为关键的区域信息。

2.3 注意力模块的排列

两种不同的注意力机制共同计算互补的注意力,并在CNN中实现协同作用;对于VGG19网络,在实验中发现将C-Attn与S-Attn分别放置于网络的深层结构层次中的上层与下层部分时表现出较优的效果。

原因可能是由于基础层在面对低级背景信号时会生成较多的冗余通道信息而造成资源浪费, 同时顶层网络能够通过复杂的语义组织机制生成丰富且精确的特征表示, 这使得关键区域缺乏明显的突出特征

3. 实验与结果

3.1 数据集介绍

基于公开的BreakHis数据集[2]对所提出的方法进行了评估。该数据集涵盖了良性与恶性乳腺肿瘤的苏木精和伊红(H&E)染色显微镜活检图像,并从82名患者中获取样本。采用四个不同的放大倍数(40倍;100倍;200倍和400倍)对这些样本进行拍摄。总计获取了791张图像样本,在这之中包含了良性病例数量为2,48例以及恶性病例数量为5,43例。每个样本均作为幻灯片中的一个独立块进行处理,并且每张样本的尺寸均为716×516×3像素

在实验过程中采用五折交叉验证法,并严格按照BreakHis数据集给出的划分方法,在70%的比例下选取样本进行模型训练阶段;剩余的30%则作为测试集参与评估。评估指标包括两个层面的数据统计指标:一个是基于单个样本图片预测结果的表现指标;另一个则是通过融合各图像预测结果并采用多数决策的方式计算得出患者的准确度。为了最大化模型性能,在训练阶段采用了全部可获得的样本数据,并且这一过程完全不受放大倍数的影响。

3.2 模型实现

基于VGG19构建了基础模型,在其架构中巧妙地整合了两个独立的注意力机制。值得注意的是,该方法具有广泛适用性,并非仅依赖于VGG19结构。

VGG19 模型中的卷积块参数经过微调优化
而其他全连接层以及注意力机制则采用了从零开始学习的方法
输入图像经过数据均值减除与标准差缩放处理后被统一缩放为 224×224像素并进行了随机翻转和平移变换

采用Adam优化算法,并将学习率设定为极低的水平(具体数值),每隔一段时间进行相应调整以避免过拟合现象的出现。每批处理8个样本,并选择相应的参数进行调节以平衡计算效率与模型性能的关系。对于C-Attn模块而言,在完成前馈计算后将输出相应的特征向量作为后续层输入的基础数据来源

M_Q

M_K

的 2D 卷积的核大小和步幅都设置为 4。对于 S-Attn,我们将

S_Q

S_K

经过参数调整优化后将 r 参数设置为 8 经过参数调整优化后将 r 参数配置为 8 后面的代码块中对模型架构进行了相应的修改

4. 结论

卷积特征学习可通过两个不同的注意力模块进行改进,并在实践中提升分类性能。这些注意力模块具有极低计算开销,并能有效提升其区分度。

全部评论 (0)

还没有任何评论哟~