论文阅读之:Residual Attention Network for Image Classification
发布时间
阅读量:
阅读量
文章目录
- 论文贡献
- 结构
- 公式
-
- Attention 残差
- soft mask 分支
- 空间和通道attention
论文贡献
- 该系统引入了残差注意力网络。
- attention机制结合了残差结构,并能够应对更深层的模型训练需求。
- 该模块采用自底向顶、自顶向底的方式进行特征图降采样与升采样,并整合不同尺度的特征信息;这种架构设计受到堆叠式小时glass架构的启发。

结构
- 主要包含两个分支模块:
- mask 分支通过先进行降采样再升采样的方式提取多维度特征并对其进行融合处理最终生成对应的 attention掩码信号该掩码信号与主干网络输出端进行乘积运算得到注意力映射矩阵
- 主干网络采用经典的 ResNet、ResNetXt 和 Inception 等架构

公式

文中提到该注意力掩码不仅可以作为网络在前向传播阶段的功能性筛选器还可以在反向传播过程中用于梯度更新过滤器这是因为根据以下公式所示

其中 \theta, \phi 分别对应 mask 和主干网络 T 的学习参数,在公式(1)的基础上表述下文提到的主要内容:我们希望优化的目标应为 H_{i,c}(x);这个值用于计算反向传播中的梯度:\frac{\delta H_{i,c}(x,\theta,\phi)}{\delta \phi}=\frac{\delta M(x,\theta)T(x,\phi)}{\delta \phi};这一过程即为主网路求解的过程;而通过简化运算可以看出此时 M(x,\theta) 扮演着一种滤波器的作用。
Attention 残差
- 就是把 attention mask 和 主干网络的结果相乘之后,再加上主干网络对应的 residual,就是 (1+M_{i,c}(x))*F(x) ,这个 F(x) 可以近似于上文中的 H(x),这篇文章把这个部分叫做 attention 残差。
- M(x)的范围为 [0,1] ,当M(x)近似于0时,H(x)将近似于原始特征F(x)
- 如果 M(x) 足够好,他可以帮助主干网络来抑制训练中的噪声(因为 M(x) 可以看做是一个 filter)
- 此外,residual attention learning 既能很好地保留原始特征的特性,又能使原始特征具有绕过软掩模分支的能力,从而直接前馈(forward)到最顶层来削弱 mask 分支的特征筛选能力。
- 堆叠的 attention 模块可以逐步地优化 feature map。
- 如实验部分所示,残余注意网络深度增加到452并在CIFAR数据集上性能大大超过ResNet-1001
soft mask 分支

所有 mask module 均经历了降采样后再进行升采样的过程,在这一过程中,首先通过降采样来获取整个 image 的感受野及其全局信息;随后通过升采样将 feature 重构回原始图片尺寸,并借助 skip connection 来整合不同尺度的特征。
空间和通道attention
- 我们的研究表明,在主干网络特征发生变化时, mask分支能够相应地调整注意力。
然而, 在soft mask输出之前阶段, 通过改变激活函数归一化处理的方式后, 则可以在mask分支中进一步限制注意力。
为了提升模型性能的研究效果与稳定性表现, 在本文中我们提出并评估了三种不同的归一化策略,
这些策略分别针对混合注意力机制、通道间注意力机制以及空间注意力机制进行了优化设计。

- 第一种方法主要依赖于 sigmoid 激活函数来生成注意力机制。
- 方法 f₂ 主要通过 l2-norm 处理所有通道中的特征以去除其空间信息。
- 方法 f₃ 对每个通道中的特征图进行归一化处理后获得只与空间相关的软掩模。
- 公式中 i 表示所有空间位置的位置坐标;c 表示所有通道;mean_c 和 std_c 分别表示第 c 个通道对应的均值和标准差;x_i 是第 i个位置处的所有特征向量。
实验结果表明,在attention机制能够自然地根据不同的特征变化的情况下,并无需施加任何额外的限制通常会带来更优的效果。

全部评论 (0)
还没有任何评论哟~
