Shunted Self-Attention via Multi-Scale Token Aggregation
近来提出的ViT模型在各种计算机视觉任务中表现出了令人鼓舞的效果,这得益于其通过自注意力机制对补丁或令牌的长期依赖性进行建模的能力。然而,现有方法通常假设每个令牌具有相似的感受野,这种固定设置不可避免地限制了每个自注意力层捕捉多尺度特征的能力。为了克服这一局限性,本文提出了一种新的注意力机制——分流自注意力(SAA),该方法允许ViT在其每个自注意层中实现混合尺度的关注建模能力。SAA的核心思想在于将异构感受野大小注入到各个令牌中:在计算自注意力矩阵之前,通过选择性合并某些令牌来表示更大的目标特征,同时保留部分原始令牌以保持细粒度特征信息。这种创新性的合并策略使得自注意模块能够更好地学习目标之间的关系,同时有效降低了模型的参数规模和计算开销
分流Transformer块
旨在减少处理高分辨率特征图所需的计算开销,PVT通过引入空间约简注意力(Spatial Reduction Attention,SRA)替代传统的多头自注意力机制(MSA)。然而,SRA表现出在单一自注意力层中可能存储过多的token,并且仅在单一尺度上提取token特征的局限性。这些局限性削弱了模型在多尺度目标识别中的表现,尤其是在小尺寸目标方面。
分流自注意力
输入序列F随后将输入序列F通过投影层映射至查询空间Q。随后多头自注意力机制采用H个独立注意力头并行计算自注意力过程。为了优化计算效率与资源消耗,在减少计算成本方面遵循PVT方案而非Swin方案:按照区域划分\{Q,K,V\}减少K,V长度而不是按照区域划分\{Q,K,V\}减少K,V长度。本文提出的关键区别在于:在同一自注意力层内不同注意力头之间允许不同的头拥有不同长度的键值向量(Key-Value),而PVT则采用相同长度的设计以避免信息丢失带来的性能损失。这种设计提供了多尺度特征融合的能力:不同头下的键值向量(Key-Value)经过不同采样率r_i进行下采样处理后会生成不同尺寸的空间表示(spatial representations)。其中每个 attention head 的参数为 W_i^{Q}, W_i^{K}, W_i^{V} 。在处理不同 attention head 之间的信息传递时引入了变量r_{i}以控制各 attention head 之间的信息传递粒度差异( granularity)。因此在自注意力过程中能够同时捕捉到多尺度的空间特征与细节特征(spatial details)。分量自注意力模块可被形式化地定义为:对于每个位置i, 输出h_i = \text{Softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i ,其中 h_i 表示第i个输出向量;而 Q_i, K_i, V_i 分别代表第i个 attention head 的查询向量、键向量与值向量;\text{Softmax}操作用于归一化点积结果;\sqrt{d_k} 是归一化因子以防止梯度爆炸问题;矩阵乘法操作符则用于实现相似性加权后的值向量组合过程(value aggregation)。
具体细节前馈层
传统的前馈结构呈现出逐点处理的特点,并未包含交叉令牌间的交互能力。为了提升局部特征的完整性,在两个连续的全连接模块之间引入了一种数据特化机制。这种设计能够更有效地捕捉复杂特征关系的同时保证计算效率与模型性能之间的平衡点。
其中\text{FC}(\cdot, \cdot)代表全连接操作符;\sigma(\cdot)表示激活函数;\text{DS}(\cdot, \theta)代表具体细节提取模块;参数\theta由深度卷积网络进行学习与优化。
补丁嵌入层
为了将图像序列映射至模型性能而存在, Vision Transformer (ViT)通过清晰的16x16无重叠补片进行划分. 在训练视觉变压器过程中, Scaled ReLU的作用至关重要. 研究发现, 通过卷积操作获得高质量的补片序列有助于Transformer相较于传统的大跨度非重叠补片方法表现出更好的性能. 在本文提出的模型中, 根据不同的模型尺寸采用了具有不同步长和大小的重叠卷积层. 具体而言, 第一层采用步长为2及零填充的7×7卷积作为补片嵌入的基础, 并根据需求在较大的模型规模下补充了步长为1的额外3×3卷积层. 最后, 使用步长为2且无重叠的投影层生成大小为H/4×W/4的空间特征图.
