Advertisement

MetaFormer A Unified Meta Framework for Fine-Grained Recognition 论文学习

阅读量:

MetaFormer: A Unified Meta Framework for Fine-Grained Recognition

  • 解决了什么问题?
  • 提出了什么方法?
    • 混合框架
    • 元信息

解决了什么问题?

在传统的目标分类任务中,并非需要将同一类别中的不同子类别(如鸟类与汽车等)区分开来。由于同一类别内部物体之间的显著差异较大而不同类别之间的差异较小,在此领域(即快速分割视觉挑战性任务FGVC)一直以来都面临着极大的挑战。

早期的主要方法主要关注如何使网络聚焦于最具区分力的区域。受人类观察行为启发,在神经网络中引入了与定位相关的假设。此外,在某些类别难以区分的情况下,人类专家会借助视觉以外的信息来辅助分类。在信息爆炸的时代背景下,细粒度识别能够充分利用海量数据资源。因此仅依赖视觉信息显然是不够的。先前的研究工作已经尝试结合时空先验信息以及文本描述来辅助完成细粒度分类任务,并借助文本描述辅助完成细粒度分类任务。然而这些研究工作存在局限性,并未形成普适性的解决方案。这促使本文作者设计出一种统一且高效的元信息整合方案,并通过该方案能够灵活地整合各类元信息资源以提升模型性能。

ViT 主要依赖于 transformer 处理图块序列,在图像分类中表现出色。从而能够同时将视觉 token 和元信息作为输入来实现 Fine-Grained Visual Classification(FGVC)。然而不同模态的数据对模型性能的影响仍不明确。为此作者提出了 MetaFormer 架构。其核心在于通过 transformer 整合了视觉编码器部分与元信息。此外 MetaFormer 同时采用了混合主干设计,在卷积层中进行下采样以获取特征,并在整合层中加入了偏置项来提升性能。

近年来的相关研究在图像分类领域取得了显著进展,并表明大规模预训练技术能够显著地提升了粗粒度以及细粒度分类性能。然而,在Fine-Grained Visual Category (FGVC) 任务中,默认采用ImageNet-1K作为预训练数据集的做法限制了对细粒度识别能力的进一步探索。为此,本文作者基于MetaFormer这一先进架构深入探讨了预训练模型对 downstream任务的影响机制,并揭示出其在提升小样本学习能力方面的独特价值

根据实验结果,在iNaturalist2017和iNaturalist2018数据集上进行测试显示,在这项研究中所提出的MetaFormer模型均超越了现有领域的最高水平(SOTA)。通过引入元数据这一技术手段,在该领域首次实现了超越现有最高水平 5.9\%5.3\% 的显著提升效果。值得注意的是,在CUB-200-2011和NABirds数据集上的测试结果显示,在该领域首次实现了更高的准确率 92.3\%92.7\% 的新高成绩,并且这些结果均采用了基于 https://github.com/dqshuai/MetaFormer 开源代码实现的方案。

提出了什么方法?

提出了一个结合卷积和 ViT 的混合框架。

混合框架

如图所示的整体架构中包含卷积模块用于编码视觉信息,并通过transformer层模块融合视觉特征与辅助元信息。网络架构包含五个关键组件:第一阶段S0由一个简单的三层卷积主干构成;中间两个模块采用的是MBConv结构;而第三四阶段分别引入基于相对位置编码的自注意力机制(即带相对位置偏移的transformer模块)。从S0到S4依次加倍缩减输入尺寸并逐步增加输入通道数量。其中第三四阶段采用了步长为2的卷积操作以实现下采样功能(即Overlapping Patch Embedding)。

Alt

MetaFormer 的细节如下表所示。

在这里插入图片描述

Relative Transformer Layer 在标准 Transformer 模型中,默认不考虑序列信息顺序的问题。为了克服这一局限性,在 Relative Transformer 模型中通过为每个位置设计了一个相对的位置偏置矩阵 B\in \mathbb{B}^{(M^2 + N)\times (M^2 + N)} 来辅助计算相似度关系:

\text{Attention}(Q,K,V) = \text{SoftMax}(QK^T / \sqrt{d} + B)V

矩阵组Q,K,V\in \mathbb{R}^{(M^2 + N)\times d}分别代表查询矩阵、键矩阵和值矩阵。其中M^2表示图像块的数量加上额外token数量N(其中包括类别token与元信息token),而d则为查询/键向量维度。我们参数化了一个矩阵\hat{B} \in \mathbb{R}^{(2M-1)\times (2M-1) + 1}来表示相对位置偏置,在这种设计下每个图块的相对位置范围是从 -M-1M+1。因此这些特殊token与其他token之间不考虑空间位置信息而采用相同的相对位置偏置表示。相对transformer模块包含多头自注意力机制、多层感知机模块以及LayerNorm层归一化组件等关键组件。其中变量z_0用于表示序列中的各个token顺序包括类别tokenx_{class}元信息tokenx_{meta}^it与视觉信息x_{vision}^it三者组成的序列。

z_0 = [x_{class}; x^1_{meta}, ..., x_{meta}^{n-1}; x_{vision}^1], ..., x_{vision}^m

z_i' = MSA(LN(z_{i-1})) + z_i

z_i = MLP(LN(z_i')) z_i' \quad z_i \in \mathbb{R}^{(M^2+N)\times d}

聚合层
S3与S4生成了两类类型的token:分别是用于表示视觉信息的类内特征以及用于提取元数据的类间特征。值得注意的是,在这里我们区分了两种不同类型的token:一个是用于表示视觉信息的类内token(即类内token),另一个是用于提取元数据的类间token(即类间token)。随后使用MLP模型对类内token进行了深度特征提取的过程,在此过程中实现了对原始输入图像的高度抽象概括能力。最后通过一个自定义设计的Aggregation Layer来进行最终的信息融合操作,在此过程中实现了跨模态编码能力的有效提升。

\hat{z}_{\texttt{class}}^{(1)}等于说多层感知机经过层归一化处理后的结果。
将经过归一化的\hat{z}_{\texttt{class}}^{(1)}与另一个特征向量\hat{z}_{\texttt{class}}^{(2)}进行拼接后进行时序建模。
输出值则通过层归一化处理得到y。

其中y是多尺度视觉和元信息融合后的输出结果。

Overlapping Patch Embedding

基于重叠的patch嵌入方法对特征图进行 tokenize 处理,并通过下采样操作有效降低计算开销。该研究采用零填充的卷积操作来实现上述过程。

元信息

仅凭形态特征通常难以有效辨别细粒度类别。对于某一特定类别中的图像样本,人类专家能够依靠额外的辅助信息来进行判断分析。近期ViT的一些创新性进展表明,在图像处理中采用序列化的方式进行编码是可行的方案。这一发现为在transformer层中嵌入元信息提供了便捷且高效的途径。

直观上而言,在地理空间中物种分布可以通过不同的栖息地类型来体现。然而由于不同类型的栖息地具有显著差异性,在进行物种细粒度分类任务时需要特别注意时空信息的作用。作者通过将地理坐标系统转换为矩形坐标系统的方式实现了这一目标即通过将[lat, lon]转化为[x,y,z]实现了对地理位置特征的量化表示。类似月份之间的时间间隔处理作者采用了相似的方法即计算不同月份之间的相对位置并将其转化为数值特征以便于后续分析。对于时间点间的相似性问题作者提出了一个基于周期函数的解决方案具体而言他设计了一种将monthhour映射到二维空间中的方法即通过计算\sin(\frac{2\pi {month}}{12})\cos(\frac{2\pi {month}}{12})\sin(\frac{2\pi {hour}}{24})以及\cos(\frac{2\pi {hour}}{24})从而生成一个四维向量用于表征时间维度的信息特征。

在这里插入图片描述

当属性被用作元信息时, 将其赋值为一个向量. 在 CUB-200-2011 数据集中, 共拥有 312 个属性; 因此, 这一维向量共有 312 维度. 对于以文本形式存在的元信息, 我们将利用 BERT 技术来提取每个词对应的 embedding 表示. 针对同一图像包含多个描述性语句的情况, 在每一次训练步骤中, 我们会随机选取其中一个描述性语句来进行训练; 此外, 每个选中的语句其最大长度限制在 32 字符以内.

在这里插入图片描述
在这里插入图片描述

从图中可以看出,
非线性嵌入(f:R^n \rightarrow R^d)是一种多层全连接网络,
它将元信息映射到embedding向量中。
视觉信息与元信息属于不同的语义层次。
因此学习视觉信息更加具有挑战性,
在神经网络训练初期阶段,
就向网络输入大量辅助信息,
这会导致网络在感知视觉内容时产生负面影响。

在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~