视觉Transformer综述

阅读量：

近日,华为的诺亚团队、北京大学以及悉尼大学共同发布论文《A Survey on Visual Transformer》,本文将对其核心内容进行系统性介绍和翻译概述

导言：

Transformers主要是一种基于自注意力机制的设计理念构建起来的深度神经网络模型，在早期主要用于自然语言处理相关的技术应用领域。得益于其强大的表示能力这一特点，在研究者们的推动下逐渐拓展到了计算机视觉等其他相关技术领域中去探索与应用的可能性。值得注意的是，在现有诸多主流神经架构设计模式中相对于卷积神经网络以及循环神经网络而言基于Transformers构建起来的一系列模型在经过一系列标准化测试评估之后发现无论是从分类准确率还是目标检测精度等方面来看表现出了超越甚至超越其他主流架构的独特优势。

本文探讨了对Visual Transformer模型进行不同任务分类的方法，并对其优势与劣势进行了深入分析。主要研究领域涵盖基础图像分类、高级视觉任务、低级视觉处理以及视频处理四个主要方向。值得注意的是，在计算机视觉领域中自注意力机制作为Transformer架构的核心组件发挥着关键作用。特别提及时，在实际应用中可实现高效且实用的Transformer架构设计。最后部分则聚焦于对Visual Transformer架构未来发展方向的深入探讨。

1. 总体概述

卷积神经网络主要包含卷积层和池化层以实现图像平移不变性的数据处理。递归神经网络基于循环结构来处理顺序数据或时间序列数据。Transformer是一种新型的神经网络架构，主要通过自我注意机制提取内在特征。在这些架构中，Transformer是近期提出的（2017年），具备广泛的人工智能应用潜力。

Transformer最初被应用于自然语言处理（NLP）领域，并带来了显著的进步。例如，在2017年Vaswani等人最先提出了仅基于注意力机制来实现机器翻译及英语选择区分析的任务的独特架构。随后，在2018年Devlin等人提出了预训练语言模型BERT（Bidirectional Encoder Representations from Transformers），该模型通过约束左右文域来预训练未标注文本的翻译器。BERT在当时的11个NLP核心任务中取得了最佳表现。Brown等人则基于巨型Transformer架构，在45TB压缩明文数据上进行了预训练工作，并展示了无需微调即可在多种下游NLP任务中展现出色性能的技术成果。这些基于Transformer架构开发出的语言模型不仅展现了强大的表示能力，在推动现代自然语言处理领域取得了革命性突破

基于自然语言处理领域中Transformer组件的灵感，近年来研究人员已成功地将这一技术拓展至计算机视觉领域。传统的卷积神经网络曾是视觉应用的核心组件，在某种程度上可以看出这一架构可替代传统的convolutional neural networks（CNNs）结构。通过训练一个序列架构，在图像分类等任务中与传统的CNN并驾齐驱地实现了对像素级别的预测能力。值得注意的是，在这一过程中还提出了多个创新性的变体以满足不同应用场景的需求。 Dosovitskiy等提出的Visual Transformer模型则开创性地实现了这一想法，并在多个图像识别基准上取得了超越当前最优性能（SOTA）的成绩。除了在图像分类之外，在目标检测、语义分割、图像处理以及视频理解等多个计算机视觉问题上也得到了广泛应用和发展

为了更有效地支持研究人员研究不同的主题, 我们根据应用场景将transformer模型进行了分类, 如图1所示. 具体而言, 主要的应用领域包括基础图像分类、高阶视觉以及低阶视觉等. 高阶视觉侧重于从图像中提取可解析的内容, 包括目标检测、分割以及车道识别等多种任务. 目前已有许多针对这些高阶视觉任务设计的transformer架构, 例如Detr模型及其变体用于目标检测任务, 而Max-DeepLab则用于图像分割. 在低阶视觉领域, 主要关注的是从图像（通常表示为原始图像）中提取特征描述子. 其典型应用包括超分辨率重建、图像去噪以及风格迁移等技术. 然而, 尽管已有研究表明low阶视觉领域的相关架构具有潜力, 但目前对此类问题的研究仍处于起步阶段, 需要进一步深入探索这一领域

基于视频中各时空关系特征，在实际应用中可以较为自然地将transformer模型应用于视频数据序列。相较于传统的卷积神经网络（CNN）或循环神经网络（RNN），transformer架构在处理视觉任务时展现出显著的优越性，并逐渐被关注者所认可。在此处，我们对基于transformer的视觉模型进行了系统性回顾，并追踪最新动态以期跟上该研究领域的最新进展。图1展示了视觉transformer开发的时间线

2. Transformer结构

了解详情，请查看另一篇文章《transformer解读&scene=21#wechat_redirect)》。

3. Visual Transformer

在本节中, 本文将全面探讨基于transformer架构的计算机视觉模型. 其中, 重点分析了其在图像分类任务、高阶视觉任务以及低阶视觉任务等领域的具体应用. 同时, 进一步概述了自注意力机制与模型压缩技术在高效Transformer架构设计中的重要作用.

3.1 Image Classification

基于transformer在自然语言处理领域所取得的巨大成功而获得启发后的一些研究人员致力于探索是否存在类似模型能够学习图像中的有用表示。图像数据被视为一种相较于文本数据更高维度、较嘈杂和较冗余的形式。 iGPT和ViT是仅采用transformer架构实现图像分类任务的两个代表性模型。

3.1.1 iGPT

自生成式图像预训练方法浪潮诞生以来已有相当长的时间。Chen等人对这类方法进行了复查，并结合了最新的自我监督进展。该方案包含一个预训练阶段后跟一个微调阶段。在预训练过程中，请尝试采用自回归机制及BERT目标。此外，在NLP领域中采用了基于序列变换器架构来预测像素而非语言标记。通过预训练可以让模型尽早完成学习任务并实现良好的初始化效果，在微调过程中，则向模型增加了个小分类器层；这个层旨在优化特定分类目标并适应所有权重参数

考虑一个由高维数据 $x = (x₁, ..., xₙ)$ 构成的无标签数据集 $X$ 。研究者采用最小化数据的负对数似然作为目标来进行模型训练。

其中p（x）是图像数据的密度，可以将其建模为：

对于所有满足 $1 \leq i \leq n$ 的情况（即 $i$ 取值于区间 $[1,n]$ ），我们采用单位置换 $\pi_i = i$ （亦即栅格顺序）。此外，在BERT目标下（即该目标通过从区间 $[1, n]$ 中随机采样子序列 $M\subset [1, n]$ 来进行），他们考虑了以下情况：每个索引 $i$ 独立地具有出现在mask集合 $M$ 中的概率为0.15。我们称此mask集合为BERT掩码，并提出了一种基于概率建模的方法来训练它：其优化过程旨在最小化未被mask覆盖的所有位置 $x_{[1,n]\setminus M}$ 上的负对数似然值。

在预训练阶段中，则会选择LAR或Lbert中的一个模型版本，并在此基础上对预训练数据集所对应的损失函数进行最大限度地降低优化；随后采用了基于GPT-2架构设计的transformer decoder模块来进行特征提取与语义建模；特别的是，在执行注意力机制和MLP操作时，则先进行了LayerNorms处理，并且所有操作均遵循残差连接的方式进行；这种设计使得序列元素间的混合仅发生在注意力机制这一环节；同时，在针对AR目标进行训练的过程中，默认会对注意力输出施加上三角掩码处理；而当采用BERT作为目标模型时，则无需对attention logits施加任何掩码约束：具体而言，在完成内容嵌入向量映射后，默认会对输入序列的位置信息进行清零处理以避免不必要的干扰与计算冗余

在微调过程中

他们在输入空间中对齐特征向量以实现分类器logit与原始模型的映射关系研究，并将其设计目标定义为最小化交叉熵损失L(CLF)。在实际应用中发现将生成器的目标函数与分类器的目标函数进行加权结合（即L(GEN)+L(CLF）），其综合性能表现得更加优秀；其中生成器的目标函数可选类型包括线性判别分析（L(AR））或预训练语言模型（BERT）对应的损失函数（此处括号内为下标）。

3.1.2 ViT

近期 Dosovitsky 等人开发了一种 pure transformer 架构称之为 Vision Transformer （ViT）。当 Vision Transformer 被直接应用于处理图像块序列时在图像分类任务中展现出良好的性能。该模型基本沿用了原始 transformer 的设计理念。下图展示了 Vision Transformer 的整体架构。

针对二维图像数据x∈ℝ^{{H×W×C}进行处理时，将其划分为一系列展平后的二维块x}{(p)} ∈ ℝ^{N × (P² · C)}。其中(H, W)表示原始图像是一个分辨率，在此过程中每一块具有(P, P)分辨率。则该模型的有效序列长度为N=HW/P²。因为Transformer每一层都采用固定的通道数，在这一过程中线性投影操作会将每个矢量化后的路径映射至模型维度为D的空间中，并称其结果为patch embeddings

类似于BERT所使用的[ ]标记，在可学习性嵌入中被应用于嵌入层内的序列数据中，在其经过Transformer编码器后的状态被用来表示图像信息；同时，在预训练任务和微调任务中各分类头具有相同的规模；为了保留位置信息，在嵌入层中增加了1D的位置编码模块；他们在处理二维位置感知方面进行了不同的探索研究，并未显示出相对于标准的一维位置编码器明显的性能提升；此外多模态嵌入则作为编码器的整体输入信号；值得注意的是Vision Transformer采用了标准Transform编码器架构而不设置MLP分支接续Transform编码器输出结果

通常情况下，在大型数据集上对ViT进行预训练，在完成预训练后再对较小的下游任务进行微调。这一步骤中，移除原有的预测层，并添加一个零初始化的D×K前馈层（其中K表示下游任务的目标类别数量）。以比预训练更高的分辨率执行微调通常有助于提升性能。输入更高分辨率图像时需注意的是：色块大小保持恒定会导致有效序列长度增加。值得注意的是：Vision Transformer能够处理任意长度序列特性优势明显；但经预训练的位置编码已无实际意义。因此，在原始图像位置基础上执行二维插值操作即可实现这一目标。必须确保：只有当同时调整了分辨率和平移模块提取机制后才能将其手动注入到Vision Transformer架构中。

当在中等规模的数据集（如ImageNet）上进行训练时，这类模型的表现略低于预期水平，并与可比较规模的ResNets相比其精度稍有欠缺；然而，在具备大量数据量（约14 million至300 million张图像）的情况下进行训练则会带来显著的变化。尽管Transformer不具备CNN固有的某些归纳偏好（inductive biases），例如平移方差和局部性等特性，在面对有限的数据量时难以形成有效的概括能力；但通过大规模预训练并在数据稀缺的任务中转移模型，则能够充分发挥其潜力并取得出色的效果；在经过JFT-300M超参数微调的Vision Transformer架构下，在多个图像识别基准测试中均优于现有最优结果（SOTA），其中在ImageNet上达到了88.36%的准确率，在CIFAR-10和CIFAR-100基准测试中的准确率分别为99.50%和94.55%，此外在VTAB套件所包含的19个任务评估指标上也表现优异；表3详细列出了iGPT与ViT在这各项评估指标上的具体表现

总体而言,iGPT回顾了生成模型预训练方法,并将其与自我监督技术融合,但整体效果并不令人满意。ViT展示了更优的效果,尤其是在使用更大规模的数据集(JFT-300)时。尽管如此,ViT的架构与自然语言处理领域的Transformer结构极为相似,但如何明确块内部(intra-patch)和块之间(inter-patch)的相关性仍是一个具有挑战性的研究课题。值得注意的是,在ViT中,所有大小相同的块被视为完全等同的部分。众所周知,每个块所包含的信息复杂度因块而异,目前这一特性尚未得到充分应用

3.2 High-level Vision

近年来

3.2.1 Object Detection

基于Transformer架构设计的模块，则可大致将基于Transformer的目标检测方法划分为三类：即具有颈部架构特征、头部架构特征以及框架式架构类型的检测方案。

多尺度特征融合组件（在现代检测架构中被称为neck），例如feature pyramid network (FPN)，已被广泛应用于目标检测领域并取得了显著效果。张等建议传统方法难以实现跨尺度特征的有效交互，并因此提出了 feature pyramid transformer (FPT)，旨在充分挖掘空间与尺度上的相互作用关系。该模型由三个关键类型构成：自注意力单元、基础注意力单元和渲染注意力单元。这些组件分别负责对自顶向下、自底向上以及中间层次的信息进行编码处理。值得注意的是，在这一过程中,FPT主要依赖于 Transformer架构中的自注意力机制来加强各层级信息间的融合。

预测头在物体检测器中扮演着关键角色。传统的检测方法通常依赖单一视觉特征（如边界框和角点）来进行最终结果的推断。 Chi等人提出了一种称为BVR的方法，通过多头注意力机制整合不同异构表征为统一表征。具体而言，在注意力机制中，主表征被用作查询输入（Query），辅助表征则作为键输入（Key）。其相似于Transformer中的自注意力机制，在此过程中可提取出用于增强主表征的信息。这些信息有助于提升整体检测性能。

与上述基于Transformer方法增强了现代检测器的部分不同的是，在这里Carion重构了目标检测框架并开发出了detection Transformer（DETR），这一创新性技术实现了简单而彻底地构建了一个端到端的目标探测系统。该系统通过将目标检测任务建模为一个直观易懂的集合预测问题来解决，并彻底摒弃了传统的人工构建组件的做法

如图6所示，在输入图像中提取特征的过程始于CNN主干部分。为了补充图像特征的空间信息，在十个基础特征上叠加预先计算好的位置编码信息，并将这些编码与编码解码器中的N个学习位置编码（每个代表一个潜在的目标对象）进行整合处理。随后通过解码器生成N个目标嵌入表示（其中N为预设参数），这些表示随后经过前馈网络处理以获得边界框坐标以及对应的类别标签信息。与传统的基于顺序生成的方法不同，在这一架构中每个解码器分支独立负责一个目标检测任务。采用两步匹配机制的对象分配策略首先基于匈牙利算法计算出最优的目标-候选体配对关系，在此基础上再利用该算法求得最终的目标-预测体配对方案并完成损失度量计算

其中y和yˆ分别是ground truth和目标的预测值, σˆ是最优分配方案, ci和P^Ci是目标类别标签和预测标签, bi和b^i分别是ground truth边界框与预测边界框, 该系统在物体检测领域展现出卓越的性能, 其精度与速度指标均达到COCO基准下的高度认可, 同时其表现与公认的Faster R-CNN基线模型相当

DETR作为基于Transformer的目标检测框架的一种新设计，在社区中推动了完整的端到端检测器的研发与应用。然而，在这种基础架构中也存在着一定的局限性：例如，在处理大规模数据时的训练耗时较长，并且在识别小目标方面表现相对较差。针对这些问题,Zhu等研究者提出了一种名为Deformable DETR的方法,这种改进方案不仅显著提升了检测性能水平,还通过引入可变形注意力机制来优化特征提取过程。具体而言,该方法摒弃了传统多头注意力在图像特征图上全局扫描的做法,转而聚焦于一组关键位置区域,从而大幅降低了计算复杂度的同时也加速了模型收敛速度。值得注意的是,这种注意力机制不仅限于单模态数据处理,还可以轻松地整合到多尺度特征融合体系中去发挥作用。与传统的DETR相比,采用可变形注意力模块后,Detr-based模型不仅减少了2/3左右的训练成本（较之原来的10倍降低至约3.5倍）,而且推理速度也提升了约1.6倍以上。此外,该方法还引入了一系列其他改进措施:例如通过迭代优化边界框定位精度以及采用两阶段学习策略等手段,最终实现了更高的检测性能水平

针对现有DETR模型存在的高计算复杂性问题,Zheng等人提出了自适应聚类Transformer模型（Adaptive Clustering Transformer--ACT），旨在有效降低预训练阶段DETR模型的成本,无需额外训练过程即可实现这一目标。该自适应聚类机制基于局部敏感哈希技术,能够动态优化查询特征的聚类方式,并使注意力输出能够覆盖由选定代表元表示的所有查询特征。研究者采用将预训练DETR模型中原有的自注意力模块替换成ACT结构的方式,既避免了重新训练又未显著影响模型精度,成功降低了计算开销。此外,他们还引入了多任务知识蒸馏技术（multi-task knowledge distillation--MTKD）作为进一步优化手段,通过仅用原始Transformer进行短暂微调即可提升ACT模块性能的同时,最大限度地保持原有能力不受损失

Sun等研究者探讨了DETR模型存在的收敛缓慢问题，并发现其原因在于Transformer解码器内部交叉注意力机制的作用。基于此发现，在保持原有检测精度的前提下，他们提出了一种纯编码器版本（encoder-only），该版本显著提升了训练收敛性。此外，在算法设计上又开发了一种新的二分匹配方案，在保证训练稳定性的同时实现了计算效率的进一步优化。通过这一创新性工作基础之上，在保留特征金字塔架构的前提下开发了两种新型集合预测模型：TSP-FCOS和TSP RCNN等新变体；与传统DETR相比这些新方法在性能指标上均展现出明显优势

Dai及其团队受现已成为机器学习领域主流之一的预训练Transformer方案启发，在自然语言处理领域提出了一个新的无监督预训练任务框架——基于随机query块检测（RandomQueryPatch），旨在为目标检测模型提供基础学习策略。该框架通过模拟真实世界中的学习挑战，在小规模数据集如PASCAL VOC上实现了与传统密集标注数据相比显著提升的检测性能。尽管在具备充足 labeled data 的COCO基准测试中，在某些复杂场景下该模型仍未能达到与现有有 supervision方法相当的表现水平。这一结果进一步验证了无监督预训练策略的有效性和广泛适用性。

3.2.2 Segmentation

DETR能够自然地延伸至全面分割任务。该方法通过在解码器中添加掩码头(mask head)来取得有竞争力的结果。Wang团队开发了一种名为Max-DeepLab的方法,可以直接预测基于mask transformer实现的全面分割结果,并未替代诸如box detection等子任务。与DETR相似的方法是Max-DeepLab,它在端到端框架下简化了全面分割任务,并直接预测了一组不重叠的masks及其对应的标签。为了训练模型,我们采用了PQ样式损失函数。此外,在结构上不同于将transformer堆叠于CNN主干网上方的方法,Max-DeepLab采用了双路径框架(dual-path framework),更有效地整合了CNN和transformer组件

Wang等开发了一种基于Transformer架构设计的视频实例分割（VisTR）模型，并采用图像序列作为输入，并通过其生成相应的姿态预测结果。开发了这一系统的具体方法是：首先提出了一个基于目标匹配策略，并为预测分配ground truth的方法。为了获得每个目标对应的完整空间信息，在系统中引入了一个多帧累积机制：具体来说，在每一步迭代中，系统通过累积多个帧中的特征信息来构建各目标对应的掩码特征，并利用3D卷积网络进一步优化这些特征以实现精确分割。

也有人运用transformer进行姿态分割工作，在这些研究的基础上多基于DETR的整体架构设计。该方法即Cell-DETR在此基础上进一步增加了跳跃连接机制，在分段头中整合主干CNN与解码器模块的功能以优化信息融合效果。通过显微图像分析实现了细胞实例的最佳分割性能。

赵等提出了创新性的Point Transformer架构以应对点云数据。其自注意力机制对点集顺序具有不变性因而可应用于基于点集的任务。该架构在3D场景下的语义分割任务上展现出卓越的能力。

3.2.3 Lane Detection

Liu等基于PolyLaneNet 提出通过学习transformer网络的全局上下文来提高曲线车道检测的性能。与Poly LaneNet相似，提出的方法（LSTR）将车道检测视为将车道与多项式拟合的任务，并使用神经网络预测多项式的参数。为了捕获用于车道和全局环境的细长结构，LSTR将transformer网络引入到架构中，以处理通过卷积神经网络提取的低级特征。此外，LSTR使用匈牙利损失来优化网络参数。与仅使用0.2倍参数的PolyLaneNet相比，LSTR可以实现2.82％的更高精度和3.65倍FPS。transformer网络、卷积神经网络和匈牙利损失的结合实现了一个微小，快速而精确的车道检测框架。

3.3 Low-level Vision

除了High-level Vision领域之外，在Low-level Vision领域中较少有研究会采用transformer这一架构来进行建模工作。如Image Super-Resolution和Image Generation等具体应用场景即是此类情况下的典型代表之一。相较于基于label或bounding box的分类、分割及目标检测等任务类型而言，在Low-level Vision问题中我们往往需要直接处理输入数据本身并进行相关操作（如Outputting a High-Resolution Image or Noise Reduction Image），这种情况下无疑更具挑战性

Parmar等首先迈出了关键一步，在推动Transformer模型的应用方面取得了突破，并提出了Image Transformer这一创新概念。Image Transformer由两个主要组件构成：编码器部分负责提取图像特征表示，而解码器部分则负责生成高质量像素数据。对于取值范围在0至255之间的每个像素点而言，在学习过程中将生成256×d维的嵌入向量序列，并将其作为输入传递给编码器进行处理。值得注意的是，该模型遵循相同的架构设计与《Advances in neural information processing systems》一书中所介绍的一致。在解码器模块中各层的具体结构展示于图7中。

每个输出像素q0是基于计算输入像素q与其之前所生成像素m1、m2等之间的自注意力关系而被合成出来的，并且包含位置嵌入p1、p2等信息。在图像条件生成领域中（如超分辨率图像增强和图像修复），我们采用了编码器-解码器体系结构。针对无条件与分类条件下的图像生成（如纯去噪场景），我们采用的是纯解码器结构来处理噪声向量作为输入。因为解码器的输入依赖于刚生成的像素序列，在高分辨率重建过程中会产生较大的计算开销。因此提出了一种局部自注意方案。这一改进使基于Transformer架构的方法在图像重建与机器翻译等任务中展现出强大的竞争力。

相比之下，在处理图像超分辨率任务时，最近的研究工作采用了基于pixel patches的方法。

随后开发了一种硬性注意力（hard-attention）模块，并基于参考图从同一参考图中获取高分辨特征V来实现与底层图的匹配关系。该hard-attention map则由以下公式进行计算：

在所有候选的参考patch中，在T矩阵中具有最高相关性的ti值对应的即为最相关的参考patch。随后通过软注意力机制将输入空间V映射至低分辨率特征空间F。随后通过软注意力机制将输入空间V映射至低分辨率特征空间F。

因此，将高分辨率纹理图像转换为低分辨率图像的公式可以表示为：

其中Fout和F分别表示低分辨率图像输出与输入的特征图,S代表柔和注意力机制,T是从高分辨率纹理图像中提取的有效特征.通过整合基于Transformer架构的设计,TTSR模型得以有效地将高分辨率参考图像中的纹理特征传递至低分辨率图像,从而实现超分辨率图像重建.

该方法仅适用于单一任务场景，相比之下，Chen团队开发了一种专为图像处理设计的Transformer架构（简称IPT）。通过大量数据预训练使其充分发挥了Transformer的技术优势，并显著地在超分辨率重建、噪声消除以及去降水等关键领域达到了最优性能。

如图8所示， $IPT$ 由multi-head结构、encoder模块、decoder模块以及multi-tails组件构成，并整合了用于不同图像处理任务的任务嵌入机制。该系统通过将输入特征划分为多个patch块并将其注入编码器-解码器架构中进行处理，并通过重新重塑输出张量的方式生成具有相同功能大小的重建图像。考虑到transformer架构在大规模预训练场景中的卓越性能表现，在本研究中我们采用了ImageNet数据集作为训练数据来源。具体而言，在此基础上我们设计了一种基于人工噪声增强的数据预处理方法：首先对原始图像应用手动添加人工噪声（雨滴干扰）、低采样率降噪或随机下采样的操作以生成一系列退化版图像样本；随后将这些退化版图像作为输入供 $IPT$ 模型进行学习训练，并将其干净版本的目标输出与预测结果之间的差异作为优化目标函数进行迭代更新。此外为了进一步提升模型泛化能力我们还引入了一种自监督学习策略：通过分别配置不同头部（head）、尾部（tail）以及任务嵌入（task embedding）组件实现了对各个特定图像处理子任务的个性化解算能力培养过程最终实验结果表明该改进型 $IPT$ 架构在多个典型图像去噪任务中均展现了显著的效果例如相比传统方法其去噪效果提升了约2dB这一显著提升结果充分验证了基于transformer架构在低层次视觉感知领域具有广泛的应用前景

3.4 Video Processing

transformer展现出在序列型的任务（尤其是自然语言处理领域）中的卓越效果。在计算机视觉范畴中，则侧重于时空维度信息的提取。因此，该模型架构广泛应用于多个领域，如帧合成、动作识别等相关的视频分析任务。

3.4.1 High-level Video Processing

01 Human Action Recognition

视频人类行为识别与定位任务旨在识别并确定视频中出现的人类动作。丰富的上下文信息对于识别人类的行为模式具有决定性作用。研究者Rohit及其团队开发了一种基于Transformer的行为建模方法，用于分析受关注的人与其周边环境之间的潜在互动关系。基于I3D的深度主干网络被用于提取复杂的时空特征，在这一过程中，“I3D”作为主干架构的核心作用得以体现。自注意力机制通过三个关键组件协同工作，并生成分类预测结果以及行为位置信息作为其输出结果的一部分。研究者Lohit等人提出了一个可解释的时间微分模块（Time-Transformer），该模块通过减少同一类别内的数据多样性并增强类别间的区分度来提升模型性能。此外，Fayyaz和Gall团队则开发了一种基于时间Transformer的时间序列模型，在弱监督学习框架下实现精确的动作识别任务求解。

02 Face Alignment

基于视频的面部对齐系统旨在实现面部标记定位。

03 Video Retrieval

基于内容的视频检索的关键在于识别视频间的相似度。为了解决存在的问题，并非仅仅依赖于视频级别的图像特征这一限制因素上,Guo等人建议采用 transformer架构来建模长距离语义关联。除了上述方法之外,他们还提出了带有监督学习策略的对比方法用于筛选出具有挑战性的负样本（hard negatives）。经过在基准数据集上的实验研究,该方法在性能上表现优异同时运行效率也很高。 Gao等开发了一种多模态transformer架构,旨在通过整合不同类型的跨模态提示信息来更好地表征视频内容

04 Acitivity Recognition

活动识别旨在识别多人群的动态行为。解决此问题的早期方案主要基于参与者的位置信息。Gavrilyuk等构建了一个actor-transformer架构来学习表示。actor-transformer将2D和3D网络生成的静态和动态表示作为输入。

05 Video Object Detection

在视频中进行目标检测时，必须依赖全局信息与局部细节。为了提高检测效果，在这一过程中Chen团队提出了一种基于内存增强机制的全局局部融合模型（MEGA）。该方法通过强化表示能力，有效避免了传统方案在捕捉关键特征方面的不足。此外，在空间特征编码方面表现突出的Yin团队开发了一种时空注意力机制（STT），能够整合空间与时间维度上的信息

06 Multi-task Learning

未剪辑的视频中通常包含大量与目标任务无关的画面片段。因此，在未剪辑视频中提取有用信息并去除多余内容至关重要。 Seong等研究者开发了一种用于多任务学习的视频多任务transformer架构。针对CoVieW数据集的任务包括场景识别、动作识别以及重要性评分预测。基于ImageNet和Places365的数据集训练后的模型能够提取出场景特性和物体特性。通过集成类转换矩阵（class conversion matrix -- CCM）这一融合机制来整合各种信息。

3.4.2 Low-level Video Processing

01 Frame/Video Synthesis

涉及在两个连续的前后或整个帧序列中生成新的帧的任务被称为帧合成任务。视频生成目标是生成视频内容的任务被称为视频生成任务。刘等人提出了一个名为ConvTrans的模型其由五个关键组成部分构成分别是特征嵌入位置编码编码器查询解码器和综合前馈网络。相较于基于LSTM的研究 ConvTransformer通过采用了更加高效的并行架构显著提升了性能。 Schatz团队开发出一种基于循环Transformer的新颖方法用于从不同角度模拟人类的行为。

02 Video Inpainting

视频修复任务的目标是修复视频帧中的缺失区域。修复视频损坏过程涉及从空间和时间维度整合数据。针对该问题研究团队构建了一个基于时空Transformer的修复模型。所有输入帧都被同时处理，并通过并行机制填充。通过使用时空对抗损失函数来改进Transformer模型。

3.4.3 Multimodality

01 Video Captioning/Summarization

视频字幕任务旨在通过未剪辑的视频生成相应的文字描述。事件检测与描述模块构成了该系统的核心功能模块。周等人的研究提出了一种端到端优化的transformer架构以解决密集型字幕提取问题。编码器的作用是将输入的视频信号转化为适合后续处理的形式表示。解码器则根据编码结果生成具体的文字描述提议，并通过提案掩盖机制进一步精炼内容。Bilkhu团队采用C3D和I3D网络提取多模态特征并基于transformer框架生成预测结果以提升准确性。实验表明该算法在单摘要任务及密集摘要任务中均展现出良好的性能表现稳定可靠且计算效率较高。Li等人的工作则聚焦于基于注意力纠缠（ETA）机制改进transformer架构以实现图像字幕的有效识别过程无需依赖监督学习便能自主学习图像与文字之间的映射关系从而拓展了模型的应用场景包括但不限于视频字幕识别动作行为分析等多维度的任务范畴

3.5 Self-attention for Computer Vision

在这些章节中, 我们回顾了将transformer架构应用于视觉领域的各种方法. 自注意力机制构成了transformer体系的核心组成部分. 本章系统性地分析了基于自注意力机制的技术方案以解决复杂的计算机视觉问题, 包括语义分割、姿态估计、目标检测、关键点定位以及深度估计等典型应用.

该部分内容请详见《transformer解读》的前几页ppt，里面有关于attention与self-attention的详细介绍。

3.6 Efficient Transformer

虽然Transformer模型在各类任务中均取得了显著成果[1]仍需面对高内存与计算资源的需求这一限制影响了其在资源受限设备（如手机端）的实际应用为此本节我们将重点回顾压缩与加速Transformer模型的有效实施方法涵盖了一系列技术手段如网络修剪低秩分解等

表4列出了一些用于压缩基于Transformer的模型的代表性作品。

3.6.1 Pruning & Decomposition

在基于Transformer的预训练模型（如BERT）中，并行执行多个注意力操作以便独立建模不同标记之间的关系；而对于特定任务则并非所有heads都需要使用。Michel等人通过实证研究发现可以在测试阶段移除大量注意力头而不会显著影响性能；所需的attention heads分布在不同的层中其中某些层甚至只需配备一个head即可。为了应对attention heads上的冗余问题[85]提出了一种重要性评分机制来评估每个head对输出结果的影响程度并据此删除不重要的head以实现更高效的部署方案。此外Dalvi等人从两个角度探讨了预训练Transformer模型中的冗余现象即一般性冗余与任务特异性冗余并基于彩票假设等理论进一步分析了BERT模型中存在的潜在子网络结构[96]通过减少FFN层和attention heads实现了更高的压缩率

除了增加Transformer模型中heads的数量外，在减少depth（即层数）时可以提升运行效率。与并行计算不同的是由于当前层输入依赖于上一层输出的结果因此必须按照顺序逐一处理各层。Fan等提出的逐层剪枝策略旨在规范训练流程并在测试阶段一次性移除所有这些被修剪掉的一整批层。鉴于各设备实际计算资源存在差异Hou等人开发了一种自适应机制能够在不降低基础性能的前提下动态调节原始Transformer架构的不同维度参数。关键注意力头及其相关神经元借助重排机制实现了跨子网络的信息共享以进一步优化整体性能

除了直接在Transformer模型中去除不必要的组件部分的优化策略之外，在处理复杂问题时还有一种方法是基于低秩性质的假设来进行大矩阵的近似。这种方法通过分解Transformer模型中的标准矩阵乘法来实现更高的计算效率和资源利用率。

3.6.2 Knowledge Distillation

知识蒸馏的目标在于从大规模预训练的教师网络中提取其专业知识并将其应用到更轻量级的学生网络上。与之相比，在资源受限的情况下 deploying 学生网络更具优势。神经网络的输出与中间特征均可用于有效地将关键信息从教师传递给学生模型。基于Transformer架构的研究人员如 Mukherjee 等人采用了经过预训练的BERT 作为教师模型，并利用未标注数据指导小型模型的学习过程；而 Wang 等人则专注于模仿教师模型中的自注意力机制输出来训练学生网络；此外，在 [127] 中引入了助教机制[86] 以缩小大规模预训练模型与紧凑型学生模型之间的性能差距从而提升模仿效果。针对Transformer架构中的各类层（包括自注意力层、嵌入层及预测层）Jiao等人分别设计了不同的目标损失函数以实现知识的有效传递；例如：对于学生模型中的嵌入层输出我们采用均方误差损失函数（MSE）来模仿教师输出；同时引入可学习线性变换以使不同特征空间映射到同一空间；而对于预测层输出则采用Kullback-Leibler散度（KL散度）来衡量两模型之间的差异程度。

3.6.3 Quantization

量化的主要目标在于降低其存储和计算资源的需求。
现有针对量化技术的研究已经取得了显著进展。
近年来，在 Transformer 模型的特殊量化方面取得了突破性进展。
Shridhar 等人建议通过将输入信号映射到二元高维空间中实现。
Cheong 等人则采用 4 位及以下精度的数据进行参数表示。
zhao 等人对多种量化方法进行了系统性评估。
值得注意的是，在机器翻译任务上，
Prato 等人提出了首个实现了 8 位精度下的完整量化 Transformer 模型，
并声称这种完全量化的实现并未导致任何翻译质量损失。

3.6.4 Compact Architecture Design

除了缩减预定义Transformer模型至小型架构外，另有研究则直接致力于构建更紧凑的模型架构。研究者Jiang等人提出了一种 novel模块（span-based dynamic convolution——缩写），其显著降低了自注意力机制所需的计算复杂度。该模块整合了完整的全连接层和卷积层结构，并如图9所示展示了其独特的设计特点。

卷积运算能够有效提取特定的标记单位（token序列），相较于标准Transformer中的密集全连接层更具优势。多层次卷积网络进一步优化了计算效率。 novel hamburger architecture在文献[1]中被提出,它通过矩阵分解取代了传统的自注意力机制. 相较于传统自注意力机制,矩阵分解不仅具有更高的计算效率,更能捕捉到不同标记之间的依赖关系。

Transformer模型采用注意力机制通过计算不同输入标记表示之间的点积（特别是在图像识别任务中使用图像片段）来实现其运算效率。近年来的研究者们开发了许多方法旨在将Transformer模型的复杂度降至O(N)，从而使其能够处理较长的输入序列。例如,Katharopoulos等人通过将注意力机制近似为内核特征图上的线性点积，并结合递归神经网络来揭示标记间的相互关系,Zaheer等人则将每位标记被视作图中的一个节点,其中两个节点间的内积即被视为边的存在性.此外,研究人员还尝试通过结合各种启发式图论与稀疏图的方式来模拟密集型注意力机制的行为,这同样实现了O(N)时间复杂度的目标.从理论上讲,Yun等人证明了基于稀疏Transformer架构确实具有足够的表达能力来逼近任意类型的关系,这一发现进一步验证了低复杂度Transformer架构的有效性.

4. Conclusions and Future Prospects

相较于传统的卷积神经网络，在计算机视觉领域 Transformer 正逐渐展现出强劲实力与巨大发展潜力，并因此成为了当前研究热点之一。综上所述, 多篇综述总结道, 为了挖掘和发挥 Transformer 的能力, 近年来已经开发出多种解决方案来应对这一新兴技术挑战。这些方法已在多个视觉任务中展现出卓越的效果, 包括但不限于基础图像分类、高层次视觉理解、低层次视觉感知以及视频处理等多个维度的任务类别。然而, 尽管研究人员已经提出了基于 Transformer 的创新性解决方案来应用于计算机视觉领域, 但这些工作仍存在较大的改进空间, 因为它们尚未完全满足这一技术领域的所有潜在需求与应用场景需求。具体而言, ViT 中采用的标准 Transformer 架构借鉴了自然语言处理领域的通行方案, 而专门针对计算机视觉优化过的改进版本仍有待进一步研究与探索。此外, 将 Transformer 技术扩展至更多未被涵盖的任务领域也将是未来研究的重要方向之一

除此之外，在计算机视觉领域内的IPT不仅能够处理多种基础级视觉任务,例如超分辨率、图像降噪和排水等技术问题,而且其性能表现一直优于现有方法,显示出强大的计算效率优势

最后但同样重要的是，在计算机视觉领域开发高效且实用的Transformer模型仍面临诸多挑战。尽管现有的视觉变换器架构在性能上有显著提升[1]（例如：处理图像所需计算资源高达18B FLOP），但相较于轻巧设计的卷积神经网络（如：Ghost Net其仅需约600M FLOP即可达到同等性能水平），这一差距依然巨大。尽管已有多种针对Transformer架构进行优化压缩的技术[2]（例如：通过引入低秩分解等方法可有效降低参数规模），但这些技术虽然有效降低了模型复杂度但仍需进一步探索在视觉任务中的适用性。因此，在资源受限设备上部署Visual Transformer的基础尚待探索

本文来源于公众号 CV技术指南的论文分享系列。

CV技术指南热忱欢迎您的关注！该平台致力于深入解析当前领域的最新进展与核心技术分析。

在公众号中回复关键字 “技术总结” 可获取以下文章的汇总pdf。

其它文章

北京大学施柏鑫教授：以审稿人视角分享撰写一篇高质量的CVPR论文的经验与技巧

对Siamese网络进行概述

计算机视觉专业术语总结(一)系统化地构建知识框架

通过本文我们可以系统化地构建起完整的计算机视觉知识框架

模型欠拟合问题与模型过拟合现象的深入解析

归一化方法总结

学术论文创新思维的核心路径归纳与探讨

该研究领域中快速掌握英文文献阅读技巧的学习指南

针对计算机视觉领域中小样本数据的学习问题进行系统性探讨

机器学习中的知识蒸馏技术是一种广泛采用的知识蒸馏方法的简洁介绍。其技术基础通常包括特征提取以及策略设计两个主要环节。

旨在提升OpenCV视频的加载速度

NMS总结

该文章主要介绍了损失函数在技术领域中的应用与总结，并深入探讨了其在实际项目中的重要性及优势所在。
文中详细阐述了损失函数模型的设计原理及其在优化算法中的核心作用。
通过系统性的分析与案例研究相结合的方式，
本文旨在为读者提供一个全面深入的理解框架，
帮助他们在实际应用中更好地把握这一关键概念。

该文主要对注意力机制的相关技术进行综述，并阐述了以下几种相关内容：包括自注意力机制、位置编码注意力机制等，并深入探讨了其在自然语言处理和计算机视觉领域的应用前景。

特征金字塔技术总结

对池化技术的综述性分析

基于图像的数据增强方法旨在通过多种策略提升模型泛化能力。其中一种常用的技术是图像域的数据增强策略，在此过程中主要涉及图像旋转、翻转以及调整亮度等操作以生成多样的训练样本集以期达到更好的模型收敛效果。此外随着深度学习技术的快速发展基于深度学习的数据增强技术也逐渐成为研究热点其核心思想是通过生成对抗网络等机制模拟真实环境中的复杂变化从而帮助模型更好地适应不同应用场景并提升分类性能

CNN发展脉络：经典模型综述

基于CNN的结构演变过程中的重点分析及轻量级模型研究

以"CNN结构的演进与优化"为题简述（三）内容

探讨计算机视觉的发展趋势与未来走向

基于CNN的第一篇可视化综述——特征图展示

CNN可视化技术总结（二）-卷积核可视化

CNN可视化技术综述（三）——第三类CNN可视化技术

该文为CNN可视化技术系列综述的第四部分文章。

全部评论 (0)

还没有任何评论哟~

视觉Transformer综述

前几日，华为诺亚，北京大学，悉尼大学共同发表了论文《ASurveyonVisualTransformer》，本文针对其重点内容进行翻译概括如下。导言： Transformer是一种主要基于自注意力机...

基于Transformer视觉分割综述

基于Transformer视觉分割综述 SAM（SegmentAnything）作为一个视觉的分割基础模型，在短短的3个月时间吸引了很多研究者的关注和跟进。

基于Transformer的视觉分割综述

SAM（SegmentAnything）作为一个视觉的分割基础模型，在短短的3个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解SAM背后的技术，并跟上内卷的步伐，并能做出属于自己的SAM模型，...

视觉SLAM综述

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。书的购买链接书的勘误，优化，源代码资源什么是视觉SLAM S...

视觉SLAM综述

研究概述（内容简介、研究意义及作用） SLAM是simultaneouslocalizationandmapping的缩写，意为同时定位与建图技术，SLAM技术的巨大发展，主要是因为以下应用场景： 1...

华为等提出视觉Transformer综述：全面调研

21页VisualTransformer综述，共计156篇参考文献！本文将视觉Transformer模型根据不同的任务进行分类（如检测、分类、视频等），并分析了这些方法的优缺点！注：文末附【Tran...

视觉 Mamba 的综述

24年4月来自香港科技大学的论文“VisualMamba:ASurveyandNewOutlooks”。 Mamba是一种近期出现的选择性结构化状态空间模型，它在长序列建模方面表现出色，这在大模型时代...

Transformer 视觉模型概述

VisionTransformer模型 ViT结构 ViT特点 SwinTransformer模型模型结构 WMSA详解参考资料 VisionTransformer模型 ViT:ANIMAGEIS...

单目视觉SLAM综述

摘要单目视觉SLAM因单目相机体积小、功耗低、信息获取丰富受到了广泛使用。为了深入分析单目视觉SLAM的优势，首先，简述单目视觉SLAM的基本原理，从特征点检测、相机姿态估计、选取关键帧、创建地图、...

视觉大模型综述

万字长文带你全面解读视觉大模型细数近期涌现的优秀视觉大模型工作https://mp.weixin.qq.com/s/jLQaguLejx9zXjZjaJWxQ深入了解视觉语言模型知乎人类学习本质上是多...

是否确定退出登录?

视觉Transformer综述

1. 总体概述

2. Transformer结构

3. Visual Transformer

3.3 Low-level Vision

3.4 Video Processing

3.4.2 Low-level Video Processing

3.5 Self-attention for Computer Vision

3.6 Efficient Transformer

3.6.1 Pruning & Decomposition

3.6.2 Knowledge Distillation

4. Conclusions and Future Prospects

其它文章

全部评论 (0)

相关文章推荐

视觉Transformer综述

基于Transformer视觉分割综述

基于Transformer的视觉分割综述

视觉SLAM综述

视觉SLAM综述

华为等提出视觉Transformer综述：全面调研

视觉 Mamba 的综述

Transformer 视觉模型概述

单目视觉SLAM综述

视觉大模型综述