【Transformer】vision transformer（ViT）带来的思考？

阅读量：

一、ViT的意义

基于Transformer架构的图像分类模型被称为Vision Transformer（ViT）。该模型首先将输入图像分割成多个小块，并将这些块编码为向量序列。随后利用Transformer模块中的自注意力机制对生成的向量序列进行处理。最后经过一个全连接层对特征进行分类。

相较于传统卷积神经网络（CNN），ViT的核心优势体现在：它突破了传统CNN对图像尺寸的固定要求，并通过将图像划分为可变大小的块进行统一处理，在模型性能上实现了质的飞跃。此外，在架构设计上形成了独特的创新特征：它摒弃了基于局部感受野的传统思路，在空间维度上实现了全局信息的有效捕捉与融合。这种基于自注意力机制的设计理念不仅使模型能够自主识别并关注图像中具有重要关联性的特征元素及其相互作用关系，在提升分类精度的同时也为后续研究者提供了重要的技术参考价值。

其重要性体现在为图像分类任务开创了一种创新的模型架构。这种架构突破了传统卷积神经网络对图像尺寸的局限性，并凸显了Transformer在图像处理领域巨大的潜力。值得注意的是，这种方法不仅为研究人员提供了全新的研究视角，在计算机视觉领域还具有广泛的应用前景。

二、使用Position Embedding实现了图像和文本的向量尺度统一

基于多头自注意力机制的提出主要应用于领域为自然语言处理（NLP），其输入维度结构为[batch_size, num_token, dim_token]。相比之下，在计算机视觉（CV）领域中图像的输入维度结构通常表示为[batch_size, num_channel, height, width]。Vision Transformer（ViT）通过一种称为Patch Embedding的技术将这一差异进行弥补，将输入维度重新映射至预期的形式。具体来说，在视觉域中占据的空间维度（即height乘以width）被直接映射到语言模型领域的token数量，在视觉域的通道数则与语言模型中的嵌入维度相匹配。

如图所示假设输入一张图像其尺寸为 $[3 \times 224 \times 224]$ ViT会将其划分为多个Patch其中单个Patch的空间尺度大小为 $[3 \times 16 \times 16]$ （其中 $16=224\div{}(patch的数量)$ ）。对于每个PatchViT通过应用一层二维卷积操作提取其局部特征从而得到尺寸为 $[768 \times{}(patch的数量) \times{}(patch的数量)]$ 的特征图其中卷积核大小和下采样步长均与对应的Patch尺寸一致并且输出通道数量设定为 $768$ 个。随后将抽取到的空间维度特征图经过转置处理并展平后即可获得最终的一维表示即大小为 $batch\_size\times{}num\_token\times{}dim\_token$ 的形式。

在致力于解决分类问题的过程中，
ViT借鉴了BERT的设计思路，
在其架构中特意添加了一个大小为 $[1, 768]$ 的 $Class\ Token$ ，
以捕获整体图像信息。
由此导致 $token$ 的整体尺寸调整为 $[197, 768]$ 。
值得注意的是，
在ViT模型中，
这个 $Class\ Token$ 被初始化为全零向量，
并且是一个可学习的参数块，
在整个训练过程中会逐步优化其值以提升模型性能。
通常情况下，
在进行后续的任务处理时，
会将这个Token单独分离出来提取其编码结果作为图像特征的基础表示。

此外，在采用Token嵌入的方式中，“ViT继承了Transformer中的位置编码机制（Position Embedding），该参数被初始化为零值，并具有可学习性。然而，并非通过拼接的方式实现这一功能，而是直接将其融入到token序列中。因此，在规模上与当前token一致。”

在此时此刻（即当前阶段），因此

全部评论 (0)

还没有任何评论哟~

【Transformer】vision transformer（ViT）带来的思考？

一、ViT的意义 VisionTransformer（ViT）是一种基于Transformer架构的图像分类模型，它通过将图像划分为一系列的图像块（patches），并将这些块转换为向量序列，然后通过...

Vision Transformer（ViT）

论文地址：<https://arxiv.org/pdf/2010.11929v2.pdf 基于纯自注意力机制的Transform模型，现在在自然语言处理领域占据着首要的地位，它主要是在大型文本语料库上...

Vision Transformer（vit）的主干

图解：代码： classVisionTransformernn.Module: definitself,imgsize=224,patchsize=16,inc=3,numclasses=1000,...

vision transformer（vit）笔记

论文：ANIMAGEISWORTH16X16WORDS: TRANSFORMERSFORIMAGERECOGNITIONATSCALE 2.全体作者：AlexeyDosovitskiy∗,†,Luca...

Vision Transformer (ViT)浅析

VisionTransformerViT 概述为了将Transformer引入视觉任务，Google团队开发出了VisionTransformerViT，其中ViT模型以及变种在图像分类任务上一骑绝...

PyTorch笔记 - Vision Transformer(ViT)

Transformer包含Encoder和Decoder，核心是MultiHeadSelfAttention空间融合，FeedForwardNerualNetwork通道融合。

深度学习之Transformer模型的Vision Transformer（ViT）和Swin Transformer

Transformer模型最初由Vaswani等人在2017年提出，是一种基于自注意力机制的深度学习模型。它在自然语言处理（NLP）领域取得了巨大成功，并且也逐渐被应用到计算机视觉任务中。

ViT（Vision Transformer）算法入门

Transformer架构已经成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构。论文表明，这...

VIT(vision transformer)结构解析

文章目录背景网络结构 VIT简介 VIT模型概述参考 transformer的出现彻底改变了自然语言处理的世界，然而在计算机视觉中，注意力机制保持原卷积网络整体结构，常与卷积网络结合、或是取代卷...

ViT（Vision Transformer）全文精读

1\.相关链接：原文链接：AnImageisWorth16x16Words:TransformersforImageRecognitionatScalearxiv.org 原文开源代码：GitHu...

是否确定退出登录?

【Transformer】vision transformer（ViT）带来的思考？

一、ViT的意义

二、使用Position Embedding实现了图像和文本的向量尺度统一

全部评论 (0)

相关文章推荐

【Transformer】vision transformer（ViT）带来的思考？

Vision Transformer（ViT）

Vision Transformer（vit）的主干

vision transformer（vit）笔记

Vision Transformer (ViT)浅析

PyTorch笔记 - Vision Transformer(ViT)

深度学习之Transformer模型的Vision Transformer（ViT）和Swin Transformer

ViT（Vision Transformer）算法入门

VIT(vision transformer)结构解析

ViT（Vision Transformer）全文精读