vision transformer（vit）笔记

阅读量：

一张图片相当于16×16个单词：用于图像尺度识别的Transformer模型

3.模型

![Figure 1: Model overview. We split an image into fixed-size patches, linearly embed each of them,

Insert position embeddings into the model, then feed the generated vector sequence into a standard transformer model.

为了实现分类任务，在进行分类时我们采用了标准方法来添加一个可学习的辅助组件。

The classification unit is transformed into a sequence. The illustration of the Transformer encoder draws inspiration from...

Vaswani et al. (2017)](https://ad.itadn.com/c/weblog/blog-img/images/2025-02-05/NvL9zjbpXoqc10n8mW5PxMitdAya.png)

3.1第一部分

目的：得到transformer的输入（Z0）

在NLP领域中，在模型处理过程中采用tokens（词元）作为输入形式即每一个单独的单词以确保最大限度地利用transformer模型的能力我们首先要对图片进行预处理。

1. 我们接收的图片具有[H,W,C]（长、宽、通道数）的空间维度结构
首先需要将其转换为N×(P×P×C)的空间表示形式（其中N代表分解成的小块数量）**
假设输入图像尺寸为224×224×3（RGB三通道），我们将图像划分为多个16×16大小的小块 patch（在公式中表示为x），则N=224×224/(16×16)=196个这样的小块**
2. 每个 patch 经过全连接层线性投影操作（Linear Projection），生成E空间中的表征
3. 将 patch embedding 与 class embedding 集成在一起
值得注意的是 class token 在分类任务中起着关键作用，在此场景中我们可采用全局平均池化替代方案（即将N设为196+1=197）**
4. 最终获得所有的 tokens 并对其进行位置编码以提升模型性能

在自然语言处理领域中采用了一种称为一维的位置编码的方法。研究者进行了多个实验比较：未加置位码的情况、采用一维置位码的方法、二维置位码策略以及相对置位码的设计。发现这些方法之间的差异并不显著。以保持一致性为目标，在本文的分析过程中将主要采用一维的位置编码策略。
为什么需要引入位置编码？由于自注意力机制本质上是基于元素之间的相互作用，并没有固有的顺序关系。例如，在自然语言处理任务中，“猫吃老鼠”与“老鼠吃猫”的语义差异微乎其微；而在图像处理任务中，“打乱图像块的顺序也不会对最终结果产生显著影响”。然而这显然不符合我们的预期目标——即需要能够反映元素间的相对顺序关系的技术手段就必须引入这一方法。

3.2第二部分transformer encorder

该文主要介绍了MSA（多头自注意力架构）、LN（层归一化）以及MLP（深度前馈网络）等关键组件的设计与实现。在本文中未作详细阐述，请具体可参考《attention is all you need》这篇论文中的相关内容。此外，在实验设计中仅采用了编码器结构而未采用解码器结构。

3.3MLP Head

经过L层循环后, 将 $Z_L^0$ （即最后一层输出的第一个位置上的值, 代表类token所对应的输出）作为整体图像的特征表示, 用于执行此分类任务; 其中MLP头部分由LayerNorm和两层全连接层组成, 并且采用了tanh激活函数。

4结果

针对不同尺寸的VIT架构展开测试的结果显示，在预训练于JFT时，采用超大型VIT架构与ResNet相比精度提升有限；然而，在TPUv3平台上仅需2500天即可完成训练（后者则需要持续9900天的训练周期）。

那么我们如何确定应用VIT所需的最少数据集数量？【

全部评论 (0)

还没有任何评论哟~

vision transformer（vit）笔记

论文：ANIMAGEISWORTH16X16WORDS: TRANSFORMERSFORIMAGERECOGNITIONATSCALE 2.全体作者：AlexeyDosovitskiy∗,†,Luca...

PyTorch笔记 - Vision Transformer(ViT)

Transformer包含Encoder和Decoder，核心是MultiHeadSelfAttention空间融合，FeedForwardNerualNetwork通道融合。

Vision Transformer（ViT）

论文地址：<https://arxiv.org/pdf/2010.11929v2.pdf 基于纯自注意力机制的Transform模型，现在在自然语言处理领域占据着首要的地位，它主要是在大型文本语料库上...

Vision Transformer (ViT) —— 多模态学习笔记（一）

本系列文章采用先总体框架后技术细节的方式展开。原论文：Animageisworth16x16words:Transformersforimagerecognitionatscale. Github：...

Vision Transformer (ViT)浅析

VisionTransformerViT 概述为了将Transformer引入视觉任务，Google团队开发出了VisionTransformerViT，其中ViT模型以及变种在图像分类任务上一骑绝...

Vision Transformer(ViT) --TransReID学习记录（一）

TransReID 这篇文章是首个将视觉Transformer的ViT应用在ReID领域的研究工作，在多个ReID基准数据集上取得了超过CNN的性能。原文：TransReID:Transformer...

Vision Transformer（vit）的主干

图解：代码： classVisionTransformernn.Module: definitself,imgsize=224,patchsize=16,inc=3,numclasses=1000,...

【Transformer】vision transformer（ViT）带来的思考？

一、ViT的意义 VisionTransformer（ViT）是一种基于Transformer架构的图像分类模型，它通过将图像划分为一系列的图像块（patches），并将这些块转换为向量序列，然后通过...

ViT（Vision Transformer）算法入门

Transformer架构已经成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构。论文表明，这...

VIT(vision transformer)结构解析

文章目录背景网络结构 VIT简介 VIT模型概述参考 transformer的出现彻底改变了自然语言处理的世界，然而在计算机视觉中，注意力机制保持原卷积网络整体结构，常与卷积网络结合、或是取代卷...

是否确定退出登录?

vision transformer（vit）笔记

3.模型

3.1第一部分

3.2第二部分transformer encorder

3.3MLP Head

4结果

全部评论 (0)

相关文章推荐

vision transformer（vit）笔记

PyTorch笔记 - Vision Transformer(ViT)

Vision Transformer（ViT）

Vision Transformer (ViT) —— 多模态学习笔记（一）

Vision Transformer (ViT)浅析

Vision Transformer(ViT) --TransReID学习记录（一）

Vision Transformer（vit）的主干

【Transformer】vision transformer（ViT）带来的思考？

ViT（Vision Transformer）算法入门

VIT(vision transformer)结构解析