A Survey of Transformers(整理总结)
https://arxiv.org/abs/2106.04554
引言
Transformer最初被提出为解决机器翻译问题的一种方法。随后的研究表明,在经过特定优化后基于Transformer的预训练模型(PTM)能够在多任务学习中达到当前最佳水平。因此,在自然语言处理领域中该架构已被广泛采用作为主要框架之一。尽管主要应用于文本处理领域之外,在图像识别等其他领域也被采用。近年来提出了多种Transformer变体(如XFormer),这些改进型模型从不同角度优化了原始架构的关键组件。
模型效率问题
模型的泛化能力方面表现出一定的局限性。尽管Transformer展示了其灵活性特点,并几乎不依赖于输入数据的具体结构特征,在实际应用中仍面临挑战:即难以有效处理小规模训练数据的情况。针对这一问题提出的改进方案主要包括:通过引入特定结构偏差或实施正则化技术,并对大规模无标签数据进行预训练等方法
3. 模型适配。这项研究致力于实现 Transformer 在不同应用场景下的应用与融合。
本文综述系统性地探讨 Transformer 以及其各种变体模型的发展历程与研究进展。基于现有观点或研究结果进行分类时发现,在现有研究中发现的许多 X-former 系列通常旨在解决特定的问题或挑战。例如,在算法设计层面,“稀疏注意力机制不仅降低了算法的时间复杂度(从 O(N²) 优化至 O(N log N)),同时在处理小规模数据时能够有效缓解过拟合现象”。鉴于此,在对现有的各种 X-former 进行分类时,并非简单按照功能划分而是更多基于它们对原始 Transformer 模型的改进方向与技术路径进行系统性分类与归纳总结,并在此基础上提出了一种新的分类框架方案:主要包括架构设计优化、预训练技术拓展以及实际应用场景探索三个核心维度
原版 Transformer

Transformer 分类
到目前为止,在针对三个维度的前提下提出了基于原版 Transformer 的多种模型:包括架构优化方案、预训练策略以及应用领域

详细的 Transformer 分类如下图:

模型层面
2.1 注意力机制
Self-attention 在 Transformer 中承担着核心作用,在实际应用场景中面临两大难题
1. 复杂性。self-attention 的复杂度是
。因此,在处理长序列时 Attention 模块会成为瓶颈。
结构预设。Self-attention 不预先做任何假设以影响输入的结构特征。即使是对顺序信息而言也是如此,它同样需要通过训练数据进行学习.因此,未经过预先训练的 Transformer 在处理小型或中等规模的数据时往往容易出现过拟合现象.
Attention 机制的改进可以分为几个方向:
该研究提出了一种改进型的注意力机制,在现有基础上进一步优化了性能指标
该研究团队将注意力矩阵与核特征图进行分解,并按照逆序重新计算注意力从而实现线性复杂度
3. 模型和内存占用率。这类方法减少了存储的查询项或键值对的数量,并从而降低了注意力矩阵的空间需求。
4. 低秩的自注意力。这一系列工作捕获了 Self-attention 的低秩属性。
5. 先验注意力。该研究领域正在利用预设的注意力分布来作为补充手段或替代现有的标准注意力机制。
6. 改进的多头机制。这一系列工作探索了多个不同的多头(Multi-head)机制。
2.1.1 Sparse Attention 稀疏注意力
在标准自注意力机制中,每个token都与其余所有token进行交互。然而,在经过训练的模型中,注意力矩阵A在大多数数据点上通常非常稀疏。因此,在实际应用中可以通过引入结构偏差机制,可以有效限制每个查询仅关注有限数量的键值对以显著地降低了计算复杂度。
从另一个角度看,在数学意义上而言, 标准自注意力机制可以被视为一个完全二分图模型, 其中每个查询能够从所有内存节点获取信息并更新自身的状态. 稀疏自注意力机制可被视作一种稀疏图模型, 它通过移除了部分节点之间的连接关系来实现信息传递. 根据确定的稀疏连接标准, 我们将这些方法划分为两类: 位置编码引导型与内容相关导向型.
2.1.1.1 基于位置的稀疏注意力
在遵循基于位置的稀疏注意力机制中
原子稀疏注意力:包括全局关注机制(Global attention mechanism)、带状关注机制(Banded attention mechanism)、伸展关注机制(Dilated attention mechanism)、随机关注机制(Random attention mechanism)以及块状局部关注机制(Block-wise local attention mechanism)。

2. 复合稀疏注意力:现有的稀疏注意力通常由多种原子模式组合而成。 如图:

深入探索稀疏注意力机制:除了现有研究中介绍的几种主要模式,在图像处理领域提出了基于深度学习的方法;此外,在自然语言处理领域则发展出了多种基于自监督学习的方法

2.1.1.2 基于内容的稀疏注意力
另一行的工作依赖于输入内容生成了基于该输入的稀疏图。因为这种连接直接根据输入进行构造。一种常见的方法就是挑选那些可能与给定查询存在较高相似度分数的关键字。为了高效地构造这种稀疏图的方法,则可以通过递归的方式解决最大内积搜索问题(MIPS)。这种方法旨在通过查询找到具有最高内积值的关键字而不必计算所有候选关键字与其相关联的所有内积。
2.1.2 线性注意力



2.1.3 查询原型和内存压缩
除了采用稀疏化注意力机制或基于内核设计的线性注意力之外,在减少查询数量或键值对数量的基础上也能有效降低注意力计算的复杂度程度;这种策略从而导致了生成查询原型以及进行内存压缩的技术方案。

以基于原型的注意力机制:在设计查询原型时,在计算注意力分布的过程中采用了多个原始信息表征作为主要参考依据。该架构则通过将注意力分布复制至表示对应的查询位置,并结合离散均匀分布的方式填充这些位置来实现对目标数据点的关注机制构建
缩减键值内存以实现注意力机制:在使用注意力机制之前缩减键值对的数量有助于降低计算复杂度
2.1.4 低秩的自注意力
一些文献和理论分析表明, 自注意力机制通常呈现出低秩特性。这一特性具有双重意义:一方面, 在构建模型时可将其显式参数化;另一方面, 则可用低秩近似来替代传统的自注意力机制。
2.1.5 先验的注意力

从通常情况来看,在神经网络中处理信息时, 注意力机制能够聚焦到不同的位置上, 这种分配方式也可以来自于外部知识或其他途径, 我们将其称为预设关注状态。此外, 预设关注状态不仅可以补充输入信息所导致的关注分布, 还能够取代其自身生成的关注模式。为了便于描述这种现象, 我们将其命名为带有预设关注的状态机, 如图所示。通常情况下, 将两个不同的注意力机制融合在一起的方法是: 在应用 softmax 函数之前, 分别计算出预设关注状态与生成关注状态对应的权重分值并进行加权求和

模型位置先验是一种能够显著偏好特定数据类型的机制。例如,在文本数据中这种偏好表现得尤为明显。这种属性可通过先验注意力机制进行编码。
基于下层模块的先验知识,在 Transformer 架构中常见地发现连续层间注意力分布具有相似性。由此可知,将其作为注意力计算过程中的前一层注意力分布使用是合理的。
多任务适应器先验:基于不同任务进行训练并附加于主网络的具体部位;这些模块被安置在预训练网络的具体部位,并以实现跨任务间的高效参数共享为基础设计。
仅限于注意力先验:一些研究探索了不依赖输入之间交互的注意力机制。进一步说明这些方法关注的是与输入无关的特征组合方式。这类模型仅局限于先验关注机制
2.1.6 改进的多头机制
多头(Multi-head)注意力具有显著的优势,在于它们能够共同聚焦来自多个不同位置和多个不同的表示空间中的信息。然而,目前缺乏相应的机制来确保各个注意力头能够有效地捕捉到各自独特的特征。
头部行为建模:旨在允许模型同时关注来自不同位置的不同表示子空间的信息。然而,在 原版 Transformer 中缺乏明确的设计来确保各注意力头表现出各自的特点,并且没有任何方法可以让这些注意单元之间进行互动交流。许多研究致力于开发更加 sophisticated 的方法来优化现有的多头架构;这些创新性的技术不仅指导了各个注意层的独特运作模式,并且成功地促进了它们之间的协作互动。
跨度受限的多头:原版模型采用了全局注意力机制(Global Attention Mechanism),其中每个查询(Query)都能够遍历并考虑所有的键-值对(Key-Value pairs)。然而,在实际应用中经常发现的现象是:某些头部(head)倾向于聚焦于有限的区域(local regions),而另一些头部则倾向于关注更为广泛的区域(wide regions)。因此,在限制注意力范围方面可能存在双重作用:一方面有助于提升模型在捕捉局部特征方面的能力(ability to capture local features),另一方面也可能在提升模型的计算效率(computational efficiency)方面具有积极影响。
在每个注意力头分别计算其输出向量后
2.2 位置表示
通过直接验证可以发现卷积层和循环层并非置换不变。然而,在Transformer架构中自注意力机制与位置前馈层均具备置换不变性。值得注意的是,在实际应用中这可能成为一个挑战而非一种简单的输入结构集合问题。即其关键在于如何将位置信息自然地融入到模型架构中而不依赖于输入结构的假设。因此,在Transformer架构设计中准确表达词序至关重要。
2.2.1 绝对位置表示
在原版 Transformer 中的位置信息编码采用绝对正弦位置编码。对于每一个位置索引来说,在这个向量中每一个元素都是由预设频率决定的正弦函数。
还有一种表示绝对位置的方式是通过为每个位置生成一组位置编码。相比于传统手动设计的位置编码方式,这种通过神经网络自动学习的方法更具灵活性——它能够根据任务需求调整编码策略。然而,在训练阶段预先设定的最大序列长度这一限制使得这种方法缺乏泛化能力——从而导致该方法不具备外推能力——即无法处理比训练样本中出现过更长的序列
2.2.2 相对位置表示
另一系列工作更关注 token 对之间的相互作用而非单个 token 的位置。从直觉上看,在自注意力机制中考虑元素间的方向与距离所构成的成对关系可能比单独关注每个元素的位置更为有益。遵循上述原则的方法被称作相对位置表示法。
2.2.3 其他表示
已有研究表明,采用融合绝对与相对位置信息的方法来描述混合位置。该模型将注意力分数计算重构为三类交互机制:第一类基于内容的内容-内容交互项;第二类基于绝对编码的位置-编码交互项;第三类基于相对位移关系的位置相关偏置项。
2.2.4 没有显式编码的位置表示
Wang 等人未曾系统性地探讨额外的位置编码问题,在现有研究中尚缺乏对此问题的深入分析。建议可采用将词嵌入扩展至位置维度,并采用连续(复数值)函数来表征词嵌入中的位置信息。
2.2.5 Transformer decoder 的位置表示
值得注意的是,在mask的self-attention机制中并非非置换型。因此,在不采用显式的位置表示的情况下仅依靠Transformer解码器模型具备感知位置信息的能力。对于语言建模任务而言这一发现得到了实证验证研究者指出即使移除位置编码也能够获得更好的性能表现
2.3 层归一化
层归一化(Layer Normalization, LN)以及残差连接被广泛认为是深度学习训练中提供稳定性的重要机制,在一定程度上能够缓解难以计算的梯度问题并防止模型性能下降。已有研究表明可以通过优化 LN 网络模块来提升训练效果。
2.3.1 LN 的位置
在原始Transformer架构中,在残差连接之间安置了Layer Normalization(LN)层,并将其命名为post-Layer Normalization(post-LN)。随后发展的Transformer实现将LN层前移至注意力机制或前馈网络(FFN)之前,在这一结构之后特别增加了另一个LN层以调节最终输出的规模大小;这被称为pre-Layer Normalization(pre-LN)。该pre-LN设计已被广泛应用于后续的研究与实现中,请参见图示进行比较。
2.3.2 LN 的替代
基于经验的研究表明,在大多数实验条件下,LN模块中的可学习参数表现无明显效果,反而可能导致模型过拟合风险.通过受控实验进一步分析表明,正向归一化并非LN适用于Transformer的主要原因.研究表明,其导数重新计算均值和方差后进行归一化处理,在LN模块中起到关键作用.由此提出了一种 novel 的无 learnable 参数归一化方法 AdaNorm
Nguyen 和 Salazar 建议用缩放的 l2 归一化替换 LN 模块。
研究者们就批归一化(Bath Normalization, BN)在文本数据下的Transformer模型中为何表现出色这一问题展开了探讨。他们发现,并行计算环境下一批样本的大规模训练导致bn表现出色能力显著下降的原因在于其与批量统计相关联的存在不稳定性的结论。进而提出了PowerNorm(PN)方案以改进bn效果:1)相较于bn,该方案放宽了基于零均值归一化的条件;2)该方案采用了基于信号二次均值而非方差的数据标准化方法;3)该方案采用了基于运行数据计算出的二次均值进行标准化计算的方式。
2.3.3 无归一化的Transformer
除了LN之外,在构建更深层神经网络时还有一种替代方案可用
2.4 位置前馈网络
对于 Transformer 来说,位置前馈网络 (FFN) 层在实现良好性能方面扮演着关键角色。董等人指出,在简单叠加自注意力模块时会遇到分级崩溃问题,并由此导致 token 均匀性归纳偏差。然而,在缓解该问题方面起到关键作用的则是前馈层结构。针对 FFN 模块的各种改进方案均被后续研究加以探讨。
FFN中的激活函数:Transformer模型主要采用整流线性单元(ReLU)作为前馈神经网络(FFN)层之间的激活函数来建立非线性关系。随着研究的发展,除了ReLU外还出现了如GELU和GLU等其他类型的激活函数进行进一步探索
优化FFN结构旨在提升其承载能力:相关研究主要致力于通过引入更多参数来增强FFN的计算能力。其核心策略在于采用具有更高参数密度的替代架构以实现功能扩展。
改写说明
架构层面
3.1 使 Transformer 轻量化
此外,在模块级别上所采取的努力主要是为了降低运算负担。然而,在这一领域之外的一些探索则是通过实施更高层次的优化措施来进一步提升模型的轻量化效果。
类似将注意力机制分为局部约束注意力与低阶全局注意力的低阶自注意结构,在 Lite Transformer 的设计中提出了采用两个分支结构替代传统关注模式的方法。具体而言,在 Transformer 模块中采用两个分支结构来替代传统的关注机制。其中第一个分支通过自适应地捕捉不同位置之间的长期依赖关系来实现远程上下文的捕捉功能;而第二个分支则利用深度卷积层结合线性变换来捕获局部依赖关系中的细粒度特征信息。这样的架构设计不仅在计算复杂度和模型参数数量上均具有显著优势,在实际应用中也展现出良好的性能表现
Funnel Transformer 采用了类似于漏斗形状的设计,在其编码器架构中,通过沿序列维度进行池化处理逐步减小了隐藏序列长度,并通过上采样机制恢复了信息。相比于传统的 Transformer 编码器,在保持相同计算资源的前提下,该架构显著降低了计算复杂度和内存占用。研究人员指出,在相同的计算资源下可以构建更深或更大的模型以提升性能。
DeLighT 通过 DeLighT 块取代了传统 Transformer 块结构。该创新性设计包含三个组成部分:首先,“扩展与缩减”DeLightT 转换模块旨在以低计算开销实现广泛表示;其次,在单头自注意力机制下学习元素间的配对关系;最后引入了一个轻量化"reduce-and-expand"前馈神经网络(FFN)。此外研究者开发了一种逐层尺寸调节策略允许输入层使用较浅较窄的网络结构而输出层则采用较宽较深的设计方案。这一架构使得其深度网络远超常规 Transformer 但参数量与运算量却显著减少
3.2 加强跨块连接
在传统的Transformer架构中,每个模块不仅接收前一层模块的输出作为输入,并且生成了一系列隐式表示作为输出.对于构建更多路径的兴趣而言,输入信号则可经过这些设计好的路径传递至网络内部.其中Realformer与Predictive Attention Transformer则继承了前一模块中的注意力分布机制.这种机制实际上相当于在相邻的Transformer模块之间建立了前馈连接.
3.3 自适应计算时间
与大多数神经网络架构遵循类似的设计模式时
对于难以解析的例子(即难以处理的数据),深入特征提取会更加有效。表面层次的表示方法可能无法有效解决复杂任务。通过额外计算可以获得更加细致且详实的表现形式。
其在处理简单示例时的表现优于复杂样本,并且浅层表示在完成任务方面可能仅需依赖较少资源
如图所示是三种 ACT 范式:

3.4 分治策略的 Transformer
自注意力机制在序列长度维度上的二次复杂度显著地限制了某些下游任务的能力。例如,在语言建模中通常需要处理远程依赖的上下文关系。另一种有效的长序列处理方法是分治策略:在该策略下, 输入序列被分解为多个子序列, 并通过Transformer或其模块进行高效处理。我们识别出两类具有代表性的方法:循环型Transformer和分层型Transformer(如图所示)。这些技术本质上是将Transformer组件封装起来的应用。

3.4.1 循环 Transformer
循环 Transformer 通常会保留一个缓存来整合历史信息。当处理一段文本时,在线程开始前网络会从缓存中获取作为额外输入。完成一次完整的序列处理后,在线程结束时网络主要通过直接复制隐藏状态来更新内存;有时也会采用更为复杂的机制
3.4.2 分层 Transformer
该方法将输入划分为多个层次,并将每个层次进一步细化。随后这些低级特征随后被分配到相应的编码器中进行处理并最终生成输出表示接着通过池化或其他操作将这些特征汇总生成更高层次的表征整个架构体现了逐层抽象的核心理念具体而言第一点是通过层级建模能够有效管理较长输入数据所需的计算资源第二点是这种架构能够生成更加多样化的、对任务有帮助的关键特征
3.5 探索替代架构
然而 Transformer 架构取得了成功。值得怀疑当前的 Transformer 架构是否是最优的选择?值得注意的是有若干研究致力于探索 Transformer 替代架构的可能性。
卢等人将其对流扩散方程的数值常微分方程 (ODE) 求解器与多粒子动态系统联系起来,并开发出Macaron Transformer。它被设计用来取代每个Transformer块中的FFN-attention-FFN结构。
研究发现Sandwich Transformer 重新排列了注意力模块和 FFN 模块的位置,并使注意力模块主要位于较低层。而无需增加参数量、内存消耗或训练时间投入的诱导模型显著提升了多语言模型基准的困惑度。
Mask Attention Network, MAN 在每个 Transformer 块中引入了一个前缀的动态掩码注意力机制(Dynamic Mask Attention Mechanism)。这种掩码基于标记表示以及标记与头部索引之间的相对距离来进行计算。通过这种方法验证了动态掩码注意力能够成功建模文本数据中的局部性特征,并且诱导出的模型在机器翻译任务以及抽象摘要任务中均显著优于 Baseline 模型。
值得注意的是,在一项研究工作中通过神经架构搜索技术(NAS)探索替代于标准Transformer架构的设计方案。其中Evolved Transformer (ET) 采用进化策略进行架构搜索,并将标准Transformer作为初始种群的一部分。经过进化后的模型在多种语言任务中展示了显著地超越Transformer的能力,并且与现有的更大规模的ET模型相比具有优势的同时降低了计算资源消耗。此外,在这项具有代表性的研究中DARTSformer 采用了可微分架构搜索方法(DARTS),通过结合多分裂可逆网络结构和反向传播重建算法优化内存消耗并进一步提升了模型性能。
预训练 Transformer
作为与卷积网络和循环网络的主要特点之一,在这里Transformer并不预先做任何关于数据结构的假设。这种架构使得Transformer成为一个强大的通用架构,并具备捕捉不同范围依赖关系的能力;然而,在数据量有限的情况下却容易导致过拟合现象的发生。一种有效的方法就是在模型中加入归纳偏置项来缓解这一问题
根据最新研究数据,在大规模语料库中预先训练好的 Transformer 模型能够有效提取适用于后续任务的一般性语言表示。这些模型主要通过多种自监督学习目标进行预训练工作,并特别强调了基于上下文信息预测掩码位置的方法。经过预 trained 后,在应用到下游特定数据集时只需简单微调即可完成任务建模工作,并避免了从零开始重新 training 的巨大计算开销。为了展示 Transformers 在 pre-training 阶段的典型应用场景和实现方式,请列举并分类整理了若干具有代表性的 Pre-Training Transformer 模型及其应用方向。
仅专注于Encoder部分。许多研究工作采用了基于Transformer架构的编码器作为其主体结构。BERT作为一种经典的预训练语言模型广泛应用于自然语言理解等下游任务,并采用两种自监督学习方法:一种是掩码语言建模(MLM),另一种是下一句预测(NSP)。罗伯塔进一步优化了BERT的微调过程,并去除了NSP目标,因为这一策略被发现会对下游任务的表现产生负面影响。
2. 仅专注于解码器部分。另有研究表明,在语言建模任务中对Transformer解码器进行专门预训练是一种有效的方式。例如,在生成式预训练领域中有一个名为GPT系列(包括GPT、GPT-2和GPT-3)的研究分支,该系列方法专门用于缩放下规模的Transformer解码器,并且最近研究表明,在资源有限的情况下利用模型提示输入的任务与示例信息能够取得较好的效果。
3. Encoder-Decoder结构。此外,在PTM领域中也存在基于Transformer Encoder-Decoder架构的整体设计的方法。BART将BERT的去噪目标扩展至Encoder-Decoder架构的基础上,并在此基础上实现了改进。使用Encoder-Decoder架构的好处在于能够使得模型得以实现自然语言理解和生成的能力提升。T5采用了类似的架构设计,并且它是首个在特定下游任务中引入任务相关的文本前缀的研究工作之一。
有一些基于 Transformer 模式的预训练模型也支持其他 Transformer 架构的应用。例如,在编码器架构的基础上开发出了 BigBird 模型。它们通过采用复合位置机制配合稀疏注意机制实现了对长序列数据的有效捕捉。GPT-3 模型在自注意机制中融合了密集注意与局部块状注意两种方式。其创新性地将混合专家模块替代了传统的前馈神经网络(FFN)结构,并且有效提升了模型性能的同时保持了计算效率。此外,在关注点上实现了更灵活的信息传递的同时保持了计算效率
Transformer 的应用
Transformer最初用于机器翻译任务;由于其灵活的设计,在多个领域得到了广泛应用,并涵盖计算机视觉(CV)以及音频处理等技术领域。
在自然语言处理领域中, Transformer及其变体已广泛应用于各种任务,包括但不限于机器翻译、文本生成与实体识别等. 通过大量努力, 在大规模文本数据集上对 Transformer 进行预训练, 我们认为这一过程使其成为现代自然语言处理的主要工作horse之一.
在多个视觉任务领域中,Transformer展现出广泛的应用潜力
音频应用方面, Transformer还可以延伸至音频领域的各种应用类型.具体来说,涉及的领域包括语音识别技术, 语音合成技术, 语音增强技术和音乐创作.
4. 多模态应用。基于其灵活的架构设计, Transformers在多样化的多模态领域得到了广泛应用。例如,在视觉问答、语音到文本翻译以及文本到图像生成等方面均有显著的应用案例。
总结和未来的方向
本文综述了X-former的相关研究,并提出了一种新的分类体系。现有的大多数研究主要从效率性、泛化能力及应用范围等方面对Transformer进行优化。这些改进措施主要包括结合结构先验知识、设计轻量级架构以及引入预训练模型等。
尽管已证实X-former在各类任务中展现出显著的能力,但Transformer仍面临着诸多挑战。除目前关注的领域外(例如效率与泛化),Transformer仍有改进空间。以下可以从以下几个方面展开探讨:从提升模型性能、提高计算效率以及强化学习新数据的能力入手。
从理论上讲, Transformer架构展示了其在处理大规模训练数据集时的能力。研究表明,在计算能力方面, Transformer超越了卷积神经网络和循环神经网络,这使得其在处理大量训练数据时表现出色。通过充分的数据训练后,在性能上通常超越了CNN和RNN。这表明,在对数据结构的先验假设方面相对较少的情况下, Transformer具备更高的灵活性。然而理论原因尚不清楚,我们需要对Transformer能力进行一些理论分析
超越现有的注意力机制的更优全球交互机制. Transformer模型的主要优势在于通过自注意力机制模拟输入数据中各节点间的全局依赖关系.研究表明对于大多数节点而言完全关注并非必要.在一定程度上无法区分地计算所有节点的关注度存在效率问题.因此在有效建模全局交互方面仍存在较大的提升空间.一方面自注意力模块本质上是一个带有多重连接权重的设计用于捕捉非局部信息.因此探索其他动态路由机理具备重要研究价值.另一方面还可以采用其他类型的神经网络架构例如增强型记忆网络作为替代方案.
3. 多模态信息统一处理架构。在多个应用领域中,整合多维度信息对于提升任务效能具有重要意义且不可或缺。此外,通用人工智能系统还应具备跨域语义关联的能力。基于Transformer模型已经在文本处理、图像识别、视频分析以及语音处理等领域展现了卓越的能力,我们有理由相信有机会构建一个更加完善的信息融合框架,以更深入地揭示多模态数据间的内在关联机制。然而,目前关于模块内与跨模块注意力机制的设计仍需进一步优化。
最后,我们希望这篇综述能够作为参考资料,在深入理解Transformer的当前研究进展的基础上,并促进其在不同领域的进一步发展
reference
