深度学习论文: TurboViT: Generating Fast Vision Transformers via Generative Architecture Search及其PyTorch实现
TurboViT:通过生成式架构搜索快速生成视觉变换体及其PyTorch实现
1 概述
本文利用生成式架构搜索(GAS)探索了快速视觉Transformer架构设计的生成过程,并在此过程中实现了精确性和计算效率之间的理想平衡。在这一过程中,我们开发出了TurboViT模型,该模型基于Mask单元注意力机制和Q-pooling设计框架构建,并通过这些创新组件实现了高效的分层视觉Transformer架构设计。
实验结果表明,在计算复杂性这一关键指标上,TurboViT架构设计表现出了显著的优势,较之FasterViT-0其模型规模缩减了显着比例,却仍能维持与之相当的精度水平。进一步分析发现,TurboViT在计算复杂性方面的优势同样体现在运算量减少上,相较于MobileViT2-2.0,FLOP减少了约3.4倍的同时,其分类精度提升了约0.9%。此外,相较于ImageNet-1K数据集上的其他10种最先进的高效视觉Transformer架构设计,TurboViT在保持相似分类精度的同时展现出更为出色的性能表现
2 TurboViT
基于Generative Architecture Search (GAS),本文完成了TurboViT的构架搜索工作。下图呈现了基于生成式构架搜索构建的TurboViT构架结构示意图。总体来看,在这种构架设计中可以看出其实现方案及其连贯性特征。与当前最先进高效的视觉Transformerr结构相比(尤其是那些更为复杂的混合卷积-Transformerr结构), TurboViT展现出更低的隐层维度和较少数目的注意力头(特别是在对比于传统的Transformerr基线模型时)。这一特点有助于提升模型的高度抽象能力和计算性能。

该TurboViT架构在三个关键位置均采用了Q-pooling技术,并借助空间降维手段实现了整体架构的有效性和计算效率提升。其中大多数层都设置在第二个Q-pooling之后的位置,并且这一架构设计还特别注重灵活性,在早期阶段主要采用基于掩码单元注意力机制的局部注意力方法,在后续阶段则逐步引入了全局注意力机制以提高整体计算效率。然而值得注意的是,在某些特定情况下当模型性能受此影响较小时则会相应地放弃全局注意力机制这一选择以避免不必要的计算开销。此外该设计还引入了一种隐式维度压缩机制并将其主要应用于第一个ViT块中以此降低其初始嵌入的空间维度随后又通过优化第二层ViT块中的参数设置实现了隐藏层空间维度的显著降低从而形成了一个高度紧凑的整体嵌入结构与之相比随着架构向下发展其嵌入空间逐渐恢复并最终达到了与第一层相当的高度表征能力
3 Experiments


