Advertisement

深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

阅读量:

深度学习论文中提出了一种名为IncepFormer的高效InceptionTransformer模型。该模型结合了高效的特征提取机制与强大的Transformer架构,在图像分割任务中展现出显著性能优势。

1 概述

本文开发了一种简洁、高效的语义分割技术IncepFormer,并设计了一个基于金字塔架构的人工智能模型框架。该框架整合了创新性的自注意力机制与前馈网络,并采用轻量化的解码模块实现快速推理能力。其核心关注多尺度卷积操作的应用,在显著降低计算复杂度的基础上实现了更为精确的空间特征捕捉与全局上下文建模效果。

在这里插入图片描述

2 IncepFormer

2-1 Overview

在这里插入图片描述

InceptFormer由两大部分构成:首先通过层次结构的多尺度变换网络(Inception Transformer)实现图像细节与纹理信息的有效提取;其次采用简洁高效的方式融合多尺度特征并完成像素级别预测。

2-2 Inception Transformer Encoder

借鉴了InceptionNet中的多层次卷积技术,并将其应用于Transformer架构中。我们提出了一种初始的Transformer架构,在保持较高准确性的同时能够更好地捕捉复杂的语义关系,并大幅降低了计算复杂度。相应的InceptiOn Transformer模块(IPTB)的实现细节将在后续部分进行详细阐述。

在这里插入图片描述
2-2-1 Incep-MHSA

Incep-MHSA结构如下:

在这里插入图片描述

Incep MHSA在X上应用三个不同的分支来生成特征图。

在这里插入图片描述

然后将特征图堆叠起来:

在这里插入图片描述

相较于输入X更为平缓且较短的token序列O被生成。O不仅承载了输入X丰富的上下文抽象信息,在计算MHSA时可作为替代方案使用。

在这里插入图片描述

替换为

在这里插入图片描述

Q、K、V送入到自我注意力模块以计算注意力度,其公式如下:

在这里插入图片描述
2-2-2 E-FFN

建立在原始FFN的基础上,在其第一个(FC)层与GELU之间增加了3×3的可分离卷积,并替换了1×1 convolution作为FC层的一部分,从而得到扩展型FFN(E-FFN)。

在这里插入图片描述

E-FFN公式如下:

在这里插入图片描述

2-3 A Simple Upsample-Concat Decoder

通过每个阶段的特征图进行上采样至原图的四分之一大小,并随后将各层特征图进行拼接。接着使用一个1\times 1卷积对拼接后的特征图进行线性变换处理。最后将拼接后的特征图传递给另一个1\times 1卷积模块以预测分割掩码M。

在这里插入图片描述

公式表示为:

在这里插入图片描述

3 Experiments

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~