Advertisement

论文笔记 ICLR 2024 MogaNet: Multi-Order Gated Aggregation Network

阅读量:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

该配图包含两个关键分支:一个是subtract模块与缩放因子(γs)作用后的结果经缩放后相乘得到的第一部分特征;另一个是经过1×1卷积层处理后的第二部分特征。两者的输出通过逐元素求和进行融合,请问这两个分支的输出分别代表什么含义?

在这里插入图片描述

为什么”增强局部与全局特征的差异性“可以提高识别、检测、分割的性能?

在这里插入图片描述
在这里插入图片描述

其中,在图中Multi-Order Gated Aggregation中的两个分量Fϕ(·)和Gψ(·),一方面包含了输入的主要信息;另一方面通过Gψ(·)分量加强了多尺度特征。

在这里插入图片描述

在特征融合或增强模块的设计过程中,在其中一个分支负责保持输入的核心信息的同时(或者说是),另一个分支则对输入的特征进行增强或整合处理(或者说是),最终将这两个分支输出的结果综合起来(或者说是),这种操作较为普遍(或者说是常规)。这种操作的设计灵感来源于残差连接的概念(或者说是机制)。

在这里插入图片描述

然后是Channel Aggregation Block(CA Block)Multi-Order Gated Aggregation Block(Moga Block)的输出可以作为 Channel Aggregation Block(CA Block)的输入。这种设计符合MogaNet的整体结构逻辑,即先通过 Moga Block进行空间维度和上下文特征的多阶交互聚合,再通过CA Block 在通道维度上进行自适应的特征重新分配和聚合。具体来说:

1. Multi-Order Gated Aggregation Block 的作用

Moga Block 主要依赖于多种尺寸(如5×5、7×7等)以及空洞卷积技术,在不同空间尺度上提取并有效融合特征。该模块深入分析了文本内部联系,并从空间维度以及上下文交互两个方面进行整合。

2. Channel Aggregation Block 的作用

  • CA Block 则经过进一步的特征聚合处理,在通道维度上进行核心分配与自适应权重优化。该模块基于通道间差异性计算(例如采用1×1卷积降维、GELU激活函数以及残差加权机制),以提升各通道之间的特征表达效果。

3. 输入与输出的关系

在MogaNet架构中,** Moga Block 将特征(通过空间聚合与上下文交互整合后)传递给CA Block作为输入。在CA Block内部,模型将通过优化通道间的关系来提升特征表达。从而生成更加具有表达能力的输出结果。因此, MokaBlock CA_block 在网络中呈串联布局, MokaBlock **专注于处理空间维度与上下文信息,**而 ** CA_block **则负责优化通道维度的特征表达。

4. 总结

Moga块CA块 是网络中两个紧密相关的组件。Moga块 输出的特征经过整合后会被整合到 CA块 中,在通道维度上进行进一步优化与处理。这一设计的核心目标是确保特征在空间与通道两个维度上都能得到充分整合与优化。

在这里插入图片描述
在这里插入图片描述

怎么利用这篇论文提出的模块进行改进?

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~