极简笔记 Pyramid Attention Network for Semantic Segmentation
发布时间
阅读量:
阅读量
极简笔记 Pyramid Attention Network for Semantic Segmentation
本文核心系统性地开发出一种新的方法PAN。该方法同时开发了两个关键模块:Feature Pyramid Attention module(FPA)和Global Attention Upsample module(GAU)。通过整合应用注意力机制到语义分割任务中,我们实现了对复杂场景的精准识别。

文章指出现有分割ASPP模型会生成网格状伪影;此外金字塔池化模块会严重丧失像素位置信息。因此进而考虑放弃采用atrous形式;进而通过采用金字塔结构来学习注意力掩码而非直接从特征图中提取信息;从而得以保留像素级别的位置信息。其架构如图所示;其中一部分分支利用金字塔结构来预测注意力掩码;另一部分则通过全局平均池化分支获取全局特征并进行融合;值得注意的是配图质量实在不敢恭维;并未从配图中看出下采样是采用池化操作还是 stride=2 的方式实现的;此外每个尺度上的卷积操作是执行两次 nxn 窦运算还是仅仅一次 nxn 窦运算?值得注意的是原文中提到与之前的特征进行拼接;而在实际图形展示中却采用了加号连接的方式这种表述存在一定的不一致性现象极大影响了阅读体验!所以如果不是在最顶尖的研究成果上我是不会继续阅读下去的!

在解码过程中使用的是GAU单元。同样地引入了注意力机制。其基本思路是高分辨率特征图预测通道掩码,并与低分辨率短路进行相乘操作。具体实现如图。

文章对其FPA架构进行了系统性拆解分析,并在图中展示了具体结果。同样地, 我对于Max pooling与Ave pooling的具体应用场景仍存在疑问, 只能推测它们主要用于Pyramid架构中的下采样过程。

对GAU也有分析,发现shortcut用3x3比用1x1效果好

最后是各种sota的比较

全部评论 (0)
还没有任何评论哟~
