【ChangeFormer论文】A TRANSFORMER-BASED SIAMESE NETWORK FOR CHANGE DETECTION
本研究提出了一种名为ChangeFormer的网络架构,在变化检测领域取得了显著进展。该网络基于全卷积设计,融合了多层级编码模块与MLP解码模块以捕捉长距离的变化特征,并通过自注意机制与序列衰减操作优化了计算效率。具体而言,该架构采用了位置注意机制以提升定位精度,并通过差异模块捕获前后时相影像之间的变化信息。实验结果表明,在LEVIR与DSIFN等公开数据集上,ChangeFormer显著优于现有方法。
论文地址:ChangeFormer
代码地址: github
目录
1.摘要
2.网络结构
2.1transformer模块
2.2下采样模块
2.3差异模块(Difference Modul)
2.4MLP和上采样
3.数据集及结果
1.摘要
摘要
2.网络结构

2.1transformer模块
标准的self-attention(自注意机制)可以写成:

它的计算复杂度为:

加入序列衰减(Sequence Reduction) 操作,假设衰减率为R:

其中S表示需要缩减的操作序列(如Q、K、V向量),经过Reshape后被转换为reshaped形式,并通过Linear层处理得到最终输出张量)。该操作可使Q、K、V向量的尺寸调整为目标形状。

。这将复杂度降到了

位置注意机制(positional information):由两个MLP层以及一个3×3的深度卷积核构成

Fin对应于自注意机制的输出结果,而GELU即为Gaussian Error Linear Unit这一类特定形式的激活函数。
2.2下采样模块
第一层:kernel size k =7, stride S =4,padding P=3 H/4W/4C1
第二层:kernel size k =3, stride S =3,padding P=1 H/8W/8C2
第三层:kernel size k =3, stride S =2,padding P=1 H/16W/16C3
第四层:kernel size k =3, stride S =2,padding P=1 H/32W/32C4
C4>C3>C3>C1
2.3差异模块(Difference Modul)
差异模块通过前后两个时间相段的影像在不同层次上进行特征提取,并结合concat操作进行融合。随后采用3×3卷积层配合ReLU激活函数以及Batch Normalization(BN)进一步对特征进行深度加工。

2.4MLP和上采样

上述公式表示先通过MLP层将不同尺度的特征图统一到H/4*W/4大小,

代表embedding dimension。
然后将前面四层的diff特征(H/4*W/4)拼接起来


最后,在使用参数设置S=4、K=3的二维卷积后,其作用是对输入特征图F进行处理。接着利用融合特征图操作结合多层感知机(MLP)层生成一个形状为H×W×cls的预测结果。
3.数据集及结果
LEVIR:建筑物变化检测(train/val/test:7120/1024/2048)
DSIFN:不同地物要素变化检测(train/val/test:14400/1360/192)


STANet的相关内容之前也有所涉及,在此不做详细展开。对于感兴趣的读者来说,在深入学习相关技术细节前,请先查阅之前的博客文章STANet
