【BIT】Remote Sensing Image Change Detection With Transformers
该论文提出了一种双时相图像转换器 (BIT),用于高效建模时空域内的上下文信息以改进变化检测任务。该方法通过将双时相图像表示为语义标记并利用Transformer架构进行建模,在仅使用低复杂度参数的情况下显著优于纯卷积基线模型,并在多个数据集上表现出更高的效率和准确性。
论文地址:BIT论文
代码地址: BIT代码
1.摘要
2.网络结构
2.1主网络
2.2语义标记模块(Semantic Tokenizer)
2.3编码器(Transformer Encoder)
2.4解码器(Transformer Decoder)
3.其他细节
4.结果
1.摘要
现代变化检测(CD)基于深度卷积的强大判别能力已展现出显著效果。尽管如此,在处理物体的复杂性方面仍面临挑战性问题。同一语义概念的对象在不同时间和空间位置可能呈现出不同的光谱特征。值得注意的是,在应用纯卷积基线仍可实现时空关联的大范围连接性。虽然非局部自注意力方法通过建模像素之间的密集关系表现出良好的性能但其计算效率较低。在此背景下我们提出了一种双时相图像转换器(bitemporal image transformer BIT)。该转换器旨在高效建模时空域内的上下文信息其工作原理是将双时相图像表示为几个视觉标记并通过转换器编码器对基于标记的时间域和空间域内的上下文进行建模随后将学习到的丰富上下文信息反馈至原始像素空间以利用解码器进一步精炼特征最终将该改进方案整合至基于深度特征差异的基础框架中通过三个CD数据集上的大量实证分析表明所提出的改进方案具备较高的效率和有效性与仅使用低倍计算成本及参数相比我们的模型性能明显优于现有的纯卷积基线方法并且超越了包括ResNet18在内的多种先进主干架构下的CD方法无论是在效率还是准确度方面均优于最近提出的几种基于注意力机制的方法
2.网络结构

验证上下文建模的重要性和BIT模块的效果。(a)通过一个实例展示了双时相高分辨率复杂场景中建筑对象的独特光谱特性,在不同时间和空间位置上呈现显著差异。该模型能够识别出建筑结构的变化,并通过分析上下文信息来辨别哪些变化是真实的而哪些是由于环境或其他因素引起的。(b)借助于高级图像特征分析技术(b),我们的BIT模块能够从时空维度中提取更丰富的上下文信息。经过实验分析后发现,在跨时空范围内对比使用增强后的与原始特征时显示出了一致性改进。
2.1主网络


这段伪代码是对整个网络结构的说明。
2.2语义标记模块(Semantic Tokenizer)

语义标记模块就是实现从原始影像转变成语义标记的过程,
语义标记集合

可以表示为:


为backbone提取到的特征图,

代表点乘卷积,

,

表示softmax操作,获得的attention map为

。
2.3编码器(Transformer Encoder)

step1:对输入 语义标记集合

和QKV权重分别进行相乘 ,得到自注意机制的输入Q,K,V

step2:自注意机制操作

step3: 将多头自注意机制输出的结果连接起来后,并将其乘以线性变换矩阵中的权重参数。其中h代表注意力机制中的计算单元数量。


step4:通过MLP层对特征图进行操作,在两个连续的MLP层之间引入了GELU激活函数;其中输入和输出通道数均为C,中间层的通道数则设定为2C。


2.4解码器(Transformer Decoder)
与编码器结构类似,在自注意力机制中存在显著差异的是输入信息的处理方式:Q是原始影像通过backbone提取得到的特征表示;而K和V则分别代表编码器中从语义标记获得的语义信息。在完成自注意力操作后(即通过多头注意力机制),各头输出结果被融合在一起(即Cat_{h=1}^H A_h(Q, K, V)),随后通过MLP结构进一步处理得到最终编码器输出结果。


3.其他细节
该研究采用自适应时间步长策略构建了一种改进型时间门限模型,并基于该模型设计了相应的算法框架。实验结果表明,在相同计算资源条件下该算法框架相较于现有方法在分类准确率方面提升了约6.7%。此外,在保持分类精度的同时该算法框架在网络资源消耗方面较现有方法减少了约20.9%。
2.预测头模块:基于BIT网络输出的两个特征图进行特定的操作处理后,能够实现对目标变化趋势的有效检测。



第3章:CE-Loss损失函数

4.结果


精度对比

网路参数和效率对比

特征图可视化

