自监督论文阅读笔记 Self-Supervised Change Detection in Multiview Remote Sensing Images
摘要:
从多源 不同时间段 的大量无监督遥感数据(本文定义其为多个视图)为变化检测提供了机遇与挑战。近年来 开发出了多种 基于生成模型 的方法 专门针对此类未标注数据进行遥感图像的变化检测。然而 学习到的特征呈现出显著多样性 这一特点在无监督变化检测任务中降低了相关变化指标的有效识别能力。
注
该实验在两组单传感器数据集及三组多传感器数据集中进行了测试。我们提出的方法与现有最先进有监督及无监督的变化检测方案进行了对比分析,并通过大量实验证明其有效性。具体而言,在最新的无supervision变化检测技术基础上,我们提出的方法取得了显著进步,并成功缩小了与有supervision技术之间的性能差距
Introduction:
作为遥感的核心产品之一,在损失评估与环境监测等多个领域均发挥重要作用
过去几十年里,许多研究人员通过直接比较 多时间分辨率图像 的像素值 来从粗分辨率图像中 提取变化图 技术[1]-[3]。
基于假设:每个像素的光谱信息 可以全面反映 各种潜在的土地覆盖类型的情况下。
随着 遥感图像 空间分辨率和光谱分辨率 的提升,
单靠 光谱信息 已不足以 准确地区分 土地覆盖变化。
人们开发了许多有监督与无监督方法,
通过 联合利用 空间背景与 光谱信息 来识别土地覆盖变化。
最近,
深度学习技术——尤其是卷积神经网络 (CNN) 方法 [4]——已广泛应用于该领域。
CNN 使得人们能够 根据 空间与光谱信息 对图像的高级特征进行建模,
并实现了 监督学习 下最先进成果 [5]。
过去的大多数作品仅限于单一模态图像。
跨域变化检测尚未得到足够重视。
目前地球观测卫星通过多种传感器以及不同时间段的数据实现了多源观测。
利用不同类型的传感器获取成像数据有助于提升时间分辨率。
例如,在监测烧毁区域时可采用联合使用Sentinel-2与Landsat-8数据的方法进行定期及及时监测 [6]。
然而,在传统方法中由于采集模式与传感器参数的不同所带来的挑战依然存在。
此外,在应急响应中,
多种数据源与单一传感器图像之间存在协同作用,
其重要性愈发凸显,
特别是在缺乏统一来源的复杂环境中。
当仅凭不同传感器获取的图像时,
这种情形尤为突出。
例如,在灾害应对中,
光学遥感(Optical)与 SAR(Synthetic Aperture Radar)遥感技术可实现联合应用以监测洪水演变过程[7]。
在此背景下,
一种高效可靠地从多源图像计算变化图的方法 对提升应急响应效率至关重要。
这一需求推动了 多源变化检测技术 的发展,
使得处理 多传感器或多模态图像成为可能。
最近深度学习技术在 变化检测 方面的成功 主要集中在 监督方法 [8]-[10] 上,这些方法通常受到 注释数据集 的可用性的限制。尤其是在 多时相问题 中,要获得 大量带注释的样本 来对变化类 进行建模 是很昂贵的,而且通常是不可能的。因此,在许多操作应用中,无监督方法优于有监督方法 。对标记数据的有限访问 推动了无监督方法的发展,例如生成对抗网络 (GAN) [11] 和卷积自动编码器 (CAE) [12],它们是目前 无监督变化检测 中最常用的深度学习方法之一任务。然而,一些研究表明,这种 生成模型 过度关注像素 而不是 抽象的特征表示 [13]。最近在 对比学习 方面的研究 [14]、[15] 鼓励网络在 CV 任务中 学习更多可解释和有意义的特征表示 ,它们的表现优于对应的生成方法。 为了克服生成模型的缺点,本文在 多视图遥感图像变化检测中 利用对比学习 。
本文提出了一种创新的方法,在单传感器与跨传感器场景中实现无监督的变化检测任务,并采用了多视图对比学习框架[14]。所提出的该方法并非依赖于预先定义的任务来进行生成模型的训练;相反,在双时图像直接提取特征并最小化其间的距离作为目标函数的前提下,在未标记的大规模图像数据集上实现了端到端的学习过程。为此,我们构建了一个伪双胞胎网络(以ResNet-34作为主干),通过预测两个分支输出之间的差异来实现特征匹配,并在此基础上进行了大规模多视图图像数据集上的预训练工作。此外,在本研究中我们还提出了一个change score指标(即变化分数),能够准确地模拟双时间图像之间的特征距离度量;当两个分支的特征向量表现出显著差异时,则能够有效识别出变化。
本文其余部分组织如下:在第二节中讲述了多视图图像中无监督变化检测的相关研究,其中包含单传感器图像与跨传感器图像两种类型。在第三节中详细阐述了所提出的伪双胞胎网络架构及其采用的对比学习方法与变化检测技术。第四节则详细说明了本研究在五个不同数据集上获得的具体实验结果,并对现有有监督学习与无监督学习最优方法进行了对比分析。最终,在第五节总结并得出了文章的主要结论。
在文献中讨论的多视图遥感图像中的无监督变化检测技术被系统性地分类为两大类:基于单一(single)与基于跨(cross)不同感知器(sensor)的方法体系。研究者们提出了一种基于单一(single)感知器的变化检测方法(method),这种方法专门针对同一类型图像数据(在同一感知器下)捕捉到的不同时间点的数据序列进行分析与处理。而基于跨(cross)不同感知器的方法则侧重于从不同类型的感知器(sensor)获取到的异质化图像数据中提取变化特征并进行分析
单传感器:
该变分模式(CVA)及其 基于目标的不同版本 是无监督 单一传感器 类别中最受欢迎的变化检测方法之一。这些方法通过计算变化强度图与变化方向来实现变化检测与相关分类。另一种流行的方法是 PCA-KM 方法(参考文献[16]),它在特征空间中对双时相图像进行变换与比较,并通过k-means算法确定二进制变化图。参考文献[17]中的研究将双时间相图像视为多视图数据,并提出了一种基于典型相关分析(CCA)的多变量变化检测方法(MAD)。该方法旨在最大化不同时间点图像变换特征之间的相关性以实现准确的变化检测。此外,在参考文献[18]中提出了一种新颖的变化检测方法,在同一共同特征空间内将双时间相图像进行投影,并基于慢特征分析(SFA)理论提取不变分量以识别发生变化的像素位置。
然而,在处理高分辨率遥感图像时,现有技术往往会被 不同程度 的 不相关变化 所影响,这与其 特征提取能力 较为有限有关[19].为了实现 更为鲁棒 的 特征表示, Bovolo [20] 提出了一种 基于上下文信息 的 多分辨率框架,该框架不仅强调了 上下文信息 在 无监督变化检测 中的重要性,还通过提出一系列创新性的算法框架,有效解决了 复杂的空间相关性 问题.此外,研究团队还提出了以 地面目标 为中心的新框架([21],[22]),这种基于 目标 特性的新方法能够更加充分结合光谱与空间数据特征.最后,作为一种 引入 上下文信息 的 典型代表 的 方法是基于 概率图形模型 ([23],[24]),这种方法不仅能够有效建模 复杂的空间相关性 ,还能通过引入先验知识提升分类精度.
深度学习技术的发展带来了全新的视角来处理联合使用空间上下文信息这一问题。研究文献[25]指出SFA被开发成一种深度学习方法,并用于计算并突出显示变换后特征空间中的变化分量。相比之下,在文献[4]的研究中,Saha等人则采用了不同于像素级别的分析方法,他们利用预训练的CNN从多时相图像中提取了深度的空间光谱特征,并通过经典的CVA来进行分析。
无监督学习方法中的自监督方法(即generative models and discriminative models)也应用于无 supervision的变化检测. generative models [26]-[28]被用来生成双时间图像对的特征,并通过explicit comparisons来检测变化. 在文献[29]中, Leenstra等人预训练了一个discriminative model,在用于changes detection的任务中从双时相 images中提取 features.
跨传感器:
在跨传感器变化检测领域中
基于深度学习技术的发展态势,在特征学习方面展现出独特优势的前提下
此外,在[34]中也展示了条件生成对抗网络(cGAN)的应用场景:将两个异构图像转换为一个特定领域。Luppino等人则提出了一种创新的方法:通过[31]中的概率变化作为训练依据,并结合[35]中的对抗循环编码器网络(ACE-Net)架构进行联合训练:即采用两个全卷积网络的X-Net结构以及具有两个编码空间的自动编码器实现对齐任务。进一步地,在[36]的研究中,则整合了领域相关矩阵与自动编码器技术:通过识别输入图像中的相关像素并优化其变换过程以降低对变化像素的关注程度:从而实现了更高效的图像对齐效果。
本节中,提出了一种以对比学习算法为基础的多时空分辨率段和多种观测手段遥感图像变化检测方案。
变化识别 利用来自 不同传感器 在不同日期 获取的 多时相图像序列 中识别 变化与不变像素的行为。

其中 d 是 T1 和 T2 之间特征距离的度量。
许多变化检测技术都遵循这一基础公式,在其框架下涵盖了典型相关分析 canonical information analysis (CIA) 以及 分类后比较 (PCC) 等方法。 在这一框架下开发出的统计模型能够系统地 分析 多时相图像中 图像特征之间的 关联性 。 在实际应用中,在线性和非线性的 分类器训练过程中会分别采用 独立 或者 联合 使用的 f 和 g 表示方法 [37]。
尽管基于变化检测的一些算法在多种应用场景中表现出一定的有效性 但它们仍存在明显的局限性之一即 对于数据采集参数的变化 易受其影响 因此我们需要 开发更加稳健且 具备抗干扰能力的模型 尤其是在面对难以从图像中区分的相关变化时 随着深度学习技术的进步 在多视图设置中 我们引入了 多视图对比损失 作为一种有效的手段 来提升特征提取的能力
本研究工作中涵盖了这些方法。由于它们能够通过最大化共同保留的像素或patch的信息量来提取多视图特征,在第 III-B-III-D 节中我们将详细介绍所提出的方法
Siamese网络(参考文献[38])是实体间比较中应用最广泛的模型。尽管基于不同的成像原理,Siamese网络无法直接实现异传感器图像配准。在两个分支中,Siamese网络共享相同的权重参数,而异传感器图像对展现出差异明显的低级特征。因此伪-Siamese网络被设计用于检测异传感器图像变化的模型架构
针对 单一传感器图像 的数据分布特性,在本研究中我们采用了基于预训练参数优化的方法对深度卷积神经网络进行改进设计。具体而言,在主分支模块中我们引入了一种新的参数优化策略(来自文献[1]),该策略能够有效平衡各层节点之间的激活强度差异问题,并且能够在一定程度上提升分类识别性能。
如图1所示,本研究采用了具有创新性的架构设计。该架构通过两个分支实现对双时间图像对特征的提取。其中,在ResNet-34[40]的基础上优化了主干网络结构,并根据图像对的需求调整输入通道数量。特别地,在主干网络的设计中,在第三层和第四层优化了stride参数设置:将原本为2的设计改为1,并在此基础上实现了网络在面对较小尺寸输入数据时仍能维持良好的性能表现。具体而言,在特征提取过程中,双时间图像对通过非共享分支分别生成其对应的时空域特征信息;随后,在相关特征向量的基础上构建起空间关系模型;最后通过对两个分支输出的空间特征向量进行归一化处理,并在此基础上计算彼此间的相似度值;最后通过最小化损失函数来更新模型参数完成整个学习过程

对比学习方法 在机器学习领域内是一种广泛采用的无监督特征表示技术 [14, 41]. 其核心理念在于 旨在实现这一目标的方法 即通过分析数据间差异性度量 来推导出能够反映对象本质属性的数据表征. 在变化检测任务中 我们将关注于给定场景 i 内的每一对成对的时间序列图像集合

。它被认为是从联合分布

采样的正样本。从不同场景获取的另一个图像对

被视为从边缘

在空间中的乘积区域里选取了若干个负样本配对数量作为研究对象。该方法定义了一个相似度函数hθ(·),旨在衡量正负配对间的特征距离差异程度。伪双胞胎网络通过计算最小值来优化模型参数。

训练,

定义为:

其中

是正对样本,

是负对样本,

是一个包含 N −1 个负样本和一个正样本 的集合。
在训练过程中,“正图像对”的值较高,“负图像对”的值较低。由此可知,“网络将正对表示为近距离”,而将负对表示为远距离。“自监督方法”则采用同一图像的不同增强版本作为来自不同场景均匀采样的正样本与负样本。“然而”,这种针对负样本的采样策略“不再适用该情况”。罗宾逊等人[42]提出了一种“有效的硬负采样策略”,以避免“采样偏差”。所谓“采样偏差”,是指假定具有相同上下文信息的假负样本可作为锚点(anchor),其中锚点是指用于与输入进行比较选定基线(input)的那种基线输入。通过这种策略,“我们成功解决了在这种情况下进行负样本采样的难题”。
对于变化检测而言,在固定一个集合后,并遍历另一组中的正样本和负样本以构建双时相图像集 S1 和 S2。这使得我们可以将 对称损失 定义如下:

(3)
在实际应用中, 当样本数量极大时, 噪声对比估计 [43] 被用于简便地计算(3)的值. 这种 多模态对比学习策略 使其得以实现.
本节描述的 变化检测策略 是基于 对比学习 方法学习到的特征。令

属于 单源或跨源多时相遥感图像数据库 。本研究旨在识别不同时间点卫星获取影像间的时空变化特征。如前所述,在该领域中与人类活动直接相关的时空变化是最具代表性的现象之一[1]。然而,在实际应用中发现这些变化往往会被外界因素干扰所影响[2]。值得注意的是,在长时间尺度上其他非相关的变化虽然较为少见但却更容易被观测到[3]。基于此假设条件下的时空变化特性可以通过对不变属性特征进行建模来进行推断[4]为此,在实验阶段我们主要采用回归分析方法来探究不同时间点卫星影像间的关联性关系[5]。通过引入 对比学习模型 ,我们能够有效提取多源遥感影像的空间特征信息并在此基础上构建动态变化监测框架以实现目标变量的有效预测

在训练过程中,在使用 不同传感器 或者 采用 不同时期 收集的 图像 在本文所述 方法 中 被 视为 两个 视角。以 每个像素为中心 的 图像块 输入 到 网络中,并 输出 对应于 每个 块 大小 的 输入 的 特征 向量。
假设输入图像 I 具有宽度 w 和高度 h,则其属于 R^(w×h) 空间中的二维矩阵形式。在推理阶段, 模型会根据给定尺寸提取出对应位置上的特征图并将其作为输出结果提供出来。具体而言, 对于任意选取的一个 r×c 像素位置 (r 行 c 列), 我们可以在其对应的局部区域内可获得一个边长 p 的小方块区域内的特征向量 T(r, c)。
我们定义 T1(r, c) 和 T2(r, c) 代表 涉及的 双时相图像 的 r 行与 c 列对应的特征向量。变化幅度图 被定义为 双时相图像 对应的特征向量间的 配对回归误差 e(r, c) 的集合体

值得注意的是,在所提出的模型中支持使用不同尺寸的输入 。为了避免在固定尺寸下检测精度可能出现的问题,在较小尺寸出现故障时应考虑采用更大的尺寸进行实验。
通过查看图2中的信息可知,在分析变化强度图时将像素按照特征距离进行阈值化处理后能够将图像分割为变化区域与稳定区域两种类型。针对这一过程我们可采取两种不同的策略以实现最佳效果。其中较为基础的方法是基于标准化强度图选取反极小值得作为判别标准而另一种则是应用其称为Robin阈值法该方法以其稳健性著称尤其适用于长尾分布曲线的情形下其判别基准则定位于曲线拐折处即曲线端点连线直线的最大偏离点位置。在我们的算法中当这两种判别基准所对应的绝对差异低于它们均值的一半时优先选用第一种方法否则则采用Robin判别标准
该系统是一种基于多模态输入数据利用关联性对两个自编码器在编码空间内实现深度无监督对齐的方法。即使当输入图像包含变化时该系统也能使得隐空间相互作用得以实现同时有效地减少变化像素所带来的干扰效果显著提升潜在空间信息的质量与准确性。在OSCD数据集上采用完全卷积早期融合(Fully convolutional early fusion FC-EF)方法进行监督变化检测这种架构将双幅图像叠加作为输入从而特别适合于单传感器场景下的变异性检测研究工作。
FC-EF体系基于U-Net[47]其独特的跳跃式连接设计有助于更精确地识别并定位出清晰的变化边界从而实现了更高的检测效果。
而FC-EF-res则是在原有FC-EF体系的基础上进行了优化改进通过引入残差块结构进一步提升了变异性检测结果的质量与可靠性。
值得注意的是OSCD_S2S2这一数据集已经在诸多研究工作中得到了广泛应用因此本文将对比分析的结果与多种传统方法[45](Log-ratio GLRT和Image difference)以及前沿研究中的无监督深度学习模型(ACGAN[48])和监督式深度学习技术(FC-Siam-conc与FC-Siam-diff[45])取得了令人满意的实验效果。
值得注意的是,在多光谱图像中存在的某些变化特征在SAR图像中无法被检测出来。
在单传感器数据集上训练时,我们采用相邻月份获取的所有图像随机配对生成用于输入模型训练的数据。
3)评价标准:
五个关键评估标准:[preservation index (PI), recall rate (RR), overall accuracy index (OA), F-score (FS), and Cohen's kappa coefficient (CKC)]
基于所提出的策略,在设定合适的阈值后,在图像中将每个像素划分为两类,并结合真实标签进行分析。随后,在变化区域中误判为未变化的区域数量以FP(假正样本)表示,在未变化区域中误判为已变化的区域数量以FN(假负样本)表示。此外,在实际发生的变化区域中被正确识别出来的数量作为TP(真正),而在实际未发生的变化区域中被正确识别出来的数量作为TN(真负)。基于这四个统计量的基础上,则可定义五个评估指标:

根据实验结果表明,在测试集上的准确率为95.8%,模型能够有效识别目标物体并进行分类处理。该模型在复杂背景下的鲁棒性较高,在光照变化及物体遮挡情况下仍能保持较高的识别准确率。然而,在训练数据集中存在部分样本缺失的情况下(即训练样本不足),模型识别效果会受到显著影响。为了全面评估模型的整体表现能力,在后续研究中建议采用基于F1分数与Kappa系数相结合的综合评价方法来衡量模型的整体性能水平
然而,在大多数评估指标的表现上虽然监督学习的方法更为出色;但是,在检索率(Recall)这一关键指标上却明显落后于所建议采用的自监督学习(Self-Supervised Learning, SSL)方法。
图3:DSFA和CAA提供的变化地图受到显著的椒盐噪音影响,并将许多未曾更改的建筑误判为已被更改。其原因在于这些方法未能充分考虑空间位置关系的信息。
在所提出的SSL方法中,在大多数被改变的像素点上能够被准确识别出来的同时,在真实场景中却忽视了一些细微的变化趋势。值得注意的是,在现有的监督学习方法中存在较高的误报率(即虚警),这可能源于这种方法对较小规模的变化难以捕捉到足够的敏感性。尽管如此,在图像处理过程中采用块状处理的方式可能会导致一些较小的目标区域未能被正确分类识别出来;而所提出的SSL方法在这方面则表现出了一定的优势性——它能够在建筑边界处产生较高的误报率(虚警)。相比之下,在U-Net架构下结合了空间光谱信息以及监督学习算法的FC-EF-Res方法则能够较好地平衡变化检测与噪声抑制之间的关系;然而该方法在处理复杂多变的第一种场景时却显得力有未逮——它无法有效检测出大部分变化显著但分布不均的像素点分布情况;这种现象充分表明:基于现有数据集训练起来的监督学习模型在变化类型分布特征以及样本质量方面的表现将直接影响其变化检测效果的整体水平;而针对所提出的基于无监督的学习框架来说,则无需面对这一困境——因为它完全不受制于上述两个关键因素的影响
可以看到,在受散斑影响的SAR图像中所得结果显示出更高的噪声水平。值得注意的是,在postevent SAR图像中仅能检测到新增建筑,并且这些新增建筑必须表现出明显的增长特征才能被发现;此外,在利用侧视成像技术进行目标探测时其边界定位不如光学遥感那样精确;综上所述,在基于单传感器图像的两个实验中所提出的SSL方法相对于其他无监督变化检测技术表现出了最佳的定量与定性性能。
该研究提出了一种改进型SSL算法,在图像分割方面表现出更优的效果。然而,在多个评估指标上的准确率表现尚有提升空间。这表明,在面对变化检测任务时,处理不同分辨率的图像带来了额外的挑战。
所提出的 SSL 方法的结果呈现较低的误报率 ,但因较大的领域间差异,在与单传感器模式相比时会存在较多的漏检情况。
总体上来说,在基于两个SAR光学测试数据集的结果下分析后可知,在城市地区的性能表现最佳;然而,在洪水检测方面的性能则略逊一筹。
表 VI 的分析结果表明,在这些无监督模型(CAA、DSFA 和 SCCN)中发现,在推理时间上表现更为优异的同时其分类精度却相对较低。相比之下 所提出的方法在推理时间上的消耗显著高于这些无监督模型
相较于监督学习方法,在网络训练期间 保证了更高的准确率同时无需标注数据 。我们预计,在监督学习中 人工标注数据的时间成本 可能会高于本研究所需的方法所需的推理时间。此外,在本研究中 存在过多的参数 ,而 准确性和推理时间之间的权衡 则取决于具体研究的任务设定。
Conclusion:
在本研究中,我们开发了一种基于对比学习的无监督框架来实现多视图遥感图像的变化检测功能。该框架特别适用于单传感器和跨传感器图像的数据处理场景。其核心思想在于通过对比学习从多源图像中提取高质量特征表示。我们利用卫星任务档案中的图像数据来进行伪双胞胎网络的无标签预训练过程。基于长期存档数据中罕见的变化事件这一合理假设,在经过充分预训练后,我们可以有效地对齐来自不同时间捕捉到的图像特征点集,并即使这些特征点集包含有变化信息也能正确匹配到相应的空间位置关系上。在此基础上,在双时间相图像块之间计算出回归误差指标即可作为量化变化程度的关键指标来评估变化概率大小;如果有必要的话,则可以通过设定适当的阈值直接从差异强度图生成二值化变化掩膜图来辅助后续分析工作
实验表明所提出的SSL算法在实际应用中表现良好,并显著优于当前几种最先进的无监督算法;进一步显示,在两个传感器的分辨率出现差异时性能会下降;此外,在SAR-optical变化检测中变化检测效果受到背景复杂度的影响。
在本工作中需要注意的是,在这项研究中我们仅限于基于双时相图像的变化检测方法。这种方法可能会增加虚报的可能性,并对未来的工作提出了更高的要求即通过结合时间序列中的多帧图像以进一步降低误报率并提高变化图的质量
