Diffusion Enhancement for Cloud Removal in Ultra-Resolution Remote Sensing Imagery论文翻译
超分辨率遥感图像去云的扩散增强方法
IVP2024
摘要:云层的存在严重影响了光学遥感(RS)图像的质量和有效性。然而,现有的基于深度学习(DL)的去云(CR)技术在准确重建图像的原始视觉真实性和详细语义内容方面遇到了困难。为了应对这一挑战,这项工作建议在数据和方法方面进行改进。在数据方面,建立了一个空间分辨率为0.5m的超分辨率基准,命名为CUHK-CR。该基准包含丰富的详细纹理和多样化的云覆盖,为设计和评估CR模型奠定了坚实的基础。从方法论的角度来看,一种新的基于扩散的框架CR称为扩散增强(DE),提出了执行渐进的纹理细节恢复,从而减轻了训练难度,提高推理精度。此外,权重分配(WA)网络的开发,以动态地调整特征融合的权重,从而进一步提高性能,特别是在超分辨率图像生成的上下文中。此外,一个由粗到细的训练策略被应用于有效地加快训练收敛,同时降低了处理超分辨率图像所需的计算复杂度。在新建立的CUHKCR和现有数据集(如RICE)上进行的大量实验证实,所提出的DE框架在感知质量和信号保真度方面优于现有的基于DL的方法。
1 介绍
遥感(RS)图像在各种应用中起着至关重要的作用,包括变化检测[1],语义分割[2]和目标检测[3]。然而,卫星传感器的成像能力以其超远距离性质为特点,使其很容易退化,导致所捕获图像的质量失真。造成这种退化的一个重要因素是云层的存在。云大大降低了图像的可见度和饱和度,破坏了遥感图像的有效性,特别是在光学领域。这种云引起的退化妨碍了图像的清晰度和细节,影响了它们的实际效用。因此,迫切需要开发恢复方法,以增强被云层遮挡的地表信息,从而提高遥感图像的有效性。
传统的去云方法可以分为两大类,即多光谱技术和多时相技术。更具体地说,多光谱方法[4—7]主要依赖于波长相关的吸收和反射的变化,以恢复由雾霾和薄卷云造成的模糊景观。然而,在涉及完全阻挡光学信号的厚而薄的云的情况下,由于缺乏补充信息,多光谱方法的功效可能会受到影响。相比之下,多时间方法[8,9]从在不同时刻捕获的参考图像中整合晴空条件。虽然从多时相方法得到的结果一般更可靠,因为它们来自实际的无云观测,景观的快速变化显着影响重建图像的准确性。
近年来,基于深度学习(DL)的方法因其生成高质量、无云计算结果的非凡能力而广受欢迎。DL领域内的这些方法可以进一步分类为基于CNN的模型[10],基于生成对抗网络(GAN)的模型[11,12]和基于扩散的模型[13]。更具体地说,基于CNN的模型通过将多云图像输入到网络中并基于从输出和相应的无云图像计算的损失函数更新参数来进行操作。沿着相同的方向,Meraner等人。[14]介绍了一种深度残差神经网络,旨在重建底层地表结构的光学表示。值得注意的是,合成孔径雷达图像被纳入CR过程,以提供有关云层下表面特征的更多信息。此外,Ma等人[15]利用两步卷积网络从云中提取透明度信息并确定其位置。然而,基于CNN的模型的特征表示能力受到约束,限制了它们生成具有上级感知质量的无云图像的能力。
为了解决这一限制,基于GAN的模型采用了独特的训练策略,其中包含两个关键组件,即生成器和训练器。生成器创建无云图像,而生成器评估生成的图像是否符合所需的质量标准,通过额外的GAN损失函数提供用于更新生成器参数的梯度。例如,CloudGAN[12]通过学习多云图像与循环结构中相应的无云图像之间的特征表示的双向映射来保留颜色组成和纹理。然而,基于GAN的模型面临着持续的挑战,包括模型崩溃、不稳定的训练动态和消失的梯度,这对它们在各种应用中的整体性能产生了不利影响。
最近,生成模型的一个新的分支,称为扩散模型[16],已被引入计算机视觉任务。这些模型在各种低级别任务中生成详细纹理方面表现出色,包括超分辨率[17-19],去模糊[20,21]和修复[22]。将扩散模型的逐步学习和细化功能最优地集成到生成过程中,有望为CR中更先进、更有效的方法铺平道路。然而,值得注意的是,从CR的纯扩散模型获得的结果通常是不准确的,具有不期望的假纹理。因此,目前扩散模型在CR中的应用主要集中在特征提取[13]上,限制了它们在这种情况下渐进学习和细化的固有能力。
在这项研究中,基于扩散架构,我们提出了一种新的网络命名为扩散增强(DE)CR,旨在利用扩散模型的固有优势,以提高图像的质量。与现有的基于扩散的方法形成鲜明对比的是,该方法仅依赖于渐进细化来重建细粒度的纹理细节,这项工作提出了将参考视觉先验集成在一起。通过这种方式,全局视觉信息可以有效地集成到渐进扩散过程中,以减轻训练难度,从而提高推理精度。此外,权重分配(WA)网络被引入到优化的动态融合的参考视觉先验和中间去噪图像从扩散模型。为了加快扩散模型的收敛速度,我们进一步提出了一种由粗到精的训练策略。更具体地说,网络首先在较小的补丁上训练,然后使用较大的补丁进行微调。最后,利用最近的高质量和高分辨率的卫星观测[23-25],建立了一个包含清晰的景观位置和内在特征的空间纹理信息的超分辨率基准,用于CR算法设计和性能评估。
本文的主要工作如下:
1)提出了一种新的用于云覆盖下地表恢复的扩散增强网络。建议DE网络,它合并了全球视觉信息与渐进扩散恢复,提供了增强的能力,捕捉数据分布。因此,它在推理过程中利用参考视觉先验知识预测细节信息方面表现出色;
2)权重分配模块被设计为计算用于融合从扩散模型导出的参考视觉先验和中间去噪图像的自适应加权系数。因此,参考视觉先验细化主要有助于在初始步骤中粗粒度的内容重建,而扩散模型则专注于在后续阶段中包含丰富的细节。此外,采用由粗到精的训练策略,在提高DE收敛速度的同时,稳定了训练过程;
3)最后,建立了CUHK-CR超分辨率基准,对不同类型云覆盖情况下的CR方法进行了评估。我们的基准由668张薄云图像和559张厚云图像组成,具有多光谱信息。据我们所知,我们的基准代表了所有现有CR数据集中空间分辨率最高的CR数据集,即0.5m。数据和代码可以从GitHub1下载。
本文的其余部分结构如下:第二节首先概述了现有的CR数据集和方法,然后第三节详细介绍了我们的数据集CUHK-CR。之后,第四节介绍了拟议的DE网络,而实验结果和见解在第五节进行了审议,最后,在第六节提供的结论。
2 相关工作
A CR的传统端到端方法
端到端去云模型专门设计用于将多云图像作为输入,并在推理过程中直接生成无云图像。这些模型擅长快速产生推理结果,主要集中在辨别多云图像与其相应的无云图像之间的差异。CVAE[10]使用概率图形模型深入研究图像退化过程,而SpAGAN[30]通过采用局部到全局的空间注意力方法来检测和突出显示云区域来模拟人类视觉机制。此外,AMGAN—CR[31]使用由注意力地图引导的注意力残差网络来消除云。尽管这些端到端模型有其优点,但它们的视觉结果总是用相邻的颜色替换云,缺乏预测被云遮挡的底层纹理的能力。这种限制对这些CR方法的有效性产生了不利影响,特别是在密集云覆盖的情况下。
B 扩散结构和事先指导
最近,扩散模型[16,32,33]引起了人们的极大关注。该模型从潜在变量xT逐渐生成最终结果,表示为x0,其中T表示参数化马尔可夫链中的扩散步骤的总数。扩散模型包括两个关键部分,即正向过程和反向过程。更具体地,前向过程通过逐步进展将数据分布转换为潜在变量分布,利用马尔可夫链的参数从初始数据空间过渡到潜在空间。相反,反向过程旨在将潜在变量分布恢复为原始数据分布,恢复初始数据并提供对底层数据分布的全面理解。
与之前讨论的端到端方法相比,扩散模型[34,35]提供了更高级别的详细信息,有利于恢复云层覆盖下的景观。然而,传统的扩散模型往往会产生不可靠的假纹理。在缺乏有效解决方案的情况下,当前基于扩散模型的方法(如DDPM-CR [13])主要采用扩散模型作为特征提取器,这忽略了利用扩散模型在逐步学习和改进中的固有优势的潜力。或者,一些开创性的尝试[36,37]已经将先验指导纳入推理过程。为了充分利用扩散模型的增量学习和迭代细化的潜力,建议DE网络制作,以改善生成过程中,利用参考视觉先验。
C CR数据集
表I列出了光学CR的几个最具代表性的现有图像数据集。如表I所示,所有数据集都有一个共同的缺点,即空间分辨率低,约为10至30米。这种限制大大损害了它们可以提供的空间细节水平。此外,尽管卫星图像分析需要多光谱信息,但T-Cloud[10]和RICE[26]等数据集仅包含RGB波段。此外,最小化“所获取的时间间隙”是有利的,因为在拍摄多云图像及其对应的清晰图像的时间实例之间可能发生显著的景观变化。然而,像WHU Cloud Dataset [29]这样的流行数据集具有较大的“获取时间间隔”,这可能是实践中值得关注的问题。最后,表一所列的所有数据集都是由开放源卫星生成的,如Landsat 8和Sentinel-2。因此,需要更多的具有不同传感器特性的卫星数据集来进行CR算法的设计和性能评估。
表I现有CR数据集与CUHK-CR之间的比较。
3 建议的CUHK-CR数据集
A CUHK-CR
随着遥感影像分辨率的不断提高,我们建立了一个新的超分辨率基准,称为CUHK-CR。这一基准的特点是具有0.5米的超高空间分辨率和4个多光谱波段,数据采集时间仅限于17天。这种超高空间分辨率基准可以促进专门为超分辨率图像设计的各种CR方法的训练和评估。因此,该基准可以减轻训练期间的低分辨率图像与在真实的世界中获取的高分辨率图像之间的差距,这对于第五节中的良好CR性能特别关键。此外,该基准包括两个子集,薄云子集,即CUHK-CR 1和厚云子集,即CUHK-CR 2,有助于对不同云覆盖范围的训练和评估。更具体地,薄云子集包括668个图像,而厚云子集包括559个图像。为了方便起见,这些图像被裁剪成更小的片段,直接与深度学习模型兼容。除非另有说明,否则在后续中采用8:2的训练与测试集比率,分别产生534和448个用于训练的图像,以及134和111个用于测试的图像。最后,值得指出的是,我们的数据集是基于一个新的商业卫星,吉林一号,而不是那些经常使用的卫星,如Landsat-8和哨兵。吉林一号卫星传感器提供的独特图像背景有助于我们的数据集的独特性。
B 数据收集
吉林一号卫星星座是长光卫星技术有限公司的核心项目,Ltd.(CGSTL).该星座由138颗高性能光学遥感卫星组成,覆盖高分辨率、大宽度、视频和多光谱。我们的数据集是由一颗名为吉林-1KF01B的卫星收集的,该卫星配备了0.5 m分辨率的推扫式相机。吉林-1KF01B于2021年发射,采用先进技术,每天获取超过200万平方公里的高清图像,宽度超过150公里。如表II所示,推扫式相机覆盖四个光谱带,即蓝色、绿色、红色和近红外,以及一个高分辨率全色波段。利用多光谱图像和全色图像的互补信息进行锐化处理,提高了2 m ~ 0.5 m波段的空间分辨率。表III是指多云图像及其相应的无云图像的位置、大小、覆盖范围和采集时间。卫星图像的位置从北到南选择,而获取时间的差距限制在17天。
表2吉林-1 KF 01 B宽带

表3CUHK-CR研究区概要。

C 数据分析
数据分析为了分析CUHKCR数据集中的云覆盖统计数据,我们在两个不同的集合上计算了广泛使用的云覆盖概率(CCP)[28]。我们在图1和图2中可视化了不同CCP值的图像计数分布。对于每个光学图像,Cloud-Net检测器[38,39]被应用于产生具有0或1的像素值的二进制掩模,其中0和1分别表示多云和无云的地方。值得注意的是,探测器无法区分薄云层和厚云层。它只是在像素级检测云层的存在。薄云通常覆盖更广泛的区域,而厚云占据图像的较小部分,包括用于预测背景地面的更丰富的参考信息。我们通过目视观测,去除了那些景观完全被浓密云层遮挡的图像。结果表明,薄云的平均CCP高于厚云的CCP。值得注意的是,CCP在0到0.1之间的图像在CUHK-CR2中占最大比例。

图一.通过Cloud-Net检测器计算的CUHK-CR 1训练和测试数据集的不同CCP上的图像分布[38]。云覆盖的平均概率为50.7%。

图二.通过Cloud-Net检测器计算的CUHK-CR2训练和测试数据集的不同CCP上的图像分布[38]。云覆盖的平均概率为42.5%。
4 云移除的增强功能
A 架构
类似于去噪扩散概率模型[16],提出的扩散增强(DE)网络在以下两个过程中进行。前向进程。它将初始数据分布q(x0)转换为潜在变量分布q(xT),其中T表示时间步的总数。这种转换遵循固定的马尔可夫链,可以建模为:

其中N,{β1,...,βT} ∈(1,0),I分别表示高斯分布、超参数集和全一矩阵。通过使用Eq.(1),我们有

因此,前向过程可以表示为:

其中αt = 1 − βt且
。因此,我们可以将xt表示为:

其中,
服从N(0,I)是标准高斯噪声。反向过程。它通过θ参数化的网络将潜在变量分布pθ(xT)转换回数据分布pθ(x0)。反向过程被定义为具有从高斯分布开始的学习高斯转换的马尔可夫链:

其中,

其中μθ(xt,t)和σθ(xt,t)是第t步高斯分布的均值和方差。
在训练过程中,我们建议最小化添加到干净图像的随机噪声ϵ和从xt,t和多云图像y导出的预测噪声ϵθ(xt, t, y)之间的均方误差(MSE)损失。由于DE网络是基于云图像来预测噪声信息的,因此被称为条件噪声预测器(CNP)。总之,所采用的损失函数采用以下形式:

B 参考目视检查前积分
受[36,37]的启发,所提出的DE网络结合了一个参考视觉先验,用于指导推理过程以获得如图3所示的精确结果。

图三.我们用于CR的DE的架构。(a)中的扩散分支执行渐进地去除噪声的扩散步骤,其能够恢复细粒度纹理。(b)中的加权分支执行来自参考分支和扩散分支两者的结果与结果x0,t的动态融合,从而捕获优良全局估计和精细细节两者的优点。(c)中的参考分支基于多云图像y生成无云图像,从而提供基本的全局上下文。最终,x0,t和xt被用于生成xt—1。
对于逆过程的第t步,基于xt计算xt-1。我们首先基于状态xt和时间步长t预测噪声Δ t。

之后,我们基于预测的噪声Xt和噪声图像Xt在当前步骤t中获得x0,Xt,t:

通过上述过程,单个去噪步骤的公式如下:


在图4中,我们示出了从时间步长T到1的x0,t的示例,以显示整合参考视觉先验的效果。如图4所示,当x0,t = x0,x2,t时,扩散模型在初始阶段努力去除所有噪声和云。x0,x2,t的质量从时间步长T逐渐提高到1。这种长时间的迭代过程会影响模型的性能,显著增加时间复杂度,并降低训练和评估的效率。然而,仅由扩散模型生成的纹理通常无法与实际场景精确对齐,因为扩散模型主要关注于学习整个图像集的分布,而不是像素级的精细信息。
相反,以端到端方式实现的参考模型在其训练过程中主要依赖于清晰度驱动的损失函数,以最小化多云和无云图像之间的像素差异。因此,他们可以重建无云图像的底层结构,从而减少对预测精细纹理的关注,降低复杂性。参考模型的这一特性使其适用于低分辨率数据集。然而,对于具有更丰富纹理的更高分辨率场景,参考模型无法捕获那些细粒度的细节。因此,准确地恢复隐藏在云层下的复杂景观是具有挑战性的。
考虑到这些优点和缺点,我们可以利用参考模型生成的近似无云图像的指导,表示为x0,E,以指导去噪过程。由参考模型预测的x0,E建立基本图像结构,而由扩散模型生成的x0,E,t引入逼真的细节和纹理。此外,值得注意的是,参考模型结果可能会引入不准确性,我们的模型将参考视觉先验与渐进扩散过程相结合,有助于避免误差的积累。如图4的第二行所示,通过这种集成,我们的扩散增强过程可以绕过x0的去噪,并有效地解决先前参考视觉先验的限制。

见图4。x0,t的风格从去噪时间步长T到0。第一条线和第二条线分别表示vanilla扩散模型和我们的DE的结果。无云和多云图像显示在左侧。
对于传统的扩散架构,x0,t等于x0,x2,t。然而,在我们的方法中,我们利用一个参考视觉先验积分的x0,t的操作,以完善CNP的结果。具体来说,我们开始利用表示为E的参考模型来产生表示为x0,E的无云输出:

由参考模型生成的输出x0,E用作图像的主要结构基础,而由扩散模型预测的x0,E,t引入真实的细节和纹理。该细化过程的综合公式如下:

在实践中,我们利用两个预测的像素级线性组合:

其中,
表示逐元素乘法,W ∈ RC×H×W是逐像素加权映射,将在下一部分中进一步描述。最后,我们应用等式中计算的x 0,t。(13)等式(10)得到xt-1用于去噪步骤。
C 扩散步骤之间的动态融合
我们采用权重分配(WA)网络,该网络经过训练以在渐进扩散过程的步骤期间动态地融合两个分支的结果。如图5所示,WA采用具有xt,y和x0,E的级联的输入,而变量t在所有层上引导网络。WA的UNet架构受到CNP的启发[40]。因此,训练目标允许WA基于图像特征和噪声强度动态地确定加权矩阵W。

图五.权重分配(WA)的体系结构。WA学习基于图像特征和噪声强度动态地确定加权矩阵。
由扩散模型产生的图像最初包含大量的噪声,随着时间步长接近零而逐渐改善。从参考视觉先验调整结果的融合比率是必要的。具体而言,融合率应始终有效,并随着t的增加而逐渐降低。此外,由于图像噪声随机分布在整个图像上,并且来自参考模型的误差是不确定的,因此融合因子也是关键的。
为了应对这些挑战,我们根据时间步长t和参考模型的图像恢复结果训练WA网络。它可以为每个时间步t生成特定的权重W,为细化过程提供详细的像素级权重信息。此外,由于x 0,t变得压倒性地依赖于x 0,n,t与W的低值,我们引入限制因子η以在推断过程中限制W从η到1的范围。关于超参数η的更多信息在第V-D节中提供。总之,WA网络可以加速去噪过程,并鼓励扩散模型专注于生成更详细的纹理信息。
D 由粗到精的训练和推理
为了在训练阶段加快我们的扩散增强(DE)的收敛速度,我们实现了一个从粗到精的训练策略。最初,图像被调整到其原始尺寸的1/4,并通过唯一扩散模型进行处理。在整个过程中,所采用的损失函数在等式(7)中给出。微调过程发生在扩散模型在这个较小的尺度上达到近收敛之后。一旦网络在较小的图像上收敛,我们就引入并训练WA网络,利用来自收敛良好的扩散网络的知识。该算法在降尺度图像训练的锁定扩散模型的基础上实现了初始收敛,为后续扩散模型和算法的联合训练奠定了基础。在这种情况下,DE的相应损失函数定义为:

其中,x0表示真实的无云图像,(·)sg表示停止梯度。当禁用x0,x2,t's时,仅计算W的梯度。最终,CNP和WA使用全尺寸图像进行联合训练。该联合训练的损失函数定义为:

其中λ是平衡损失函数两部分之间的值差距的权重比例系数。λ的详细设置见第V -B节。值得注意的是,在损失函数的第二段中,梯度x 0,x2,t保持停用,以防止对CNP的任何不利影响。CNP始终保持其用于较大图像的原始训练策略,而WA基于CNP的训练结果调整其方法。在整个推断过程中,在每一步,扩散模型预测噪声λ t,并使用等式(1)计算x 0,λ t。(九)、随后,参考模型生成其无云输出x 0,E,然后WA利用该无云输出来确定加权图W。x 0,t是基于WA产生的权重W通过x 0,E和x 0,E,t的预测的逐像素线性组合来计算的。最终,生成xt−1,当t = 1时,去噪周期结束。
5 实验
A 数据集和数据库
为了评估我们提出的方法的效率,我们利用两个数据集:RICE [26]和新引入的CUHK-CR进行验证。RICE数据集包括500幅薄云图像和736幅厚云图像,RGB通道,大小为512 × 512像素。训练集和测试集以8:2的比例随机划分。有关我们的CUHK-CR数据集的更多详情,请参阅第IV节。我们采用三种广泛认可的指标对CR性能进行定量评估:峰值信噪比(PSNR)、结构相似性(SSIM)和学习感知图像块相似性(LPIPS)[41]。PSNR通过将生成的图像与像素级的地面实况进行比较来评估生成的图像。SSIM主要评估结构差异,而LPIPS更接近人类感知。
B 实现细节
我们的DE基于引导扩散[40]。CNP和WA的UNet超参数列于表VI中。在DE中,CNP和WA分别接受L2和L1损失的训练,一致的学习率为10−5。我们将权重比例系数λ保持为1。为了提高推理效率,我们用50步实现DDIM [42],限制因子η设置为0.3,这意味着W的值被限制在0.3到1的范围内。所有用于训练和测试的图像都被标准化为256 × 256像素的尺寸。最初,CNP是通过测量64 × 64像素的较小图像进行训练的,使用的批量大小为64。当训练数据集转换为标准大小的256 × 256像素图像时,批量大小调整为16。对于我们的CUHK-CR数据集,我们使用4波段多光谱图像进行模型训练和测试。所有实验都使用PyTorch在配备24 GB RAM的单个NVIDIA GeForce RTX 4090 GPU上执行。
表VI CNP和WA的校准模型设置。

C 性能比较
我们在DE和几个最先进的CR网络之间进行了全面的比较,包括MemoryNet [43],CVAE [10],SpA-GAN [30],AMGAN-CR [31]和MSDA-CR [44]。为了确保公平的评估,所有这些方法都使用我们的训练和测试数据集进行了彻底优化,以实现其峰值性能。RICE和CUHK-CR数据集上这些实验的定量结果分别列于表IV和表V中。由于薄云的视觉差异不容易辨别,我们选择在图6和图7中仅显示厚云数据集的视觉比较。

见图6。视觉上的对比。(a) Label. (b) Cloudy image. (c) SpAGAN. (d) AMGAN-CR. (e) CVAE. (f) MemoryNet. (g) DE-MemoryNet. (h) MSDA-CR. (i) DE-MSDA.

图7.CUHK-CR上的视觉比较。第一行和第二行分别表示RGB图像和近红外图像。(a) Label. (b) Cloudy image. (c) SpAGAN. (d) AMGAN-CR. (e) CVAE. (f) MemoryNet. (g) DE-MemoryNet. (h) MSDA-CR. (i) DE-MSDA.
1)RICE:如表IV所示,与相应的参考模型相比,我们的方法显示出实质性的改进。值得注意的是,我们将DE集中在MDSA-CR和MemoryNet上,因为它们在这些端到端模型中具有上级性能。对于在两个RICE数据集上都取得最佳结果的MSDA,我们的DE-MSDA在RICE 1和RICE 2的PSNR和LPIPS上分别表现出0.8 dB和0.001,0.4 dB和0.01的改进。LPIPS中的这些增益表明我们的结果更好地与人类感知保持一致。我们的扩散为基础的方法显着提高了精细纹理的生成,密切匹配地面真相,在相应的参考模型提供的框架内。LPIPS的增强在RICE 2的背景下尤其明显,其中密集的云层覆盖对无云图像重建提出了严峻的挑战。这种情况下,需要提高能力,以产生复杂的和视觉上真实的纹理细节,考虑到广阔的和相当数量的模糊纹理隐藏的云。因此,模型的预测和生成纹理的能力在这样的条件下突出。虽然端到端模型,如MemoryNet和MSDA-CR也取得了可喜的成果,我们的DE可以在他们的基础上进行进一步的改进。
表IV Rice1和Rice2数据集的定量实验结果。↑和↓分别表示高一点更好,低一点更好。

表V CUHK-CR 1和CUHK-CR2数据集的定量实验结果。↑和↓分别表示较高较好和较低较好。

视觉结果如图6所示。SpAGAN和AMGAN-CR在图像风格和色彩方面表现出明显的缺点。虽然MSDA-CR和MemoryNet产生了上级结果,但仍然存在一些错误,例如残余噪声和云覆盖,如红色框所示。我们的DE能够纠正错误并做出详细的预测。例如,我们的模型有效地去除了这些伪影,在岛屿的中心部分,蓝色占主导地位,我们的模型准确地将其替换为绿色,使空腔不那么显眼。
2)CUHK-CR:与RICE相比,我们的CUHK-CR数据集的恢复结果通常不太令人满意。端到端模型在RICE数据集中实现的最高PSNR超过30 dB,但在CUHK-CR 1和CUHK-CR2数据集中分别降至26 dB和24 dB。结果表明,我们的超分辨率数据集提出了更大的挑战。尽管难度增加,我们的DE适用于MSDA仍然产生上级的结果,实现了近0.3 dB的PSNR改善在CUHK-CR 1和CUHK-CR 2。在CUHK-CR数据集上,SpAGAN和AMGAN-CR等某些模型的局限性在面对这种超分辨率图像时变得更加明显,这突出了它们不适合RS领域的高分辨率CR任务。它们在去除云方面表现出有限的效果,与多云图像相比改善小于1dB。
CUHK-CR的目视结果见图7。SpAGAN和AMGAN-CR难以完成如此高分辨率的CR任务,特别是在厚云的情况下。在CVAE的情况下,尽管有一个合理的轮廓,它与严重的颜色偏差斗争。我们的DE主要引入细微的变化,并在与相应的参考模型相比时纠正颜色错误。例如,在DE-MSDA的输出中屋顶的颜色比MSDA-CR更接近地面实况。此外,我们增强后的结果看起来更清晰,更准确,与MemoryNet相当模糊的输出形成鲜明对比,特别是在被云层遮挡的区域。
D WA分析

见图8。一个例子给出了W.当值接近1时,它对x0,E的依赖性变得更加明显。相反,当它接近0时,它表现出对x0,x2,t的更强依赖性。(a)Label.(b)x0,t,t.(c)x0,E.(d)Heatmap of W.
1)空间适应:在图8中,我们展示了一个描述WA行为的注意力热图示例。值得注意的是,参考模型福尔斯没有完全消除云层覆盖,如红框中突出显示的区域所示。如图8(d)所示,我们的WA通过减少分配给该特定区域的权重来努力解决这种差异。移动到x0,x2,t的域,我们观察到一些区域仍然保留未被消除的残留噪声。作为响应,W的值在这些具有挑战性的区域中明显更高,表示对应于噪声分布的轻微调整。这个注意力热图作为一个引人注目的视觉表示的WA的能力,动态微调的参考视觉先验集成的强度。结果表明,该微调过程基于对x0,E和x0,E,t两者的质量的评估,从而确保CR过程针对各种图像区域进行优化。

图9.WA在RICE 2上每个时间步中使用参考模型MSDA-CR生成的平均值。
2)不同扩散步骤之间的动态融合:在图9中直观地表示了每个时间步长上W的平均值的变化。最初,W的平均值相对较高,并随着时间步长的减小而逐渐减小,在后期接近0。这种趋势表明,在开始时,x0,t主要依赖于x0,E提供的指导,而随着时间步长接近0,x0,E,t的影响变得更加突出。W的平均值的波动揭示了一个基本假设,即先验积分在前几个去噪步骤中为x0,t的整体结构奠定了基础,勾勒出图像的可能形状。随后,扩散架构进行干预,通过引入额外的纹理信息并根据指导纠正错误来进行微调。W的平均值的这种动态变化强调了先验积分和扩散架构之间的协作关系,从而导致重建性能的飞跃。

图10.限制因子η调整的示意图。红框表示W的限值范围。
3)参数分析:我们的研究深入研究了限制因子η对W的影响。图10详细地说明了η调整的示意图。这意味着W被限制在η到1的范围内。在训练过程中,我们将η设置为0,从而有效地允许W从0到1的范围内没有任何约束。WA网络灵活地学习x0,E,t和x0,E之间的平衡。然而,在推断过程中,W,x0,t的值较低时,变得压倒性地依赖于x0,x0,t。在这种情况下,x0,t可能包含大量不准确的信息。为了解决这个问题,我们将限制因子η设置为大于0的值,以限制W的值范围。理论上,η用于控制基于参考视觉先验细化的x0,x2,t可以施加的最大影响。我们对各种η值的评估,包括{0.1,0.3,0.5,0.7,0.9},揭示了有趣的见解。我们注意到,当η设置为0.1时,我们的DE实现了最高的PSNR,而当η设置为0.3时,SSIM最大化,如图11所示。总之,当η设置为0.3时,我们的DE似乎产生最有利的结果,实现了结构细节和全局轮廓保留之间的性能平衡。η的这种优化设置确保x0,E和x0,E,t都有效地有助于无云图像生成过程。

见图11。在RICE上不同限制因子η对W.实验比较
E 高分辨率和低分辨率数据集之间的差距
我们进行额外的实验来证明数据分辨率的差异对模型性能的显著影响。从本质上讲,用低分辨率图像训练的模型在高分辨率数据集上测试时,结果不太理想。这强调了超分辨率CR数据集的必要性。
我们的方法首先用相同大小的各种分辨率的图像训练模型,然后评估其在高分辨率集上的性能。具体来说,我们将512 × 512的图像从0.5米调整为不同的空间分辨率,例如{1米,2米},并将它们全部裁剪为128 × 128来训练模型。在训练阶段之后,我们使用原始图像和调整大小后的图像中相应的裁剪尺寸128 × 128,空间分辨率为0.5 m和1 m,以评估分辨率对最终CR结果的影响。如表VII所示,随着训练图像分辨率的降低,所有度量都显示出退化。当在0.5m测试集上比较1 m和2 m的训练空间分辨率之间的性能时,我们观察到PSNR降低了1.2dB,SSIM降低了0.06,LPIPS降低了0.008。这些实验结果强调了我们努力构建超分辨率CUHK-CR数据集的重要性。
表VII:用不同分辨率Ifos训练的MEMORYNET的结果。培训和测试代表了ITERA用于培训和测试的空间分辨率。

F 消融研究
表VIII显示了消融研究的结果,该研究探讨了由粗到精的训练策略、WA和参考视觉先验整合的影响。结果按训练步骤的顺序呈现。No.1表示仅使用小图像训练扩散模型的结果,而No.2表示基于来自No.1的预训练模型的结果,该预训练模型进一步使用WA上的常规大小的图像进行训练。第3个是最终结果,其中WA和扩散模型与正常大小的图像联合微调。与No.1和No.2相比,包含WA和参考视觉先验细化导致PSNR、SSIM和LPIPS分别显著改善近2.1 dB、0.034和0.005。对正常大小图像的微调过程对PSNR和LPIPS的影响较小,但对SSIM的贡献更大,提高了0.005。这些实验结果强调了从粗到精的训练策略、WA和参考视觉先验整合在训练顺序中的有利作用。在前一段中,我们说明了通过三阶段实验过程所取得的改进。在这里,我们通过在表IX中展示没有粗到精训练策略和WA的结果来进行横向比较。第一行显示了仅使用正常大小的图像训练的模型的结果,不包括粗到细的训练策略,而第二行显示了使用固定参数0.5的简单线性组合替换WA的结果。换句话说,x0,t和x0,E在任何时间步都对x0,t贡献一半。如表IX所示,包含WA导致PSNR提高近0.4 dB,而粗到细训练策略导致PSNR增益为0.3 dB,SSIM增益为0.002,LPIPS增益为0.001。这种横向比较客观地突出了WA和由粗到精训练策略的优势。
表VIII用MSDA-CR对Rice 2的垂直消融研究

表IX MSDA-CR在RICE2水平消融研究

G 计算复杂度分析
我们从模型复杂度、内存使用、参数计数和处理速度等方面对模型之间的计算复杂度进行了全面的比较。具体细节见表X。结果表明,我们的模型实现了上级的结果,而没有显着增加计算复杂性。
表X比较方法的操作复杂性。

6 结论
在这篇文章中,扩散增强(DE)方法被引入重建无云图像。DE在参考视觉先验集成的基础上结合了扩散架构,旨在捕捉渐进扩散过程和卷积神经网络的优点,以实现出色的全局上下文建模和细粒度的详细重建。为了自适应地融合来自两个分支的信息,训练权重分配(WA)网络以基于它们在整个去噪步骤中的输出来进行平衡。此外,一个粗到细的训练策略,以加快收敛,同时获得上级的结果在有限数量的迭代。最后,我们介绍了一个超分辨率基准,它提供了一个新的基础,定义良好的空间景观纹理训练和评估CR模型的性能。我们在RICE和CUHK-CR数据集上的DE上的实验结果证明了其上级性能。对于未来的工作,各种条件,如多云图像的特征图和语义信息,可以代替多云图像,以提供更好的指导,构建更有效的扩散模型。

