DRF: Disentangled Representation for Visible and Infrared Image Fusion
1.摘要
本文阐述了一种新型的图像分解技术。利用可见光与红外图像融合技术(DRF),采用了解离化表示模型。基于成像原理,在处理可见光与红外图象信息时进行分解分析。具体而言,在编码器的作用下,我们将输入的图象按照场景属性及传感器特性进行表征分解。这样一来,在属性相关表示法下提取的信息更能反映不同传感器独自捕捉到的数据特征。因此,在单一传感器特性导向特征提取的问题上得以解决。随后,在不同类别表征之间引入了多样化的融合策略以提升性能。最后经过预训练生成网络处理后输出了最终融合结果
注:解离化旨在对数据变化因素进行建模... 是指将embedding分解为多个维度... 即通过将embedding分解为多个维度... 从而每个维度能够对应不同的语义信息... 这样做的同时一者能够提升模型的可解释性;另一方面则通过引入约束条件使模型更加稳定。
2.引言
从源图像中提取特征的方法:
- 多尺度变换方法:金字塔法(将源图像分解为不同尺度的空间频带),小波法(将源图像分解为一系列高频与低频子图像);
- 稀疏表征方法:不同源图像类型基于相同的过完备字典集合及其各自对应的稀疏表征系数来进行表征;
- 低秩表征:从源图像中提取出低秩结构与显著成分;为了有效提取显著分量,在此基础上共同学习并共享一个投影矩阵显著系数矩阵 ,用于处理不同来源的图像。
上述方法存在缺陷:当源图像被分解为若干部分时,在处理这些分化的VIS与IR图象组件时,现有的一些方法仍然采用了统一的表现形式,并未考虑到各具特色的特征或属性。例如像小波变换这样的技术,在处理相同频率的分量时会采取同样的处理方式。(将 VIS 与 IR 图像采用同样的表现方式是不合理的做法 ,因为这样会导致信息重复或失真。)
上述方法存在缺陷:当源图像被分解为若干部分时,在处理这些分化的VIS与IR图象组件时,现有的一些方法仍然采用了统一的表现形式,并未考虑到各具特色的特征或属性。例如像小波变换这样的技术,在处理相同频率的分量时会采取同样的处理方式。(将 VIS 与 IR 图像采用同样的表现方式是不合理的做法 ,因为这样会导致信息重复或失真。)
传统的融合方法普遍采用了统一的特征表达策略来处理VIS和IR图像数据。值得注意的是,在红外图像中高频率分量能够有效区分不同物体与目标的边界特征,在可见光图像中则主要承载丰富的纹理细节信息。为了在融合后的图像中同时保留这两类关键信息而不导致信息丢失或冗余过多的问题,在高频分量这一层次上实施融合操作是必要的选择。然而这一过程可能会忽视其他重要的低频细节信息;因此若仅考虑单一频带内的信息提取与融合,则可能导致较为片面的信息保留结果。
为了解决这一问题,还有其他方法可以选择手动描述或分解每个源图像的独特/唯一信息。例如利用**像素强度分布(pixel intensity distribution)来描述红外图像中的热辐射信息;同时利用梯度(gradients)**来表征视觉图象中的反射光照信息。然而这些方法并不能充分表征每个源图象的独特信息。(例如,在红外图象中梯度不仅包含了热辐射的信息)
本研究提出了一种新型分解技术(DRF),其核心目标是从源图像所描绘的成像机制出发,通过分析源图像中的共性信息,提取具有独特特征的信息。在IR与VIS图像成像机制的比较中可以看出:相同之处在于它们均在同一场景下进行拍摄,并能获取大量表征信息;不同之处在于它们采用了不同的传感器技术来获取原始数据。在呈现同一场景时,IR与VIS图像采用的是多样化的表征形式:空间梯度、对比度以及光照条件等方面存在显著差异。值得注意的是,在对这两种图像是进行分析时,并未关注于其表现形式(如频率域特性或稀疏系数等),而是聚焦于其本质属性——即这些图像分别来源于不同的物理感知过程。具体而言,在实际处理过程中我们将输入图像划分为两组:一组反映场景固有特征的信息;另一组则关联于特定传感器捕捉的数据。
在DRF中采用disentangled表示法对源图像中的场景和属性进行分解。其中一个是用于提取场景公共信息的scene encoder,另一个是用于提取传感器属性信息的attribute encoder。这两个scene encoder构成了具有相同网络结构但不共享权重的伪暹罗网络(pseudo-Siamese).其中前一个负责获取场景公共特征的信息,而后一个则负责从每个传感器处获取唯一的属性特征。
本文的贡献点是:
- 我们开发了一种新型图像融合技术,并提出了新的理论框架来解释源图像是由场景与传感器模态共同作用所形成的关键组成。
- 基于这一理论框架下, 我们针对源图象信息来源展开研究, 从而建立了一个全新的数据表示模型。
- 利用编码器模块将多模态数据分别映射到场景特征与属性特征空间中, 然后采用多样化的策略进行特征组合。
- 最终通过预训练生成模型整合处理后, 得到最终整合结果。
- 由此可知, 我们的方法在提升算法性能的同时, 也显著提升了各子网络体系的可解释性。
3.方法
3.1 Disentangle Scene and Attribute Representations
给定一个VIS图像x属于域\chi和一个IR图像y属于域\large y,我们的主要任务就是将原始图像划分为一个保持一致共享域的场景空间以及一个特定属性空间。值得注意的是,在各个领域中该属性域是不同的特性因此我们将\chi对应的属性域表示为A_{\chi}而将\large y对应的则表示为A_{\large y}。值得注意的是IR与VIS图像在对场景信息的表现上有所区别因此从源图像x与y中提取\chi->S与\large y->S映射关系的方式也有所不同即无法采用相同的函数/参数来进行这一过程
我们开发了两个场景编码器\{E^s_{\chi}:\chi \rightarrow S, E^s_y:y \rightarrow S\}如图2所示。这两个编码器采用了相同的网络结构但不共享参数。同时考虑到两者的显著差异,在此基础上又构建了两个属性编码器\{E^a_{\chi}, E^a_y\}用于学习\chi \rightarrow A_{\chi}和y \rightarrow A_y


由于场景信息与空间及位置存在密切关联。同时,在这种情况下,
我们选择使用向量形式来表示场景特征,
但不希望这些特征包含任何关于场景的信息。
因此,在这种情况下,
向量形式相较于特征图更加适合用于描述属性信息。
对于源图像x来说,
我们可以将其分解为两个部分:
s_ x 代表场景特征,
a_ x 代表对应的属性向量,
它们共同构成了对源图像的编码:
\{s_ x ,a_ x \} = \{E^{s}_{\chi }(x),E^{a}_{\chi }(x)\},
其中s_ x 属于集合S,
而a_ x 属于集合A_{χ }$
由于场景信息与空间及位置存在密切关联。同时,在这种情况下,
我们选择使用向量形式来表示场景特征,
但不希望这些特征包含任何关于场景的信息。
因此,在这种情况下,
向量形式相较于特征图更加适合用于描述属性信息。
对于源图像x来说,
我们可以将其分解为两个部分:
s_ x 代表场景特征,
a_ x 代表对应的属性向量,
它们共同构成了对源图像的编码:
\{s_ x ,a_ x \} = \{E^{s}_{\chi }(x),E^{a}_{\chi }(x)\},
其中s_ x 属于集合S,
而a_ x 属于集合A_{χ }$
类似地,在马尔可夫随机场模型中,
原始图像Y可以用势函数定义为:
Y = (X_1, X_2, ..., X_n)
其中每个节点对应于某个随机变量x_i,
并且满足势函数的条件:
P(Y) = \frac{1}{Z} \prod_{C} \phi_C(Y_C)
其中Z是归一化因子,
\phi_C(Y_C)是定义在子集C上的势函数。
为了实现表示解纠缠,我们执行三个策略
- 共用E^s_{\chi}与E^s_y最后一层的权重参数。进而使来自两个不同域的图像场景特征得以整合至同一个空间。
- 然而,在这种高级层权重共用的方式下,并不能充分保证同一场景在不同领域的表征一致性。
- 因此,在对场景特征图施加约束后,确保了来自不同领域的图像均能在同一个空间中生成一致的场景特征。
- 第三步,则是对属性向量a_x与a_y在分布上实施约束措施。
- 通过这一策略能够有效抑制来自属性空间的相关性影响。
- 最终导致属性编码器在识别和处理相关场景信息时会有所规避。
为了使这两种信息类别能够有效地表示源图像的信息内容, 因此应当让S与A具备将数据映射回原始视觉域的能力. 这种能力将由一个生成网络G去学习并建立相应的映射关系. 同时需考虑的是, A_{\chi}与A_y在发生器中表现出不一致特性, 并且在随后的数据融合过程中, \{S,A_{\chi}\}与\{S,A_{y}\}共享同一个生成器模块. 这一设计一方面旨在使得原始源图像能够在特定场景下被期望以场景属性及其分离属性作为条件来进行重建运算. 具体而言, 基于这些条件进行重建运算的结果可表示为:\hat{x} = G(s_x,a_x) 和 \hat{y} = G(s_y,a_y). 另一方面, S还应具备从\chi与y中提取关键特征的能力, 而同时确保A_{\chi}与A_y能够分别捕获各自领域特有的属性信息而不携带跨领域的一致性场景特征.
若x, y,则s_x, s_y,应具有相似性,从而可以推断出:当输入不同的属性向量时,所生成的结果被认为与基于其提取出属性向量而得到的真实图像具有高度一致性.例如,在给定s_x, a_y,的情况下,则生成器将执行以下操作:y_x = G(s_x,a_y)其中,y_x=融合了x'场景信息及来自\mathbb{Y}中a'_y'所代表的特点之后形成的伪样本.
请查看图2。
考虑到图像融合问题通常涉及一对源图像。
因此必须维持像素级别的统一性。
同样地,
经过变换后的类x图像可定义为:
基于y场景信息和x属性信息生成。
4.Loss Functions
4.1 Scene Feature Consistency Loss
基于x和y属于同一背景下的两个描述,则它们的场景特征应当是相似的。在此基础上,场景特征一致性损失在s_x以及s_y上计算为L_{scene}=||s_x-s_y||_1。
4.2 Attribute Distribution Loss
基于离散化表示方法(disentangled representation),我们致力于最大限度地抑制来自属性空间的各种场景信息,并希望属性表示能够趋近于先验高斯分布。实验结果表明KL散度项有助于实现变量分离。以达到这一目的,在测量两个属性向量a_x和a_y与先验高斯分布之间的KL散度后,并计算它们各自的期望值之和作为约束L_{attr}
4.3 Self-Reconstruction Loss
旨在基于场景及其可分离属性表示的基础上重构原始源图像。这意指生成器G应具备解码场景特征及属性向量以还原出原始源图像的能力。因此我们引入一种自建模损失机制使其构建出与原图高度一致的质量。自我重建损失具体定义为L_{recon}=||x-\hat{x}||_1+||y-\hat{y}||_1
4.4 Domain-Translation Loss
基于一个源图像的场景特征和另一个源图像的属性向量来进行生成操作,则其中所用到的属性向量定义为\{x_{y}, y_{x}\} = \{G(s_{y}, a_{x}), G(s_{x}, a_{y})\}。
假设x,y\in \mathbb{X}和\mathbb{Y}分别代表图像融合问题中的源图像对,在域\large y=\mathbb{Y}中对应的输出样本y\in \mathbb{Y}被定义为对应于输入样本x\in \mathbb{X}的理想变换图像;类似地,在域\mathbb{X}中输入样本x_{\text{in}}=f^{-1}(x)被定义为理想目标样本。
因此,在处理变换后的图像时,我们可以实施像素级约束。其定义如下:L_{tran}^{domain}=||x-x_y||+||y-y_x||_1
基于以下公式给出的整体损失函数定义为 L = L_{scene} + \omega _{attr}\cdot L _{attr} + \omega _{recon}\cdot L _{recon} + \omega _{tran}\cdot L _{tran}^{\ domain}
其中W_{attr}、W_{receon}和W_{tran}是调节每个项平衡的关键超参数。四个编码组{E^{s}_{\chi}, E^{a}_{\chi}, E^{s}_{\chi}, E^{a}_{\chi}}以及生成器G中的参数用于最小化L以实现优化过程。
5. Network Architecture
5.1 Scene Encoders
在图3中展示了两个场景编码器{E^s_{\chi}和E^s_{y}}的网络架构。其架构包含七层结构,其中包含五个残差块和两个卷积层。残差块通过直接连接机制来缓解消失梯度问题及模型退化问题。其具体架构细节可参考图4中的展示。激活函数选择的是Leaky ReLU激活函数


在完成卷积操作后,采用实例归一化方法进行处理,则可表示为IN(u)=\gamma(\frac{u-\bar{u}}{\delta})+\beta
其中N、H、W与C分别对应批次大小、高度与宽度以及通道数量。γ与β属于仿射参数,在数学上定义为:
\mu = \frac{1}{HW}\sum_{i=1}^H\sum_{j=1}^W u_{kij}, \quad \sigma = \sqrt{\frac{1}{HW}\sum_{i=1}^H\sum_{j=1}^W (u_{kij}-\mu)^2}
其中\mu是在空间维度上计算的平均值\mu ∈ R^{C}(此处可能有误,请根据上下文核实),而σ是在空间维度上计算的标准差σ ∈ R^{C×N}。
\bar{u}_{nc}= \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^{W}u_{nhwc}
\sigma_{nc} =\sqrt \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^{W}(u_{nhwc}-\bar{u}_{nc})^2+\epsilon
另外,在分析过程中利用来自域\chi和\large y的场景特征时,默认假设这些特征能够共享同一个场景空间S。更具体地说,在模型架构设计中采用了相同的残差块参数来构建这两个编码器。这种设计确保了各个输入通过特定路径被整合到同一个公共编码空间中。
5.2 Attribute Encoders
如图5所示,在本研究中采用经典的卷积神经网络架构进行设计与实现研究工作

5.3 Generator
生成器G的网络架构如图6所示。场景特征首先经过残差块进行处理。属性向量被展平为与场景特征具有相同宽度和高度的张量。随后将第一残差块的输出与展平层的输出进行级联,并馈送到后续残差块进行处理。随后应用两个反卷积层对特征图进行上采样处理。值得注意的是,在此过程中,场景特征的空间分辨率降至原始图像分辨率的四分之一,从而丢失了大量高质量纹理细节信息。受U-Net架构的启发,在保留丢失信息的过程中,在发生器中采用了一种创新方法:即利用场景编码器中第一残差块作为低阶特征提取模块,并将其与第二个反卷积层输出连接后馈送到发生器的第一卷积层进行处理过程。在经过以下四个卷积层后,在发生器内部形成了一条深度可学习路径,并采用双曲正切激活函数最终生成重建图像

需要注意的是,在进行实例规范化时必须统一图像的整体风格(属性),然而这会导致应用实例规范化的效果不利于生成不同风格的图像。由此可知,在生成器中的卷积层之后不应进行实例归一化处理。
6.Fusion Block
基于预训练编码器和生成器,在disentangled representation框架下分别对场景空间S与属性空间A实施融合操作。
6.1 Scene Representation Fusion
假设场景特征s_x和s_y共用同一场景基础。通过设计的特征一致性损失函数引导两个编码器的最终残差块实现权重共享机制,并将提取到的特征映射至公共特征空间中。进而采用加权平均方法计算融合特征其表示为s_f = \frac{s_x + s_y}{2}。
6.2 Attribute Representation Fusion
对于属性向量,在研究过程中我们采用了基于加性融合机制的方法进行处理。其中a_f被定义为\lambda a_x + (1-\lambda)a_y
其中λ表示一个位于区间[0,1]内的调节因子,并用于控制融合结果的表现特性。进一步说明,在λ取值为零的情况下(即λ=0),融合后的图像呈现出类似于视觉域[Y]中的特征;而当λ取值为一的情况下(即λ=1),融合后的图像表现出与域χ中的图像相仿的特点。
最后,在将融合的场景特征与融合属性向量输入到预训练生成器后得到最终融合图像f,并由以下公式给出:f=G(s_f,a_f)
7.Implementations
数据集:TNO, RoadScene
在本文中,我们提出了一个新的分解方法,即红外与可见光图像融合应用中的解纠缠表示,该方法被命名为DRF。根据成像原理,对可见光图像和红外图像进行信息源分解。更详细地说,我们通过相应的编码器来解析场景及传感器模态(属性)相关的表示。然后,采用不同的策略将这些不同类型的表示进行融合。最后,将融合后的表示输入预先训练好的生成器以生成最终结果
