hdrnet,Deep Bilateral Learning for Real-Time Image Enhancement解读
学术论文、代码库和演示文稿下载链接:Deep Bilateral Learning for Real-Time Image Enhancement
论文使用的数据集:
HDR+ : 该摄影系统涉及多个高级技术环节,在图像捕捉与后期处理方面展现出独特优势。其核心功能模块主要包括色彩调校、智能曝光控制、去尘处理以及色彩提升算法等核心内容。
MIT "FiveK" 数据集 : 该数据集由 Bychkovsky 等人 提供, 包含了 500 张用于验证与测试的图片, 剩余 4500 张则用作训练用图. 该数据集中所包含的图片被应用于多种效果实验, 并通过随机裁剪、翻转以及旋转等方式实现了数据增强.
面部明亮化数据集 : 此数据集包含有标记的面部图像,并旨在完成面部明亮化任务
n-Styles Transfer 数据集 : 该数据集是通过将 MIT “FiveK” 数据集中的每个图像对应到100个不同风格的目标图像来创建的。
这些多样的数据集使模型能够在多种图像操作以及受主观因素影响的人工调整中进行学习,并因此使其在各类图像增强任务中展现出高质素
论文开头放了一张效果图

该图表展示了hdrnet算法,并且同时实现了高效的实时处理能力。具体来说,与HDR+算法相比,在图像质量方面表现基本相当。这里具体来说,tone mapping技术实现了图像中明暗细节的精准还原。
tone-mapped for visualization
色调映射过程通常包括以下几个关键步骤:
- 全局色度校正(Global Color Correction):基于Reinhard等人的研究成果开发出一种全局色度校正工具...将HDR格式图像的整体亮度范围精准压缩至显示设备的最佳适应范围。
- 局部色度调节(Local Color Adjustment):针对图像的不同区域进行精细调节...采用更为精细的技术手段...以有效提升图像整体清晰度。
- 细节优化处理(Detail Enhancement Processing):在传统色度校正流程中存在部分细节丢失的情况...借助高频率增强技术...能够有效恢复被压缩的信息。
- 色彩忠实还原(Color faithfully还原):在整个调色流程中注重色彩的真实呈现而不出现失真现象...避免因过度压缩而导致的颜色失真问题。
主要目标在于生成一系列具有视觉吸引力且细节饱满的低动态范围(LDR)图像。这些图像能够真实呈现高动态范围(HDR)场景所需的关键细节,并可在标准显示设备上忠实复现 HDR 画面。该技术不仅广泛应用于摄影、电影及动画渲染领域,在任何仅限于有限显示设备查看高动态范围内容的情境下均有应用价值
性能在移动图像处理领域是一个关键挑战。无论是基于传统图像处理方法抑或是人工精修的图像对,我们旨在恢复这些图像增强后的视觉效果,并实现即时处理。为此,我们参考了双边网格处理与局部仿射颜色变换的概念,开发了一种新型神经网络架构。该架构基于输入-输出图象对,通过训练卷积神经网络来模拟所需的视觉转换。具体而言,我们的模型能够做出局部、全局以及内容相关的决策,从而近似所需的各种图象转换效果。值得注意的是,当将低分辨率版本的输入图象送入神经网络时,我们将生成一系列双边空间中的仿射变换参数;随后我们采用一种新的切片节点来保留边缘信息并进行上采样;最后将这些上采样后的变换应用到全分辨率图象上以完成最终转换过程。该算法具备高效的计算性能特点,能够在智能手机端快速处理高达1080p分辨率的画面;同时在复杂图形操作任务中表现优异,其输出质量可与当前最先进的近似技术相媲美
INTRODUCTION
当代相机和移动设备产生的高分辨率图像和视频对图像处理算法提出了巨大的性能压力,这要求技术娴熟的程序员进行复杂的代码优化。虽然在系统优化的贡献上已经寻求促进高性能可执行文件的实现,例如 [Hegarty 等人 2014;Mullapudi 等人 2016;Ragan-Kelley 等人 2012],但它们需要程序员的专业知识,它们的时成本随着图像处理pipeline的复杂性增长,并且仅在图像处理的filter的源代码可用时才适用。此外,由于图像增强是主观的,通常希望能够直接从人为调整中学习增强模型,例如 [Bychkovsky 等人 2011]。为此,我们提出了一种机器学习方法,其中参考filter、图像处理pipeline,甚至主观手动照片调整的效果。通过一个深度网络学习,该网络可以快速评估,并且制作图像处理系统与图像目标质量的复杂性无关。我们专注于不会产生空间扭曲图像或添加新边缘的计算摄影增强,例如 [Aubry 等人 2014;Hasinoff 等人 2016]。
我们与前人工作处理方式相似,在现有研究中已有学者通过远程服务器(Gharbi et al. 2015)以及基于低分辨率图像处理的技术(Chen et al. 2016)来加速'黑盒'深度网络的图像处理性能。对于某些特定操作而言这些方法均能显著提高效率但其应用存在局限性:即所处理的图像操作必须具有某种程度上的尺度不变性(如图9所示)并且必须能在低分辨率条件下快速完成运算此外这些技术依赖于显式参考实现的存在因此无法用于从人类标注输入输出数据集中学习隐式定义的操作

图9
多种深度学习架构已被成功应用于图像到图像的转换领域。
我们开发出一种新型网络架构方案,并具备对多样化的摄影图像增益的学习能力,并能够在高分辨率输入场景下高效运行。我们采用以下三种核心技术路径:1. 强化学习算法优化;2. 多尺度特征提取模块;3. 并行计算引擎设计。
基于Chen等人2007年的研究,在低分辨率的双边网格上进行主要预测。其中每个像素的位置由x和y坐标构成,并引入了一个颜色相关的第三个维度。其数值由该像素的颜色信息决定。为了实现这一目标,我们设计并引入了一个新型的深度学习节点。该节点通过动态数据依赖关系进行查找操作。这使得传统的切片操作不再受限于固定分辨率。该切片操作能够整合每个像素的颜色信息及其位置数据,从而在全图像分辨率下重构输出图像。
基于先前的研究发现,在输入到输出的转换过程中(例如Chen et al., Gharbi et al., 和Shih et al., 的相关工作),我们发现通常预测这一过程比直接预测输出结果更为简单。为此目的而构建的架构模型,则是基于学习一个局部仿射颜色变换作为中间表示的设计理念而展开的。该变换则通过新增一个乘法节点来作用于输入数据
虽然大多数学习和推理活动是在较低分辨率水平上完成的;但是在训练过程中所使用的损失函数是基于高分辨率图像进行评估的;因此我们所学得的基于低分辨率的数据转换方法特别关注于对高分辨率图像效果的影响。
基于以下三种策略:切片方法、仿射颜色变换以及全分辨率损失,在低分辨率环境下完成大部分图像处理任务的同时有效地降低了计算开销,并较好地还原参考操作中的高频细节
我们在七个基准测试应用中验证了我们的模型表现力:包括模拟发布状态下的图像滤镜(如Aubry等人2014;Hasinoff等人2016)、逆向解析黑盒Photoshop操作流程以及基于手动校准照片集[Bychkovsky等人2011]学习摄影师修饰风格的技术。与现有工作相比,我们的技术输出质量达到或超越了现有水平,并且适用范围更为广泛:无需依赖特定近似图像操作的实现基础(从输入/输出图像对中端到端学习),能够在移动设备上实现实时处理能力(处理全屏分辨率1920×1080像素的照片所需时间仅为14毫秒),并实现了令人满意的实时预览效果(50Hz)。我们的网络前向传递过程在Pixel手机上能够即时完成最高分辨率(1920×1080像素)的照片处理,并实现了令人满意的实时预览效果(50Hz)。
2 相关工作
虽然图像增强算法一直是研究领域的重点课题,然而,在移动设备环境下运行复杂算法的成本却很高。与此同时,在移动设备环境下获取并处理数字图像已经成为主流。基于以往的研究成果已识别出一系列关键操作基础之上,并在此基础上开发了一系列加速这些操作的新方法。例如Farbman等学者于2011年提出了一种基于卷积金字塔的方法来提升线性平移不变滤波器的效果。此外鉴于边缘感知图像是许多图像处理任务的基础Adams等学者于2010年Chen等学者于2007年Paris与Durand于2006年以及Tomasi与Manduchi于1998年均提出了各自的解决方案以加速双边滤波技术
加速一个操作符的一种可能方法是将该操作符在较低分辨率下执行后进行插值以提升结果的质量。然而,在较低分辨率下直接进行插值可能导致模糊效果。为此,通常可采用更高级别的插值算法来改善效果,在此过程中需保留原始图像中的边缘细节。其中一种有效的方法是联合双边上采样[Kopf等人2007]的技术,在其框架下通过对高分辨率引导图应用双边滤波器来实现分段平滑且保留边缘感知的上采样效果。随后发展出的双边空间优化[Barron等人2015; Barron和Poole2016]方法在此基础上进一步优化,在每个双层网格内求解一个紧凑的问题以达到最大化的平滑度,并最终生成高质量的上采样结果
Gharbi et al. (2015) concentrated on learning transformations from input to output rather than the output itself. They employed a set of simple local models—each characterized by a transformation operation—to approximate a wide range of complex spatial variation operators. The computation of operators and fitting tasks were shifted to the cloud, enabling resource-constrained devices to perform these operations by simply applying the transformation, thus conserving time and energy. Similarly, Chen et al. (2016) utilized local affine model grids in the bilateral space to approximate image operators, with parameters fitted to input-output pairs, akin to guided filters (He et al., 2013). By performing model fitting on low-resolution image pairs, this method facilitated real-time computation on devices. Building upon this bilateral space representation, we developed our approach without fitting a single model per operator instance derived from a pair of images. Instead, we constructed a rich CNN-like model architecture that could be trained for any unseen input pair. This avoided reliance on the original operator and provided an avenue for learning non-algorithmic transformations (i.e., manually adjusted input-output image pairs). Additionally, we optimized affine coefficients to simulate full-resolution operator behavior, which is crucial for scalable filters (see Figure 9)."
神经网络在图像处理领域中的应用。近年来的研究表明,在低级视觉与图像处理任务方面取得显著进展。其中Eigen等人在深度估计方面提出了相关方法(I eigen et al , 年);Ilg等团队则专注于光流计算(I lg et al , 年);Dong等提出的超分辨率技术(Dong et al. , 年);Gharbi与Zhang分别研究了去马赛克与去噪问题(Gharbi & Zhang , 年); Shen开发了一种新型的抠图方法(Shen , 年); Iizuka团队则致力于着色算法的研究(Iizuka et al. , 年);此外还有针对一般性图像到图像"翻译"任务的研究(Isola et al. , 年)。值得注意的是,在双网格框架下学习深度网络的工作也取得了进展(Jampani et al. , 年),但这项工作并未解决我们在该空间中学习图像转换的任务这一核心问题
已有一些架构被设计用于近似同一类操作符。Xu等人在研究文献中构建了一个由三层神经网络组成的模块以加速边缘感知平滑滤波器的研究工作。Liu等人为了解决图像去噪、平滑以及修复缺失像素并恢复颜色的问题而设计了一种递归滤波器架构。研究团队通过协同训练多层递归神经网络与深度卷积神经网络来优化传播权重预测模型,在实验结果表明该方法较现有方案提升了约15%的性能指标的基础上完成了模型参数的微调工作。虽然这些方法能够在桌面级GPU环境中快速处理低分辨率图像,
但它们对于我们的应用场景仍显不足:
无法满足移动设备上实时处理高分辨率图像的需求。
自动照片编辑。我们的模型可以被训练以自动校正由人工修图师提供的输入/输出图像对。这是Bychkovsky等人[2011]引入的任务,他们估计了5位训练有素的摄影师个人风格的全局亮度/对比度调整。他们在5000张原始图像的数据集上训练了一个回归模型,该模型使用手工制作的特征,这些特征捕获了低级信息和语义内容(例如,面部)。Hwang等人[2012]采用从粗到细的搜索方法来寻找最匹配的场景,对于一张500×333的图像需要超过一分钟的时间。Kaufman等人[2012]从硬编码的特征(面部、蓝天、云彩、曝光不足的区域)学习局部颜色和对比度操作,处理一张VGA图像需要超过2分钟。最近,Yan等人[2016]使用了一个紧凑的逐像素神经网络和手工制作的特征。他们的网络需要1.5秒来处理一张百万像素的图像(除了用于他们特征中的对象检测、密集图像分割和场景识别所需的时间之外)。我们的模型可以学习类似的全局色调调整,并且可以推广到更复杂的效果,包括颜色校正和局部编辑,此外,它的速度要快得多。
3 我们的架构
我们开发了一种创新性的卷积神经网络架构设计,并通过特定算法实现了高效的图像增强功能(如图2所示)。该模型经过优化后具备强特征提取能力并能有效保持图像细节,在全分辨率下运算量相对较低。这是一个完整的端到端可训练系统,并且能够在主流智能手机设备上实现1080p分辨率下的实时处理能力。

图2. 我们的新网络架构旨在尽可能地在低分辨率下执行计算,并且同时捕捉全图像分辨率下的高频效应。该架构由两个分别在不同分辨率上进行操作的不同分支构成。其中低分辨率分支(位于顶部)接收输入I的下采样版本˜I,并通过一系列卷积层估计出仿射系数的双边网格A。这一分支进一步划分为两部分:一部分专门学习局部特征Li,另一部分则专注于提取全局特征Gi,并在最终预测阶段将两者进行融合(标记为F)。值得注意的是,在这一过程中,全局特征分支与局部特征分支共享一组共同的基础低级特征Si。与此同时,在底部的高分辨率分支中执行了更为精简的核心运算:首先生成一个灰度引导图д,在此基础上将仿射系数网格进行上采样以适应全分辨率下的仿射变换操作¯A。随后通过对每个像素执行局部仿射变换操作并结合原始高分辨率输入数据进行处理后,则能够得到最终输出O
在低分辨率副本˜I中进行主要推理活动。这即是输入I在低分辨率流(图2顶部)中的表示。该系统最终预测出类似于双边网格的局部仿射变换[Chen等人的研究[2016]]。基于我们积累的经验教训,在图像增强方面不仅依赖于局部图像特性还应考虑到全局特性如直方图平均强度甚至场景类别等因素因此我们将低分辨率流进一步划分为本地路径与全局路径然后将这两个分支整合以生成代表仿射变换的最终系数
高分辨率流(图2底部)在全分辨率运行的同时进行最低限度的计算工作,在此过程中其主要功能是实现高频效果捕捉以及边缘细节保留。为了实现这一目标我们参考了双层网格处理方法开发出一种新型切片节点其灵感来源于Chen等人2007以及Paris和Durand2006的相关研究工作。该切片节点基于预生成的学习导向图在较低分辨率网格架构中执行数据驱动的操作流程具体而言它是通过学习生成的引导图在较低分辨率网格架构中进行数据驱动的操作流程具体而言它是通过学习生成引导图来辅助实现高分辨图像重建过程中的关键步骤。在此过程中我们从低分辨输入图像出发通过对每个像素应用局部色彩变换来完成最终图像重建任务O的具体生成过程如下:首先基于全分辨输入图像我们提取出对应的高分辨仿射参数随后针对每个输出像素位置我们利用这些参数信息对其进行色彩空间转换运算从而得到最终输出结果O。在整个训练阶段我们采用全分辨输入图像来优化我们的损失函数这一设计策略表明即使处理大量经过下采样的低分辨流数据其仍能在较低层次上捕获并学习到中间特征以及变形参数这些参数能够有效还原出完整的高频视觉效果
作为初步近似,在减少Chen等人的双边引导上采样[2016]的同时,在时对参考滤波器的需求也被降低了。我们旨在估计给定图像低分辨率版本时双边网格中的仿射颜色变换系数。然而有几个关键元素超出了上述情况:其中下采样过程是学习得到的;此外,在引导过程中使用的图像也是可学习的,并非仅用于亮度通道;最后我们并不是在仿射系数上应用损失函数而是直接作用于最终输出图像以捕捉高频效果并处理尺度不变的操作符(如图9)。通过消融实验我们展示了架构中各组件的作用机制(图3、4、5及7)。

图3. 我们的低级卷积层通过全参数学习捕获语义特征,并能提取关键视觉信息。若将这些层替换为标准双网格splatting操作,则会显著降低网络性能表现[1]。例如,在图a-b中展示的案例中(d),固定分辨率的双网格模型无法有效识别面部特征[2]。由于模型分辨率不足[3],该模型仅对肤色区域进行微弱增强处理[4]:例如,在手部区域可以看到这种效果[5]。为了实现目标任务所需的关键视觉特性[6](c),我们设计了一种带步长卷积模块实现逐级下采样过程:从而模型能够有效提取任务相关的语义特征(c)。通过这种方法不仅实现了面部提亮效果[7],还能保持背景区域亮度相对稳定[8]。

图4展示了我们架构中的全局特征路径机制。该机制允许模型基于整幅图像进行推理分析,在复制可能受主观因素影响的任务中表现出显著效果(a)。若缺乏全局路径指导,则可能导致模型在局部区域产生不一致的决策(b)。在此情形下,网络未能将左上角的蓝色区域归类为空天区域;因此应将其上方区域与下方区域进行统一校准处理。

图5. 该创新性切片模块是本架构体系在表现力及高分辨率效果处理方面的关键点。采用标准可学习反卷积滤波器组替代该模块会导致性能指标(b)下降。这一现象源于预测输出像素的过程中并未充分考虑全分辨率数据的影响。我们的切片层通过更高保真度地模拟所需的增强效果(c),从而得以有效保留输入图像中的边缘特征(a)。此外,在捕捉地面真实输出中的高频变换信息方面表现出色

图7. 我们采用了基于深度学习构建的学习型引导图进行切片节点设计。在HDR+管道重建过程中使用亮度作为引导时会产生伪影现象,在额头和脸颊区域尤其表现为明显的海报化伪影效果(b)。与之相比,在这种自学习策略下生成的学习型引导图能够准确还原实际场景细节(c),其中地面真实的环境光照表现被成功捕捉并呈现出来(d)。
3.1 低分辨率预测双边系数
该系统中输入I具有恒定分辨率256×256的属性参数设置。该输入随后经过一系列由步长参数控制的卷积层序列处理(Si),其作用是提取图像的基本特征并降低空间分辨率水平。在此基础上参考Iizuka等人的设计思路[2016]后,在第二条路径中引入了两个独立的分支:第一条分支采用全卷积网络架构(Long等人[2015]提出)进行图像数据传播的同时有效保留局部空间信息特征;第二条分支则结合卷积操作与全连接层结构来提取全局特征向量(如高级场景类别、室内/室外分类等),其感知域覆盖了整个输入图像区域˜I的空间范围。两条路径分别生成的结果GnG与LnL被整合到共同特征集F中作为融合流的输入端口进行后续处理;随后通过逐点线性变换将融合后的结果转换为二维仿射变换系数集合A(如第3.2节所述)。这些仿射系数被进一步解释为在二维网格上定义的空间变换参数矩阵元素;由于该系统基于二维图像内容自适应地生成三维双网格结构的方式具有内容依赖性特性;因此可将低分辨率输入视为一种经过学习优化后实现的特殊投射形式(splatting)。
3.1.1 低级特征
我们首先使用一系列标准步长卷积层处理低分辨率图像S0 := ˜I,步长s = 2(见图2):

其中,在本研究中考虑了多组数据集的情况;对于每个样本数据集i(i从1到n_s),我们假设其服从均值为μ_i、方差为σ_i²的概率分布;通过构建一个基于深度神经网络模型来分析这些样本数据集之间的关系;模型由多个隐藏层组成,在每个隐藏层中引入非线性变换以增强模型的学习能力。
这些基本层逐步减少了总空间维度的一个因子2ns,在这种情况下有两个结果:第一种情况是它促进低分辨率输入~I与最终仿射系数网格的空间降采样;当ns值越大时, 最终网格越粗糙; 第二种情况是ns决定了预测的复杂性:越深层的层不仅具有更大的空间支持(呈指数级增长),还通过组合效应实现了更复杂的非线性;这样它们就能捕捉到输入中的更复杂的模式;图3展示了如果移除较深层的那些结构并替换为硬编码splatting操作(引用Chen等人2007年的研究),则网络的表现力会受到严重影响;我们采用了使用ns=4个基本层的设计方案;表1列出了各层次的具体维度

3.1.2 Local features path
最后一位初级特征层Sns随后经由局部路径内的n_L=2个卷积层Li进行处理(图2所示区域为黄色)。这些层与公式(1)具有相同的结构,并通过设置L0=Sns来初始化参数。值得注意的是,在这种情况下步长s被设定为1。我们维持了局部路径中所保留的空间分辨率以及所提取的特征数量。由于空间分辨率得以维持不变,在这种情况下滤波器的空间支持仅随n_L呈线性增长。适当深度的卷积层堆叠对于捕获有用的语义特征而言至关重要[如Krizhevsky等人2012所述]。如果希望最终系数网格能够获得更高的空间分辨率,则可以通过减少n_S并相应增加n_L来实现这一目标;否则,在不降低网络性能的前提下可能需要保留较低的空间分辨率。省略局部路径会导致预测系数失去了任何空间位置的概念
3.1.3 Global features path
类似于局部路径的设计思路,在构建全局特征路径时也会采取类似的策略结构,并遵循相同的流程进行设计。其中定义为G0 = S^ns。它由两组步长为2的卷积层(如公式1所示)构成,并依次接续三个全连接层模块。总计NG=5个全局处理单元(如图2所示用蓝线标注)。值得注意的是,在经过全连接处理后会引入分辨率固定的限制因素,并直接影响到后续处理阶段的空间维度及其对应的网络参数规模。在下一小节我们将深入探讨这一技术细节并展示其实现效果
全局路径生成一个64维向量,并归纳了输入的整体信息作为先验来指导局部路径所作的局部决策。由于缺乏能够表征输入这种高级特性的全局特征,在网络中可能出现错误的局部决策行为,并在图4所示的情景下可能造成类似天空区域出现大规模变化而产生的虚假效果
3.1.4 Fusion and linear prediction
通过将局部和全局输出特征进行线性变换融合,并在经过ReLU激活后进行结合使用。

会产生一个16×16×64大小的空间特征数组,在其中执行一次最后进行的一次线性变换操作之后生成一个结果图。这个结果图是一个具有96个输出通道的空间映射图。

3.2 将图像特征视为双边网格
到目前为止为止,我们已经将我们的模型被建模为一个神经网络.换一个角度看待它,从双网格结构的角度进行分析.为了便于理解,我们略微进行了符号上的简化处理,即将最终输出的特征图A暂时视为一个多通道双网格的形式,其中第三维已经被展开了:

当d=8时,则代表网格的深度值。在这样的框架下,A则可被视为一个16×16×8的双层网格,其中每个单元格包含12个数字,这些数字分别对应着3×4仿射颜色变换矩阵中系数的作用区域。这种重新定义的方式使得我们能够将方程(1)中的步长卷积作用解读为双层域的操作,其中它们分别作用于(x,y)二维空间上的局部卷积运算,并在z和c两个维度上实施全局连接机制。这样一来,相较于仅在三维空间中进行局部3D卷积的操作[Jampani et al. 2016],这种方法更具表达力;相比于传统的双层网格splatting方法[Chen et al. 2007],它也更具优势,因为后者是基于将图像I离散化成几个强度区间后进行滤波处理的方式;而我们的方法只需通过一个两层网络就能轻松实现这一功能。从另一个角度看,如果在整个过程中始终维持二维卷积的形式,而仅将其最后一层视为双层网格的作用层面,那么网络就能够自主决定何时完成从二维到三维的空间转换过程
3.3 使用可训练的切片层进行上采样
至此,我们已阐述了通过本网络从低分辨率图像中学习预测双网格系数A的方法。接下来的任务是将这些信息传输回原始输入I的高分辨率空间以生成最终输出图像。为此,我们引入了一个基于双边网格切片操作的层(如Chen等人2007所述)。该层接收一个单通道引导图g以及特征图A(被视为双网格结构),其分辨率明显低于g。它在最终特征图A中执行基于目标导向的数据搜索过程。该层对于输入A和引导图g均为可微分模块,在反向传播过程中可被利用。
该切片操作生成的新特征图A_具有与g相同的分辨率,在g所定义位置处执行三线性插值计算A的系数

其中

属于线性插值核的一种技术方案中,在计算过程中我们引入了两个参数s_x和s_y。它们分别代表网格在x轴和y轴方向上的缩放比例,在计算时分别对应于水平方向和平面方向的空间分辨率采样间隔。其核心机制在于将每个像素的空间位置映射为一个权重向量,并通过该权重向量进行空间插值运算以得到最终的输出图像数据

这些网络如[伊尔等, 2016]提出的Flownet2和[Jaderberg等, 2015]提出的Spatial Transformer Networks都采用了相同的插值操作来实现网络内的空间变形。我们将所用网格的空间分辨率固定在16×16,并设置其深度为d=8。
切片操作是无参数的,并且可以高效地在 OpenGL 着色器中实现 [Chen et al. 2007]。它作为一个瓶颈层,将神经网络的表示限制在低维空间中。这既简化了学习问题,也加快了处理时间 [Barron et al. 2015; Barron and Poole 2016]。关键的是,在双边网格内进行推理迫使我们模型的预测遵循g中的边缘,从而将我们的预测规范到边缘感知的解决方案(与基于转置卷积或“反卷积层”的标准网络不同,见图5)。这一设计决策倾向于有利于我们的摄影操作任务,并使我们在速度上比更通用的模型有显著提升,原因是A的低维度(见图10)。

图10展示了我们算法在速度与质量方面的对比分析结果:它与两种现代网络架构进行了系统性对比:一种是源自[Isola et al. 2016]改编的U-Net架构;另一种是基于扩张卷积(dilated convolutions)的设计[Yu and Koltun 2015]。实验数据基于在桌面CPU上处理4,000,000像素图像完成20次迭代后的平均时间计算得出。其中所提及的PSNR数值指标反映了模型对局部拉普拉斯特征捕捉的能力。由于模型深度不足的问题,在捕捉大尺度效应方面存在局限性;因此导致PSNR值相对较低。相比之下,在速度上竞争对手快了一个数量级以上;并且内存占用高出一个数量级以上;同时这些结果还涵盖了不同参数设置下的性能表现情况:其中红色版本即是我们所有实验中采用的标准参数设置下得到的结果图形展示;详细讨论了速度与性能权衡关系的部分则见于图11

图11展示了局部拉普拉斯任务中的PSNR值以及预测双边系数所需的时间。这些数据源自我们模型采用的不同参数设置。每条曲线对应一个网格深度d,在此情况下其空间分辨率分别取值为8、16和32单位长度。作为基准对比的研究对象,则是以方框标记突出显示的研究模型用于生成所有结果。如预期所示,在更大的网格深度下取得更好的效果(绿色线条)。增加中间特征的数量可带来约0.5 dB的进步(红色线条)。所有时间均在Intel Core i7-5930K处理器上进行测量。
研究数据的相关性对我们的模型性能至关重要。
这一发现支持我们在第3.4.2节中介绍的一系列更简单的局部模型用于预测全分辨率图像上的复杂操作
3.4 组合全分辨率输出
至此, 我们已经阐述了获取双 affine 上采样系数网格的方法. 其余所有处理均在全分辨率水平上执行. 因此, 在计算效率方面具有较高的简洁性和易并行化特性. 从输入 I 中提取一组 n_ϕ 个全分辨率特征 ϕ, 它们承担着两个主要功能:
这些元素被用来构建切片节点中所需的引导图g的估计或确定,
这些元素则充当了局部仿射模型中的关键参数。
最经济高效的方案是以输入图像的通道作为特征参数(即ϕ = I, 其中n_ϕ = 3),该局部仿射变换模型用于颜色空间转换)。基于这一高效计算策略所得出的结果均采用了此方法以实现快速计算效果
3.4.1 引导图辅助网络
我们定义g为全分辨率特征的简单逐点非线性变换。

其中,在3×3颜色变换矩阵中存在若干行用于特定的颜色操作。在图像处理领域中这类矩阵常用于颜色校正其目的是匹配目标色彩空间并纠正色调偏差。b与b_c’分别代表偏差项。ρc被定义为分段线性传递函数具体而言则是16个缩放后的ReLU激活单元之和每个缩放后的ReLU激活单元均包含了相应的阈值t_{c,i}以及斜率a_{c,i}。

参数M、a、t、b和b’与网络其他参数一起共同进行优化训练。其中M被初始化为单位矩阵,在这一过程中这些参数(即a、t、b和b’)被特别设定用于实现将每个ρc值限制在[0, 1]区间内执行恒等映射操作的操作。这种设定是为了确保生成函数g不会退化为平凡解(trivial solution)。通过图7可以看出使用此引导的效果;而图6则展示了该任务中所学习到的颜色变换矩阵及其色调曲线实例。

图6展示了该实例所掌握的颜色转换矩阵(左侧)以及每个通道的色调分布曲线(右侧)。这个模型能够有效地创建引导图g所需的视觉信息。
3.4.2 组合最终输出
尽管在处理整幅图像时需要考虑的操作可能相当复杂; 然而最近的研究表明即使面对复杂的图像处理流程也能通过一系列简单局部变换实现精确建模 [Chen et al. 2016; Gharbi et al. 2015; He and Sun 2015]。基于此假设我们假设每个输出通道 O_c 都可以通过全分辨率特征上的仿射组合来进行表示; 其中系数参数由切片特征图 ¯A 各通道决定:

类似插值仿射变换已被成功应用于抠图[Levin et al. 2008]、内在图像分解[Bousseau et al. 2009]以及时间转移[Shih et al. 2013]等应用领域。针对这类模型,在拟合仿射模型时选择局部区域(patch)大小会影响效率与质量之间的平衡关系。在极端情况下,在每个像素处拟合独立的仿射模型(即局部区域大小为1×1)能够实现操作符的完美重建效果。当局部区域尺寸为3×3时,仿射模型能够可靠地模拟大部分图像操作符功能。然而随着局部区域尺寸增大,在处理复杂操作符时仿射关系将不再适用,并且已有研究表明可以通过分段线性函数[Yuan and Sun 2011]或非线性和边缘感知组件[Gharbi et al. 2015]来缓解这一限制问题
3.5 训练过程
我们采用了指定的操作符处理full resolution input/output对数据集D = {(Ii, Oi)}i进行网络训练。为了优化权重和偏置参数,我们对该训练集上的L2损失进行了最小化。

我们通过L2权重衰减系数设置为1\times 10^{-8}来正则化权重参数。卷积层与全连接层的权重参数初始化采用He等在2015年提出的He初始化方法,并将偏置参数初始化为零值。在每对中间特征图之间引入批量归一化操作(Ioffe和Szegedy在2015年提出),并在优化网络参数过程中采用Adam优化器(Kingma和Ba在2015年提出)。实验中采用批量大小范围为4至16(根据输入分辨率自动调节),并以学习率1\times 10^{-4}进行训练。Adam优化器其余超参数设置遵循作者推荐值。模型在TensorFlow框架(Abadi等人于2015年提出)以及Halide语言(Ragan-Kelley等人于2012年提出)中进行开发实现。所有实验均在NVIDIA Titan X Maxwell架构上运行30个训练周期,并通常需要持续两天时间完成训练任务
4 结论
我们对模型重现机制在图像操作符(第4.1节)以及人工标注修图(第4.2节)方面的效能进行了考察。该模型不仅超越了传统神经网络架构和现有先进的滤波器近似技术,在移动设备端实现实时处理(第4.3节)。从图14可以看出,在多个应用场景下我们的方法均表现优异。输出结果通常具有较高的可信度,尽管与真实情况存在一定偏差但仍能呈现出合理的视觉特性。值得注意的是该方法包含了大量的空间降采样和双边下采样操作但生成的图像伪影现象极少且不易察觉这一现象源于其独特的双边网格边缘感知特性以及对平滑输出变换能力的有效学习。因此输出结果往往呈现一种更为柔和的特点例如在图14所示的HDR增强示例中由于最剧烈的空间变换可能导致输入数据中不存在的新边缘被引入从而影响到输出效果
4.1 复现图像操作符
我们评估了模型在多个由程序定义的图像操作任务上的准确性:
HDR+[Hasinoff等人,2016]——一种精细的手工设计的照片处理流程,涵盖色彩校正、自动曝光控制以及去雾技术和色调调节。
Local拉普拉斯滤波器[Paris等人,2011]——一种细节增强技术,通过保留边缘信息并在多尺度操作中引入差异性(我们采用了两种不同的强度参数来优化效果)。
此外,基于本地拉普拉斯滤波器实施的艺术风格迁移任务[Aubry等人,2014]。
基于标记人脸数据集的人脸增亮任务[Jain和Learned-Miller,2010]。
多种预装Photoshop滤镜套件及用户自定义操作功能。
使用我们的模型和基线方法在这些任务上的PSNR数值可以在表2中找到。

表2. 我们对比了我们的模型准确性和双边引导上采样法(BGU)及转换配方法(TR)。特别地,在低分辨率或全分辨率条件下评估每个图像操作符所需的代码时,请注意BGU与TR方法被视为性能上限。尽管性能略逊于这些基准方法,在某些情况下我们的模型仍能超越它们。这得益于其强大的表示能力和对非尺度不变操作符的有效模拟。
针对不同挑战设计了两种变形的任务。在第一种变形任务中(称为风格迁移),模型能够将任意输入样本转换为指定的独特风格。对于更加复杂的第二种情况(n-风格迁移),我们通过多通道融合技术,在此情况下采用了Aubry等人的方法,并通过多通道融合技术实现了两张图像间的相互影响效果。在此过程中,在这种复杂情形下我们的网络架构不再局限于生成单一统一结果;而是实现了从目标图谱中提取所需转换关系并将其应用到源图谱上的能力
4.1.1 数据集
除了HDR+技术和面部调明数据集外,所有效果都被应用于MIT‘FiveK’数据集中原始的图像集合 [Bychkovsky et al. 2011]。我们保留了500张图像用于验证与测试,并将剩下的4500张图像用于模型训练。为了提高训练效果,我们采用了随机裁剪、镜像翻转以及旋转等操作来增强数据量。通过对MIT‘FiveK’数据集中每个原始图像生成100个不同风格版本的方法构建了n-风格迁移的数据集。
4.1.2 基线
在目标领域表现最接近的相关研究是基于双边引导上采样(BGU)[Chen et al. 2016]以及转换配方(TR)[Gharbi et al. 2015]的方法体系。为此我们对其输出结果进行了对比分析。
然而在方法上与我们采用的技术不同:我们是从图像数据集中离线学习摄影操作符而BGU和TR的方法不依赖于预先训练好的模型而是通过在线方式来拟合特别定制的模型以适应输入-输出对。
值得注意的是这也给我们的技术相对于这些基准方法进行了对比带来了不利影响因为这些基线方法做出了更为限制性假设即无法从数据中学习近似一般实例情况下的图像操作符特性。
尽管如此为了保持完整性我们也报告了这些相关技术的一些指标数值作为参考基准。
TR假设移动设备端对经过高分辨率图像的高度压缩(导致了图像质量下降)的内容进行处理,并从中获取一个用于近似转换的技术方案。基于本研究不关注客户端-服务器架构这一点,在未压缩的情况下处理全分辨率图像,并采用推荐参数配置以提升输出效果。通过在非压缩状态下运行全分辨率算法(采用推荐参数配置),我们能够显著提升输出效果的同时确保基线性能达到较强竞争力水平。在该方法的应用场景中,通常预期的质量损失约为3至5dB。
BGU假设图像操作符作用于输入的低分辨率版本,并随后将模型拟合至该低分辨率输入与输出配对。由于HDRI滤波器处理能力受限于其工作基准,在此前提制下难以有效执行高动态范围校正操作。因此转而采用全分辨率输入与输出配对进行处理,并通过下采样生成相应的低分辨率版本来供BGU处理。针对可实现的本地拉普拉斯变换与风格迁移任务,则采用了更为系统化的流程:a systematic approach dedicated low-resolution processing for these specific tasks.a marked enhancement in performance becomes evident (see Figure 9).
4.2 从人工注释中学习
我们还采用了MIT-Adobe“FiveK”数据集[Bychkovsky et al. 2011]来进行模型性能评估,并将其与人工标注进行了对比研究。表3中的结果显示我们的方法表现优于先前的研究工作。该任务旨在考察我们模型学习复杂图像操作能力的能力,在这一过程中需要大量的人工标注与语义推理工作支持。在本研究中我们报告了五位摄影师(A、B、C、D、E)对其作品进行修饰后的平均L2误差值(以L a b _空间中的数值表示),其中越小越好。值得注意的是,在现有研究中仅报告了摄影师C的实验结果[Hwang et al. 2012; Yan et al. 2016]。基于[Hwang et al. 2012]提出的“random250”和“highvar50”两个数据集进行划分,在测试集中分别选取了包含250张随机图片以及具有较高权重的图像样本各50张

表3详细列出了在MIT5k数据集下五位摄影师(A至E)的修图工作情况。其中所采用的颜色空间参数L_a _b_下的均方误差(Mean L2 error)指标中显示数值越小表示效果越好。相比于现有研究而言,我们提出的算法不仅能够更有效地模仿摄影师的专业修图风格,并且计算效率较之提升了多个数量级。前两组实验基于 photographers C 之前的偏好设定的数据集进行评估。具体实验细节可在全文详细说明。第三组则展示了剩余四位摄影师的数据结果以确保研究全面性。其中参考文献中的指标[Hwang et al., 2012; Yan et al., 2016]采用了符号†标记。
完成这项任务需要更高的难度。先前研究表明摄影师在修饰作品时存在不一致性的现象。举例来说,在所分析的数据集中修图师B表现出高度的一致性。相较于我们的网络而言这一特性使其更容易被学习。然而我们通过分别针对每位艺术家进行图像修复训练建立了相应的模型。该模型在测试过程中能够持续提供合理的修复方案超越了先前的工作
4.3 性能
基于Android 7.1.1搭载的Google Pixel手机平台实现了一种创新的技术方案。该方案支持实时处理取景器分辨率高达1920×1080像素的图像输入,并能够高效完成任务流程。具体而言,在采用Camera2 API获取预览帧后(这些预览帧以YUV420编码格式输出),系统会对这些帧进行降采样至256×256分辨率,并将其转换为浮点数RGB格式以便后续处理。随后将这些数据传递至我们的网络进行运算(输出结果包括一个由仿射变换构成的双层网格参数),在此基础上完成切片操作并将结果应用至全分辨率输入图像生成最终效果展示。整个系统的整体处理时间控制在不超过35毫米/秒的速度范围内(具体数值约为33毫米/秒)。值得注意的是,在此过程中我们实现了与上传过程仅需耗费约3毫米/秒时间,在此之后GPU渲染耗时较长的情况下达到了较优的整体效率平衡点
在实时处理方面,现有的基于神经网络的架构还远未达到预期水平。为了全面评估现有技术的表现能力,在图10中我们将我们的技术与从Isola等人[2016]改编的U-Net架构[Ronneberger et al. 2015]以及Yu和Koltun于2015年提出的基于扩展卷积的线性网络进行了对比分析。通过系统性的实验研究发现,在不同深度(从3层到11层不等)和宽度(滤波器数量从16个到64个之间变化)配置下,U-Net体系结构中的"深度"指代的是其下采样阶段的数量,而"宽度"则代表第一层卷积操作器的数量,并且每经过一次下采样都会翻倍其通道数这一设计特征(详细内容可见Isola等人[Isola et al. 2016])。此外,针对混合计算框架的应用效果,我们在桌面端处理器上的测试结果显示,采用CPU/OpenGL混合技术可提升约两倍的速度表现,而在GPU端实现时虽然前向传递性能与上述两种架构相当,但数据传输成为了制约我们方法效率的主要瓶颈。综合来看,在整个实验范围内我们的方法仍显现出明显优势
我们研究了该架构在局部拉普拉斯任务中的效率与性能平衡问题,并通过调节几个关键参数进行优化。具体而言,在保持系统稳定性的前提下,我们对网络结构进行了多方面改进:首先将网络深度d由4提升至16;其次将空间维度从8×8扩展至32×32;最后使通道数量增加一倍(相对于表1中的数值)。实验结果可在图11中呈现。
4.4 讨论和限制
基于最基本的全分辨率特征ϕ=I进行实验;其中引导图g与仿射回归目标均取自输入图像的颜色通道(参见第3.4节)。若放宽实时渲染的技术限制,则可从高分辨率图像中提取更多特征以增强模型性能。如图13所示,在该示例中ϕ被构造为一个三级高斯金字塔结构;相应地,在双网格架构中包含了3×12=36个仿射变换参数(每个尺度层包含12个参数)。为了进一步提升网络效率,在中间层节点数量上进行了放大处理:具体而言,在表1所示的基础数值基础上增加了两倍的数量级(即原来的数值乘以三倍)。这一改进措施大致降低了网络运算速度的消耗(约降低了3至4倍),然而在针对局部拉普拉斯(强)任务时却显著提升了图像质量(约提高了2 dB)。
我们进一步研究了基于我们的架构的新应用领域,并将其成功应用于包括诸如抠图、着色等任务中。然而这些实验取得的成果有限 其原因是由于快速摄影校正对模型提出了严格的假设限制 使得现有架构难以适应那些无法通过局部点变换简单表示的任务类型(如图12所示)。

图12展示了当图像操作符显著违背我们的建模假设时算法的失效情况。(a)hazing降低了局部对比度影响了引导图的有效性它还破坏了我们仿射模型无法恢复的图像细节(如白板表面)。(b)抠图已经在局部仿射模型下成功建模[Levin et al. 2008]但这种仿射关系在更大的尺度上崩溃例如网格单元中抠图不再遵循色调变化而是呈现二进制特征这限制了双边网格的有效性。(c)对于着色学习到的引导图仅限于灰度输入的非线性映射因此我们在网格分辨率决定的空间分辨率下只能处理每个离散强度级别的局部颜色输出由于L2损失充满了不平滑的颜色变化这些变化被抑制现象尤其出现在道路边界树与天空交界处

图13呈现了当我们在全分辨率下执行额外计算时该模型如何通过丰富仿射回归特性实现功能扩展的情况。在此处基于一个包含三级高斯金字塔构建的特征ϕ 该模型能够更加精准地捕获该任务中关键区域的高频细节

图14展示了我们方法对多种复杂图像操作符的近似能力。通过训练于被该操作符处理的所有输入与输出配对,在这些复杂流程中仅提供二进制文件版本的情况下(例如像HDR+或Photoshop滤镜/动作等工具),我们的模型甚至能够从经过人工标注的输入与输出配对中进行学习,并将差异值缩放至完整的[0,1]范围内。
5 结论
我们提出了一种新型神经网络架构,在实时处理全分辨率图像时表现出色,并成功捕获了图像中的高频细节。该模型通过基于输入输出图像对的训练过程实现了从算法参考实现到人工调整的有效学习。我们的方法主要依赖于在一个双网格结构内执行大部分计算,并通过预测局部仿射颜色变换来平衡模型的表现力与运算速度之间的关系。具体而言,在构建该架构时我们引入了两个关键组件:一个是数据依赖的查找层;另一个是用于仿射变换的乘法运算模块。通过端到端的学习过程以及在高分辨率条件下的损失函数优化(尽管网络主要在低分辨率数据上进行了训练),我们的模型成功实现了全分辨率下的准确性和适应性目标。经过测试与评估,在多个图像处理任务中我们的模型均表现出了较高的准确性
