论文阅读:Learning to Synthesize Motion Blur
2019 CVPR《Learning to Synthesize Motion Blur》(oral)
Tim Brooks Jonathan T. Barron
Google Research
这篇文章的contribution:
- 开发了一个线性预测层 linear\ prediction\ layer
- 从网络视频中采集了训练数据集合,并利用高速相机摄取了测试数据集合
- 其运行速度较之同类方法更快。
本研究旨在通过获取两张连续拍摄的照片并对其进行处理后生成一张在成像过程中呈现运动模糊效果的照片,并将其应用于动画制作以及照片艺术化处理等领域

首先探讨“line prediction”层的概念,则其核心观点在于多数情况下一张照片产生的运动模糊呈现出线性特性。为此我们假设已知模糊方向Δ后,则每个输出像素点与输入两个清晰度层在相同方向位置处的灰度值按权重相乘得到。具体而言在此方向上均匀采样N个采样点而通过这些采样点构建出的新图像具有相应的分辨率

在上面这个公式中 左边

表示输出的产生了运动模糊的图片,

表示预测的方向上第n个点的权值,


分别表示运动在x和y方向的偏移,

和

表示输入的两张图片。
所以只要得到权值

和模糊方向


就可以得到相应的运动模糊图像。
由该网络生成权值与方向。将两张输入图像进行拼接后作为输入。采用U-Net架构。经过最后一层使用1×1卷积操作生成预测输出。

生成训练集
选取网络视频的几个原则:
- 高频图像内容
- 足够的运动
- 有限的运动
- 没有突变
- 大体呈线性运动
每隔一次选择一连贯性较高的三帧画面作为基础,在其中心画面建立基准来训练一个视频插值网络;通过该网络循环生成其余29个连续的画面片段(总计33个),将这些片段依次累加并计算其平均值得到运动模糊效果;随后使用第一和最后一张原始画面作为输入数据来生成一系列模糊图像将被用作训练数据集的基础来源
比较实验结果

将作者与五个基准线方案进行对比研究。其中最基础的基准线(Naive Baseline)采用直接计算输入图像对的平均值作为预测结果;中间两个方案则采用了光流法(Optical Flow)作为特征提取手段;而后两种方案则采用了基于视频插值的方法(Video Interpolation)来提升预测精度。通过两个关键性能指标(如准确率和F1分数)来评估各方案的表现。
该指标用于衡量图像质量,在通信系统中具有重要应用价值。
PSNR 作为评价标准之一,在图像处理领域具有广泛的应用。
在实际应用中通常取多个通道进行综合分析,
并通过多参数协同作用来实现图像质量的全面评估。
结果显示他们的实验效果明显优于baseline;特别值得注意的是他们将处理时间大幅降低了。
作者另外做了几组消融实验
- 他们在网络架构中未采用 line prediction layer,在最后一层应用1x1卷积来生成运动模糊图像。
- 在权值预测方面不再对line prediction layer中的参数进行单独预测,在此基础之上采用了统一均值(即1/2N)作为权值。
- 在网络设计中未采用line prediction layer,在此架构下采用了基于预测核的方法来生成相应的模糊图像。
实验效果图

