旷视研究院获 NTIRE 2023 图像复原和增强赛事Efficient Super-Resolution赛道冠军
在最近结束的 NTIRE 2023 比赛中,**旷视研究院在 Efficient Super-Resolution 赛道脱颖而出,击败 40 余支队伍,夺得全球冠军。**这也是旷视连续第三年在 NTIRE 的图像超分辨率赛道上夺冠。

NTIRE 比赛是国际级别的学术竞赛,聚焦于图像恢复和增强领域的最新趋势和技术。今年的比赛开设了多个赛道,吸引了来自全球各地的顶尖研究团队和公司参与,希望通过创新的方法和算法来解决前沿的、实际的图像处理问题。


NTIRE 2023赛道列表
Efficient Super-Resolution****赛道赛题介绍
今年 NTIRE 2023 比赛的 Efficient SR 赛道主要进行的是 4x 超分任务,评价指标是在 DIV2K 验证集上 PSNR 达到 29.00dB 的基础上,比较运行时间、参数量、Flops、激活数量及深度等。
其中 Efficient SR 评价指标需要注意的点在于,一个比较低的 parameters 和 flops 并不直接等于比较快的运行时间,举个例子,我们实际操作中借鉴的 ghost SR 的对部分特征进行 shift 的操作,参数量和 flops 下降了一半左右,但是实际运行时间和原来基本不变,这些额外的时间通常来自于一些乘法、加法操作。
此外,官方放出来一个超大数据集LSDIR,包含 8W 多张高质量图片,对于后续的图像复原和增强任务也是一大助力。
旷视夺冠算法介绍
我们的方法出发点相对简单,首先是找一个好的 baseline,去年的冠军 RLFN 就是一个不错的选择,接下来是两个方向,第一是刷点,第二是刷速度。我们的方法总体分为三步:
第一步是对 GT 进行增强操作,这个方法思想借鉴于最近的一篇 CVPR 2023 的论文 HGGT,他们在对 GT 进行增强的过程中引入了人类的指导筛选,我们在实践过程中发现,仅仅使用模型进行增强的 GT 就使小模型更好的学习纹理和细节,具体来说,就是对原始的 GT 过一个 1x 超分的网络进行增强,这个 1x 超分网络我们选用当前超分的 SOTA 网络 HAT,基于此结构重新训练了一个 1x 模型。

HAT网络
增强 GT 效果如下,在相当一部分图上,我们发现会比原始 GT 有丰富的纹理和细节。


增强 GT 可视化
第二步为了继续提高小模型精度,我们从结构和训练方法两方面同时入手,具体来说,我们采用一个多层级蒸馏方法,首先利用增强的 GT 训练一个比较大的 Teacher Net,然后用 Teacher Net 对 Student Net (也就是我们的小模型)进行特征层面和图像层面的蒸馏。


多级蒸馏管线
在第二步的过程中,我们在 RLFB 的 block 基础上增加了重参数化的技巧,包括串行的卷积重参数化和并行的重参数化,这种方法为我们带来的无损的精度提升,在 loss 上除了特征层面的蒸馏监督外,对最后输出图像也进行了大模型输出图像监督以及增强 GT 的监督。除此以外,我们在训练好的小模型基础上也采用了比赛提点的 trick,在 L1 loss 训练收敛后使用 L2 loss 进行 finetune、渐进式增大 patch 训练等。


重参数方法
最后一步是一个迭代式的剪枝过程,我们对第二步的结果进行重参数化后对模型进行剪枝,每次剪枝完成后进行 finetune 操作,直至收敛才会进行下一轮剪枝,剪枝方法我们使用的是 L2 剪枝,我们队友也尝试过引入 weight normlization 的方法,对 WN 的 weight 进行排序剪枝操作,最终和迭代式的 L2 剪枝效果持平,我们最终选用了简单一些的 L2 剪枝。
与以往 SOTA 结果的对比
我们比较了我们的方法和最近几年的一些 SOTA Efficient SR 方法的客观指标,可以看到,我们方法的时间比去年的冠军快了将近 1/4,参数量、Gflops 以及激活等都会优于去年的冠军。


客观指标对比
更多的结果和细节可以参考:
-
论文:DIPNet: Efficiency Distillation and Iterative Pruning for Image Super-Resolution(https://openaccess.thecvf.com/content/CVPR2023W/NTIRE/papers/Yu_DIPNet_Efficiency_Distillation_and_Iterative_Pruning_for_Image_Super-Resolution_CVPRW_2023_paper.pdf)

