超分算法ESPCN:Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel亚像素卷积

Real-Time Capable Single-Image and Video Super-Resolution Using an Efficiently Designed Sub-Pixel Convolutional Neural Network
-
-
- 几种上采样方式
- 亚像素卷积的简单理解
- 总结
-
该文章对上采样技术进行了深入探讨:创新性上采样策略结合了PixelShuffle操作,在提升重建质量的同时显著提升了运算效率。 本文旨在简要介绍该研究领域的基础知识,并为后续深入分析相关技术提供参考依据。
ESP CN :Real\text{-}Time\ Single\ Image\ and\ Video\ Super\text{-}Resolution\ Using\ an\ Efficient\ Sub \text{-}Pixel\ Convolutional\ Neural\ Network
参考目录:
ESPCN :超分之ESPCN [
亚像素 / sub \text{-}pixel 、亚像素卷积操作 [
几种上采样方式

SR任务中上采样的几种方法:
二阶B样条插值作为核心组件,在此基础上通过精细调整完成深度估计任务。DCSCN网络架构基于此设计。
该网络采用反卷积层结合填充技术(padding),有效提升了图像重建质量。
采用步长设为\frac{1}{r}的反卷积运算能够实现高精度图像放缩效果。
亚像素卷积作为一种高效且低复杂度的技术,在无需额外计算开销的前提下,并通过重新排列输入数据实现高效的特征提取和重建过程。
亚像素卷积的简单理解
亚像素卷积通常设置在网络的末尾层,并未增加额外的计算负担。
事实上,在亚像素卷积与SRLUT架构中所采用的核心理念是相同的:通过将图像按比例放大r倍来实现每个像素的扩展。
在倒数第二层的卷积操作中输出了具有r^2个通道且尺寸与原始图像一致的特征图后,在经过亚像素卷积层进行周期性排列后得到了尺寸为w×r,h×r的新重建图像。

在图中,在后续一层中用红色椭圆形标注的九个特征点(放大倍数为3)依次排列组合后指向最后一层的小方框区域。这种重建块正是基于原始图像中的特定采样点通过网络生成的空间重构单元。这些采样点能够使得原始像素的高度和宽度均被放大至原来的三倍长度。值得注意的是尽管被称为卷积层,在实际操作中并未执行任何计算操作——它仅负责提取并排列特征信息。
为何称其为亚像素? 可参考该文内容了解相关细节。
实际上,在两个物理 pixels 之间还存在亚 pixels 单元。
由四个红色点构成的矩形区域对应实际对象中的完整 pixels。
其实质就是在不同相邻原始采样位置之间进行了一种数值模拟。

总结
作者通过实验验证了所提出的亚像素卷积层能够显著提升表现力,并指出由于没有真实的计算过程而减少了大量网络参数数量。与SRCNN相比,在运行速度上有了显著提升。
- SRCNN和ESPCN(relu)在小数据集上表现相似,但是一旦数据集增大,两者增加的PSNR分别是0.07和0.33,显然ESPCN有更大的提升潜能。
- 对比ESPCN关于ReLU和Tanh版本的激活函数可知:在ESPCN中,Tanh对于表现力的提升要强于ReLU。
- EPSCN在单张图像和视频中都取得了提升的效果,并且在视频SR任务中可以做到Real-Time,即实时性的要求。
- 关于亚像素卷积层,PyTorch中也有相关实现,即torch.nn.PixelShuffle(),可以参Ton博主的PyTorch之PixelShuffle()。
- 作者后面又提出了一种针对
视频SR任务的方法VESPCN,利用了多帧图像之间的时间连续性,将时间信息加入到网络中。
最后祝各位科研顺利,身体健康,万事胜意~
