论文速览 | ICML 2024 | EvTexture: Event-driven Texture Enhancement for Video Super-Resolution | 基于事件相机的视
论文速览 | ICML 2024 | EvTexture: 基于事件驱动的纹理增强算法在视频超分辨率中的应用 | 基于事件相机的视频超分辨率图像处理技术
论文链接: https://arxiv.org/pdf/2406.13457
项目链接: https://dachunkai.github.io/evtexture.github.io/
1 引言
在计算机视觉研究领域,
Video Super-Resolution (VSR)
一直是一个备受关注的重要研究方向。
该技术已在多个实际应用领域展现出显著价值,
包括但不限于监控系统、虚拟现实以及视频增强等。
然而,
传统VSR方法在处理具有复杂纹理特征的区域时表现出明显的局限性,
原因在于低分辨率图像的空间频率信息已严重失真。
近年来事件相机因其显著的优势,在计算机视觉领域成为了研究热点。相较于传统相机而言事件相机能够以非同步方式捕捉亮度变化,从而开创了视频超分辨率技术的新方向。
本文提出了一种名为EvTexture的创新方法,在视频超分辨率中实现了显著的细节增强效果。与以往仅依赖于事件信号用于运动学习的研究不同,该方法首次将事件信号应用于纹理增强这一领域,并在解决视频超分辨率中的纹理恢复难题方面提供了一个全新的思路。

2 动机
传统的视频超分辨率方法主要聚焦于基于帧间的时间冗余信息,并采用光流估计或可变形卷积等技术来进行相邻帧的对齐。然而,在处理具有复杂纹理的区域时这些方法通常难以达到预期效果 并因高频纹理信息在低分辨率视频中已被严重丢失而导致这一问题的存在
近期研究已开始将事件信号应用于视频超分辨率任务领域,并已取得一定成果。然而,在现有研究中,对事件信号的应用主要聚焦于运动估计技术的改进方面。EGVSR方法通过设计时间滤波器来提取运动信息并生成高分辨率视频序列;而EBVSR则采用了基于事件数据的流估计优化策略以提升时间一致性。尽管这些方法在特定方面表现良好,在纹理重建等细节恢复方面仍存在明显局限性。
通过这些观察, 本研究的作者得出了一个重要发现: 事件信号不仅展现出卓越的时间分辨率, 同时蕴含着丰富的高频动态信息, 这正是纹理重建所需的关键要素 。鉴于此, 研究者们开发了 novel 的 EvTexture 方法, 其以期利用 event signals 来提升视频超分辨率中的纹理细节.

3 方法
3.1 整体架构
EvTexture通过引入一种双向递归网络结构 ,其特征在正向和反向传播过程中实现了动态流动,并通过各传播模块之间建立了信息交互机制,在每个时间戳上实现了一种多级分层结构 :
- 运动学习分支:通过光流算法实现帧对齐。
- 纹理增强分支:采用事件信号处理技术提升纹理清晰度。
这两个分支的特征最终被融合并传播到下一个时间戳。

3.2 事件表示
原始事件流被建模为一个体素网格 V。该体素网格将时间域划分为 B 个时间段区间。每个时间段区间在该体素网格中详细阐述了其特征。
V(i) = \sum_k p_k \max(0, 1 - |\frac{t_k - t_0}{t_{N_e} - t_0}(B - 1) - (i - 1)|)
其中变量 i \in \{1, \ldots, B\} 代表第 i 个时间箱。以减小热像素带来的干扰为目标,在不影响计算精度的前提下,将体素网格 V 进行归一化处理后成为:
\hat{V}(i) = \frac{\min(V(i), \eta)}{\eta}
其中 \eta 是 V 中非零值的第98百分位值。
3.3 迭代纹理增强模块
其核心创新为迭代纹理增强模块(ITE module),该模块由两个特征提取器和一个基于GRU的迭代纹理更新器构成。
- 上下文捕获器 C:该系统性方法能够有效捕获当前帧中的核心内容要素。
- 纹理捕获器 T:该机制能够系统性地对每个体素箱中的纹理信息进行精准捕捉。
- 迭代传播单元:通过巧妙结合ConvGRU层与残差模块,在深度学习框架下实现对多模态数据的高效融合与传播。
特征提取过程可以表示为:
f_t^c = C(I_t^{LR}), f_{t-1}^{v,i} = T(\hat{V}_{t-1}(i))
迭代更新过程可以表示为:
h_t^i = G([f_t^c, f_{t-1}^{v,i}, h_t^{i-1}])
\Delta_t^i = R(h_t^i), f_t^i = f_t^{i-1} + \Delta_t^i
其中 G 和 R 分别表示ConvGRU层和残差块。
经过 N 次迭代后,我们得到增强的纹理特征:
f_t^T = f_{t-1} + \sum_{i=1}^N \Delta_t^i
该迭代方案通过分阶段解析事件信号中的纹理细节,在经过多轮迭代后能够系统性地强化复杂纹理区域的特征描述。
3.4 特征融合
最后,运动特征 f_t^M 和纹理特征 f_t^T 被融合以生成传播特征 f_t:
f_t = R(I_t^{LR}, [f_t^M, f_t^T, f_t^B])
其中 f_t^B 是来自后向分支的特征。
4 实验和结果
4.1 数据集
实验使用了多个合成数据集和真实世界数据集:
- 人工生成的数据集合:包括Vimeo-90K、REDS、Vid4和Vimeo-90K-T四部分。
- 基于现实世界的场景构建的数据集合:CED(Color Event Camera Dataset)。
4.2 定量结果

通过在多个公开数据集上的实验结果表明,在PSNR、SSIM以及LPIPS等关键指标上进行比较分析后发现,EvTexture算法相较于现有方法展现出显著的性能优势。
在Vid4数据集上的实验结果表明,在图像去噪性能(PSNR)方面,本方法较之于最近提出的基于事件的方法EGVSR实现了显著的提升效果(提升了4.67 dB)。此外,在真实世界场景下的CED数据集中进行评估时发现:本方法较之于EGVSR表现出更好的性能(提升了1.83 dB),并且相较于E-VSR这一最先进的视频超分辨率重建方法则展现出显著的优势(提升了3.20 dB)。值得注意的是,在参数规模和计算开销均较低的前提下,在上述两个典型的数据集中本方法均展现出显著的优势(提升了1.63 dB)。
4.3 定性结果
通过视觉对比实验结果表明,在纹理细节重建方面 EvTexture 展现出了良好的性能。具体而言,在树冠和服装表面等细节图案上进行处理后,系统能够有效生成高质量的重建图像。此外,在纹理区域的一致性评估中发现,在时间一致性分析中进一步验证了该方法的有效性。

4.4 消融研究

作者对双分支结构与迭代纹理增强模块展开了全面而深入的消融研究,并成功验证了其有效性。
- 两支并行网络结构:在Vid4数据集上的实验表明,在仅采用纹理增强分支时相比仅使用运动学习分支的方法,在均方误差(dB)指标上实现了2.07分贝的提升。
- 深度递进式的纹理增强机制:该方法中的ConvGRU块设计通过其独特的递进式更新机制显著提升了性能。与直接提取体素网格整体特征的传统方法相比,在基于多级分解策略的迭代更新过程中获得了更好的效果提升幅度(达0.42dB)。
5 不足和未来展望
虽然EvTexture在纹理恢复方面已显示出良好的效果,但仍然存在若干局限性以及进一步优化的空间。
- 极端环境适应性:建议进一步评估该方法在动态变化和昏暗环境等更具挑战性的场景下的适用性与效果。
- 空间分辨率存在不对称性:实际应用中可能存在帧与事件的空间分辨率不一致的情况,请考虑扩展现有方法以应对这一问题。
- 计算性能已有一定优化:尽管EvTexture在参数数量和运行时间方面已有一定优化效果, 但仍存在进一步提升计算性能的潜力。
- 多模态融合技术探索空间较大:未来研究可探索将EvTexture与其他模态(如深度信息)的应用相结合, 以实现超分辨率性能的显著提升。
- 通用性验证需扩展数据集规模:建议在未来研究中扩展数据集规模, 在更多不同类型的测试数据集上进行验证分析, 以全面检验方法的通用性。
6 总结
本文提出了一种创新性解决方案名为EvTexture该解决方案旨在解决视频超分辨率中的纹理恢复问题。通过充分运用事件信号中所蕴含的丰富动态细节EvTexture成功实现了对复杂纹理区域的有效恢复本研究的主要贡献在于
-
提出了基于事件信号特征的新颖算法框架;
-
首个应用事件信号于视频超分辨率的纹理强化过程。
-
该方法采用了双分支结构,并分别对运动学习与教材进行处理。
-
该系统包含了迭代式的教材强化模块,并依次提取并精炼了教材细节。
-
在经过多方面的测试后,该方法实现了显著的性能提升,在复杂且富含细节的场景中表现尤为出色。
该创新性突破不仅促进了视频超分辨率技术的进步,并且为其在计算机视觉领域的应用提供了重要的研究方向。
