计算成像论文速递 | ICCV 2023, Enhancing Non-line-of-sight Imaging via Learnable Inverse Kernel and Attention
发布时间
阅读量:
阅读量
注1: 本文属于"最新论文速览"系列中的一份子,并旨在简洁明了地阐述和解析最in的顶级会议与期刊论文。
Improving Non-line-of-sight Imaging Using an Invertible Kernel and Attention Modules

该研究构建了一个完整的端到端深度学习架构。该架构基于频域分析技术,在可逆内核和注意力机制上进行了优化设计,并通过多维度数据验证其高效性。
简介
- 非视距成像(NLOS)主要通过脉冲激光与时间分辨检测器协同作用来实现对隐藏物体的成像。
- 基于物理模型的方法通常依赖于三次反射与无自遮挡假设来进行简化;然而,在面对深度变化较大的物体时,这些假设会导致高频信息难以准确重建。
- 基于学习的方法能够规避这些传统假定;但因神经网络存在频域偏置,在未经特定优化的情况下难以实现细节重建。
- 我们提出了一种创新性解决方案;该方法通过引入可学习逆内核及注意力机制,在频域中实现问题的有效解决。

相关工作
- 物理建模算法框架:通过优化光传播模型使得问题得以线性求解。
- 深度学习算法:通过训练网络捕获图像特征从而缓解因采样不足导致的信息缺失。
- 然而现有方案难以有效应对针对大范围深度变化时频带外细节丢失的问题。
方法
开发了一个完整的深度学习架构,在频域上进行操作,并且其原理与物理方法相一致。

基于3D卷积神经网络(CNN)和快速傅立叶变换(FFT),从原始NLOS瞬变中获取目标特征(F-features)。
在频域中使其具有可学习性,并通过自注意力机制和互注意力机制指导网络将其先验知识嵌入到内核的低频和高频成分中。
通过提取F-features和学习得到的逆内核进行乘法运算并使用反FFT计算空间域特征(S-features),类似物理领域的方法。
S-features适合端到端训练各种下游任务,如2D成像、深度重建和对象分类。

实现
对三个合成数据集进行评估,并补充了额外的实验数据。对比于物理和学习两种方法,在深度变化较大的对象中表现优异,并在重建高频细节方面尤为出色。该系统在实际数据上表现出良好的性能,并涵盖分类与深度重建等多个应用场景。


结论
- 开发了一个全面的端到端深度学习框架;该框架通过频域内的逆内核与注意力机制训练来恢复高频图像细节。尤其适用于那些具有显著_depth_变化的对象。
- 对多个数据集与不同任务进行了评估;其性能优于传统物理模型与机器学习方法。尤其针对那些具有显著结构差异的目标。
- 该框架在实验层面表现出良好的适应性;适用于二维图像重构、三维结构恢复以及多类别分类等多种应用场景。
全部评论 (0)
还没有任何评论哟~
