High Speed and High Dynamic Range Video with an Event Camera论文阅读笔记
叠甲:作为一名普通的三本学生,在专业知识方面还有待提升。这些内容是我日常学习的笔记,在整体来看并没有多大的参考意义。在整理过程中可能会存在一些不足之处,请学长学姐们能够多多包涵和指正。
一、数据
由于缺乏标配有真实 ground truth 图像的大量 event 数据集,在合成 event 数据时训练该网络模型(此模型可泛化至真实 event 数据)。随后利用 Event Synthesizer 模型(ESIM)以高帧率沿相机运动轨迹生成图像序列,并为每个像素点进行亮度信号插值处理,从而近似模拟出连续强度信号的需求。event 数据的具体表示方法见下文

对每个模拟场景进行不同正反差阈值集合以及负反差阈值集合的仿真复制以拓展训练数据来源
二、网络体系结构(核心)
一种基于循环机制全卷积设计(unet详解_UNet解释及Python实现_weixin_39747807的博客-博客)

需要注意的是:
最初未将最终的K个重构图像直接馈送给网络而维护了一个内部状态该系统能够从任意长度的历史事件张量中逐步更新其内部状态而非仅依赖于最近获取的K张图像与传统的RNN架构不同地采用堆叠型ConvLSTM单元从而避免了长时间序列训练过程中梯度消失的问题显著提升了该模型对具有不同长度事件窗口的数据处理能力相较于较短的时间序列(如L¼8)本方法能够有效处理更为复杂的较长时间序列(如L¼40)
三、损失
使用了图像重建损失和时间一致性损失的组合

图像是损失:使用ImageNet预训练的VGG网络传播重建与目标图,并考虑了不同层次平均VGG特征间的差异。此外,在最小化LPIPS的过程中, 该网络能够有效地赋予其具备自然统计特性(即其各层次均近似于真实自然图)。
时间损失(新颖):

四、效果
定量

定性

五、应用(篇幅很长)
该模型可用于应用于高帧率的视频合成以及支持高动态范围和彩色视频重建的技术(如Color-DAVIS346)
可直接应用于下游任务中的时间合成视频,在目标分类及视觉惯性测程法方面表现优异
六、总结
通过模拟事件数据训练开发了一种新型循环卷积网络架构来实现将单个event映射至连续视频流的过程。具体而言,在真实世界场景下的重建效果显著超过现有最先进的方法(至少提升了20%),并能够通过仅利用单个event序列生成高质量高帧率(high frame rate)、大动态范围(high dynamic range)以及彩色视频(colorful video)。我们最终呈现了该架构如何起到将event cameras与主流计算机视觉技术之间建立有效桥梁的作用。
七、结语
能坐得住看天书已经不容易了,看来还有很多知识要自学,继续努力。
