论文阅读:Neural Scene Flow Prior
目录
概要
Motivation
整体架构流程
技术细节
小结
论文地址: [2111.01253] Neural Scene Flow Prior (arxiv.org)
代码地址:GitHub - Lilac-Lee/Neural_Scene_Flow_Prior: Neural Scene Flow Prior (NeurIPS 2021 spotlight)
概要
在深度学习革命之前,许多感知算法依赖于运行时优化和强先验/正则化惩罚。计算机视觉中的一个典型例子是光流和场景流。监督学习大大减少了对显式正则化的需求,但需要大量标记数据来捕获先验统计信息,这对于许多问题并不总是容易获得。尽管优化用于学习神经网络,但在运行时网络权重是冻结的。因此,这些学习解决方案是特定领域的,不能很好地推广到其他统计不同的场景。本文重新审视了依赖于运行时优化和强正则化的场景流问题。一个核心创新是引入了神经场景流先验,使用神经网络架构作为一种新的隐式正则化器。与基于学习的场景流方法不同,优化发生在运行时,无需离线数据集,使其在新环境中(如自动驾驶)理想。本文展示了基于多层感知器(MLP)架构的场景流先验可以达到竞争性的结果,并且能够估计点云序列中的稠密长期对应关系。
Motivation
- 基于学习的模型在场景流问题上取得了最先进的成果,但这些模型严重依赖于大规模数据来捕获先验知识,而这些数据并不总是容易获得。
- 场景流注释昂贵,大多数方法在合成和不现实的场景上训练,然后在小规模的真实数据集上微调,导致对未见过的输入泛化能力差。
- 实际应用如自动驾驶需要在统计上不同的场景中工作。
整体架构流程
- 问题定义 :给定两个时间点采样的3D点云S1和S2,目标是优化场景流F,使两个点云之间的距离最小化,并使用正则化项C约束运动场。
- 优化目标 :通过最小化点云之间的距离和正则化项,优化场景流F。
- 神经场景流先验 :使用神经网络作为隐式正则化器,通过神经网络结构本身捕获场景流先验,无需学习。输入是3D点,输出是正则化的场景流。
- 双向一致性正则化 :引入一个额外的正则化项,确保前向流和后向流相似,以提高场景流估计。
- 网络架构 :使用带有ReLU激活的多层感知器(MLP)作为网络结构,优化目标函数。
技术细节
- 距离函数 :使用Chamfer距离计算点云之间的距离。
- 网络参数优化 :通过梯度下降技术优化神经网络参数,使用自动微分框架。
- 神经网络架构 :实验部分通过改变隐藏层和单元数量,展示神经先验架构如何影响性能。
- 与现有方法对比 :与最新的监督和自监督方法相比,本文方法使用更少的参数,且在大型场景中实现了高保真度结果。

失败案例的例子。部分场景来自FlyingThings3D。基于最近邻的损失函数在处理大量缺失部分、遮挡和错误的对应关系时可能会失败。绿色点是目标,红色点是估计场景流偏移的蓝点(黄色箭头)。

使用所提出方法的场景流估计的定性示例。复杂且高度动态的驾驶场景来自Argoverse场景流数据集。该方法估计的场景流接近于真实的场景流。用在FlyingThings3D上训练并在KITTI场景流数据集上微调的有监督FlowNet3D方法进行了预测。请注意,当对分布外样本进行推理时,场景流如何偏离真实情况。场景流颜色编码流向量的大小(颜色强度)和方向(角度)。例如,紫色的车辆正朝着东北方向行驶。

示例显示了估计的场景流和由神经先验给出的连续流场(底部)如何随着优化收敛到一个解决方案而变化。展示了Argoverse场景流中的俯视图动态驾驶场景。场景流颜色编码流向量的大小(颜色强度)和方向(角度)。例如,紫色的车辆正朝着东北方向行驶。红色箭头表示自动驾驶车辆行驶的位置和方向,它会停下来,等待行人过马路。请注意,在迭代2k时,预测的场景流与真实值非常接近。在迭代0时,给定神经先验的随机初始化,场景流是随机的。因此随机方向的数量级非常小。随着优化的进行,流场得到了更好的约束。解释流场的一种简单方法是想象在连续场景流场的任何位置采样一点,以恢复估计的流矢量。例如,假设在迭代2k时(右下角的绿色箭头)对流场中橙色区域周围采样一个点。流矢量的方向将以特定的幅度指向东南,类似于橙色区域中的车辆。

场景流集成的例子,以密实Argoverse激光雷达点云。左边的列和中间的列分别是点云的顶部视图和正面视图。最右边的一列显示了投影到图像上的累积点云。注意,当严格累积点云(中间行)时,动态对象上的涂抹效果。使用我们的神经先验进行积累,很好地产生了更密集的点云,同时照顾到场景中的所有动态对象。这里,刚性意味着使用刚性配准方法(即ICP)进行点云积累,其中使用刚性6自由度姿态进行配准。
小结
本文提出了一种基于神经网络的场景流先验方法,通过使用神经网络结构本身作为隐式正则化器,实现了在没有离线数据集的情况下对场景流的正则化。该方法在实际应用中表现出色,具有较少的参数和较低的计算复杂度,同时在点云序列中实现了更好的场景流插值。
