传感器融合-数据篇(自动驾驶)
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达

本文是知乎博主黄浴的文章授权转载,请不要自行进行二次转载。原文链接为:https://zhuanlan.zhihu.com/p/109895639
在自动驾驶感知模块中,传感器融合已成为标配。值得注意的是,这里的融合层次有所不同:具体而言,这可能涉及硬件层面(例如禾赛、Innovusion等公司的产品)。除此之外,则可能涉及数据层面(如本讨论的范围)。此外,在任务层面,则包括障碍物检测(obstacle detection)、车道线检测(lane detection)、分割(segmentation)、跟踪(tracking)以及车辆自身定位(localization)等多个方面。
由于某些传感器在基础层面上难以实现有效融合(如摄像头、激光雷达与毫米波雷达),这是因为毫米波雷达虽然具备较低的目标分辨率(难以精确识别目标的具体尺寸和轮廓特征),但在高级融合应用中仍可发挥其优势作用(如目标速度估计、轨迹追踪等)。
本文旨在介绍激光雷达与摄像头数据融合的技术。实际上这是指激光雷达生成的点云在摄像头图像平面上的投影所体现的深度信息与通过图像估计得到的深度信息相结合的具体方法。理论上可以通过将图像估计中的深度信息反向投影至三维空间来整合两种传感器的数据然而这种方法的应用较为有限。原因之一是由于在三维空间中计算误差会被显著放大;另一个原因是三维空间中的点云分析技术尚未像二维图像领域的深度估计那样成熟因此导致实际应用中面临诸多挑战
这一融合思路极为清晰:从图像传感器角度来看,在成本较低的同时具备较高的分辨率能力(可达2K至4K),而相比之下,在激光雷达方面,则呈现出较高的成本、较低的分辨率以及有限的探测距离(尽管其点云测距精确度极高,并显著优于红外/TOF深度传感器),但在室外复杂环境中的抗干扰能力较强。然而作为被动视觉系统的主要_depth_感知手段之一——即图像传感器——却面临着较为明显的缺陷:其_depth_estimation精度不足,并且在稳定性与鲁棒性方面同样存在明显短板(此外,在稳定性和可靠性方面也存在明显不足)。那么能否将激光雷达所生成的稀疏_depth_data与图像传感系统的致密_depth_information进行有效融合?
另外,在处理稀疏深度图时如何使其变得致密是一个值得探讨的话题。目前已有大量研究致力于解决这一问题,并已形成一系列基于图像的方法所探索的方向。当激光雷达测得的点云投影至摄像头成像平面上时,在某些特定条件下会发现:由于某些表面不反射激光而导致成像区域出现‘黑色’现象;此外,在远处街道及背景天际线等区域在图像中呈现缺失现象。这引出另一个重要课题:基于图像的方法进行深度填补或数据补全技术的研究与应用。
为了解决这一问题,必须确保激光雷达与摄像头已实现标定与同步。基于此前提设,在此基础上可以通过高精度算法将激光雷达获取的点云投射至摄像头的工作平面,并在此基础上生成高分辨率深度数据集。
我们在分析时首先采用传统方法作为基础,并随后逐步引入深度学习技术进行优化。近年来后者即深度学习方法的应用频率显著提升。自始至终笔者专注于这一领域研究的就是从2017年开始。深感荣幸的是注意到当时发表的学术论文与我的研究方向高度契合,并且在此之前我已经成功申请了多项专利。
传统方法
可将其视为一个深度图内插问题,在此过程中所采用的方法类似于超分(SR)和上采样(upsampling),但仅需通过RGB图像引入引导模块以辅助重建。
为了达成图像与深度的融合,
视觉信息特征与深度信息特征之间的相关性是必要的。
在激光雷达与摄像头传感器标定与校准的过程中,
这个假设已经被提及,
这里则是将其应用于视觉、深度、表面和体素四个层次上。
在技术上而言,在图像处理领域中可以将其任务划分为两大类:局部法与全局法。这种归纳方式显示了与其他几个经典的计算机视觉问题具有相似特性的问题类型。例如,在光流计算、立体视觉匹配以及图像分割等方面都可作类比比较。
想不想回顾一下图像滤波的发展历程?从均值到高斯再到中点估计的逐步演进过程中, Anisotropic Diffusion 作为局部扩散模型,逐渐被Bilateral 滤波所取代,而Non Local Means 作为另一种全局化的处理方式,也在不断改进中,最终发展出了高效实用的BM3D 滤波技术。那么Joint Bilateral Filtering作为一种替代方案呢?而Guided Image Filtering作为一种先进的技术手段,在这一领域同样发挥着重要作用。
这是一个例子:bilateral filter

再看一个类似的方法:guided image filtering

进一步优化版本:双层内插法。首先,在残差域中进行内插运算;随后,在第二阶段采用前文所述的引导图像滤波技术。

特别需要强调的是近期提出的一种新方法,并基于传统形态学滤波法进行研究,在性能上与当前流行的深度学习CNN技术相媲美。值得参考的是它的流程图:如果您有兴趣进一步查阅文献或资料库中有关该研究及其与CNN方法比较的相关成果,请自行查询。


全局性方法也就是MRF、CRF以及全变异性(TV)等技术,并且还包括字典学习与稀疏编码(dictionary learning and Sparse Coding)。为了避免繁琐的公式复制, 这样就可以直接查看论文题目了。

下一个是Image-Guided Depth Upsampling employing Anisotropic Total Generalized Variation:该技术采用Total Variation(TV),其中ToF-based sensors are commonly used, but LiDAR systems are also applicable. 接着是Semantically Guided Depth Upsampling approaches:这类方法引入 semantic segmentation techniques, 其原理类似于 depth ordering procedures.

将稀疏深度图视为一个需要填补的问题,则归类于另一个领域:基于图像引导的深度填补/复原。
这些技术通常采用全局方法。
例如,“Depth Image Inpainting: Improving Low Rank Matrix Completion with Low Gradient Regularization”

这类方法通过将LiDAR映射至图像平面的稀疏点作为prior或seed进行深度估计校正工作;这类似于一个由这些稀疏点构成的网格结构,在双目视觉配准过程中起到引导和限制作用。
下面这个方法将Disparity Space Image (DSI)的视差范围缩小:

如图方法结合激光雷达点云的投影和立体匹配构成新的prior:

下面介绍深度学习的方法。
深度学习方法
自2017年以来,在相关领域的研究逐步增多。原因之一是自动驾驶技术对传感器融合的关注力度加大了(研究背景);另一方面是随着深度学习在图像估计、分割以及运动估计等领域的广泛应用推动了相关研究工作的推进,并促使他们致力于探索多传感器数据融合的有效方法。
该领域内的第一篇公开研究成果应为2017年9月由MIT Fangchang Ma博士以第一作者身份完成的一篇论文,“Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image”。实际上,在那之前一个月(2017年8月),德国Andreas Geiger研究团队在国际三维视觉会议(3DV)上发表了另一篇具有里程碑意义的论文,“Sparsity Invariant CNN”。
他们的开创性贡献标志着Kitti Vision Benchmark Suite于2018年启动了深度完成与预测竞赛系列。然而/MIT 研究院在当年深度完成领域取得了冠军桂冠。近期(2019年二月)发布的一篇最新研究论文由宾夕法尼亚大学的研究团队撰写,该研究提出了一种名为DFuseNet的技术框架,其核心在于融合RGB图像与稀疏深度数据以实现图像引导的稠密深度完成任务
作为输入的是深度图像及其对应的Mask图。其中后者指的是激光雷达在图像平面上有效点投影所形成的标记图。为此开发了一种称为sparse CNN的新模型架构。该模型架构中稀疏卷积层被定义为:
\text{SparseConv}(C_{in}, C_{out}, kernel, stride=1, padding=0)

结果想证明这种模型比传统CNN模型好:

再次回顾MIT的研究方向。其最初采用的是传统的直接方法:其中分别针对 Kittin 和 NYU Depth Dataset 开发出了不同的模型。

结果看上去不错的:

大约一年后,在这项研究中我们分别提出了基于相邻帧运动连续性的自适应约束自学习算法以及改进型深度估计器,并以此算法作为基础帮助麻省理工学院在KITTI竞赛中夺冠



一种同步推断表面法线与遮挡边界的方法如下所示:该研究思路与基于单一视角深度估计的传统方法具有高度相似性,并被成功应用于Deep Depth Completion of a RGB-D Image这一领域。


该研究来自AR公司的MagicLeap团队所发表的论文,“Estimating Depth from RGB and Sparse Sensing”一文中提出了一种名为Deep Depth Densification(D3)的新模型。

该系统基于RGB图像、深度图以及Mask图作为输入生成了两个特征图,并将这两个特征图融合为一个综合特征map

看看结果:

对于研究工作"Propagating Confidences through CNNs for Sparse Data Regression"而言,我们提出改进方案以优化normalized convolution(NConv)层。在训练过程中,该层通过利用预估得到的置信分数最大化地融合多尺度特征图信息。


该论文探讨了基于3\text{D}激光雷达与立体视觉融合的技术方案,在将 RGB 图像与深度图进行融合之前,主要研究过程包括,在将 RGB 图像与深度图进行融合之前, 首先通过多个卷积层提取关键特征.

看结果:其中第三行是立体视觉算法SGM的结果,第四行才是该方法的。

法国INRIA的研究工作涉及CNNs在稀疏和密集数据中的应用,并针对深度完成和语义分割任务展开研究。论文中未采用mask输入方案(研究指出其原因在于逐层传播导致失效),并同时将语义分割作为另一个训练目标引入。

作者指出,在CNN方法中将RGB图像与深度图在早期阶段直接融合作为输入时的效果较弱。这一做法与任务层融合时采用的晚一些融合策略形成对比。这被视为其研究的第二个重要发现,并与前一篇论文的观点高度一致。

看结果:

在两篇论文发表之前的一年里,在专利申请工作中已经对基于RGB图像和深度图结合的两种CNN模型方法进行了详细阐述,并进一步优化了基于CRF(马尔可夫随机场)的融合模型思路。这一方法起源于传统机器学习的基础框架(如
有一篇名为《Learn Morphological Operators for Depth Completion》的文章同样采用了基于图像分割的方法辅助深度完成任务。该文章创新性地引入了一种名为Contra-harmonic Mean Filter layer的组件,其功能类似于形态学算子(structuring element)。该组件被集成到一个U-Net架构中:


该研究团队发表的论文"DeepLiDAR: Deep Surface Normal Guided Depth Prediction from LiDAR and Color Image"提出了一种创新方法。在这一过程中,是否需要输入mask图?这一问题值得商榷吗?也即是否有其他观点存在?此外,在深度预测方面还引入了surface normal图来增强预测效果,并特别地,在目标驱动的方向上引入了注意力机制。


看看结果:

该论文提出了一种两阶段深度估计学习方法,在视觉计算领域具有重要研究价值。其中第一阶段是基于条件先验网络(Conditional Prior Network, CPN)构建的深度估计模块,在此基础上第二阶段引入了深度完成网络(Depth Completion Network, DCN)进行细节修复与优化。该方法通过融合单幅图像和稀疏深度信息实现了深度后验估计。

该论文是近期发布的一项创新性研究——DFuseNet: RGB与稀疏深度融合驱动图像引导密集深度完成。该模型采用Spatial Pyramid Pooling (SPP)模块构建深度编码器与图像编码器,在训练阶段并非必须依赖立体数据——同样适用于单目估计的方法进行学习。

这里是SPP的结构:

下面结果(2-3行)第2行是单目图像训练的,第3行是双目立体图像训练的:

在该领域中,研究者们是从基于暴力训练的模型开始的,并逐步引入了几何约束条件,并采用联合训练的方式进行探索。这一思路逐渐被学术界所认可,并认为将RGB和depth图像分别训练特征图谱是较为合理的做法。然而,在是否采用Mask图作为输入方案的问题上仍存疑虑。
上述内容,如有侵犯版权,请联系作者,会自行删文。
推荐阅读:
深度解析|3D视觉系统化学习框架与路径规划
该平台提供一份详尽的3D视觉系统学习资源归纳(附有书籍、网站及视频教程下载链接)
这是一个最详尽的3D视觉数据集归纳总结页面
该系统通过集成先进的机器人控制技术和多模态数据处理方法进行性能评估与优化研究
综述:三维面部重构技术
综述:三维面部重构技术
综述:三维面部重构技术
那些时光里,在计算机视觉领域内的竞赛活动中留下了我们共同的学习轨迹
综述:基于深度学习的技术实现缺陷检测研究
深度学习可用于用于研究与应用于三维环境重建中的技术研究
综述
综述
大盘点
大盘点
**重磅!**3DCVer-知识星球和学术交流群已成立
3D视觉领域入门到精通的学习平台
3D视觉领域入门到精通的学习平台
3D视觉领域入门到精通的学习平台
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题
诚邀您加入我们的公众号读者群以便与同行深入交流。目前我们拥有以下专业微信群可供选择:包括但不限于3D视觉前沿动态CV与深度学习SLAM技术探讨三维重建技术应用点云处理方法自动驾驶技术交流CV入门学习医疗影像分析缺陷检测算法行人重识别技术研究目标跟踪优化视觉产品开发以及视觉竞赛等特色群组。请您扫描下方二维码加入,并在入群备注中标明"研究方向+学校/公司+昵称"例如"3D视觉 + 上海交大 + 静静"等格式以确保您的入群信息准确无误。按照指定方向我们会根据您的研究领域为您匹配合适的微信群期待您的加入!如需进行原创投稿也欢迎您随时联系。

▲长按加群或投稿
