自动驾驶⻋辆环境感知:多传感器融合
目录
一、多传感器融合技术概述
二、基于传统方法的多传感器融合
三、基于深度学习的视觉和LiDAR的目标级融合
四、基于深度学习的视觉和LiDAR数据的前融合方法
概念介绍
同步和配准
时间同步
标定
摄像机内参标定(使用OpenCV)
摄像机与LiDAR外参标定
空间同步
具体应用
4.1 BEV-LaneDet
4.2 BEVFormer v2
相关资料
一、多传感器融合技术概述
为什么需要多传感器融合?
- 自动驾驶主要依靠:集成型传感系统 + 智能计算平台。相比而言,在算法优化方面存在较大提升空间。
- 单一传感设备在感知信息方面存在局限性、精度不高且覆盖范围有限。相比之下,在智能化水平上仍需进一步突破。
- 多种先进的探测设备协同工作形成汽车感知系统。每种探测设备各有特色,在特定任务目标下发挥相应作用。
二、基于传统方法的多传感器融合
- 基于明确设定的规则与物理模型:传统的传感器融合方法通常建立在明确设定的基础性规律与物理机制上。它们通过几何关系与统计分析的方法来整合来自不同传感器的数据源。例如,在多传感器数据融合方面具有显著效果的是卡尔曼滤波器与粒子滤波器等技术。
- 人工设计特征提取与匹配算法:传统方法主要依赖于人工设计的特征提取过程以及匹配算法。
这些过程不仅还需要专家知识的支持,并且在复杂场景中可能会表现出较差的效果。
- 人工设计特征提取与匹配算法:传统方法主要依赖于人工设计的特征提取过程以及匹配算法。
三、基于深度学习的视觉和LiDAR的目标级融合
定义 :
高级别融合机制是在完成各传感器数据处理并输出高层次目标检测结果后实施的整合过程。这一过程意味着视觉和LiDAR系统分别执行目标检测任务,并对所得结果进行整合以形成最终的 fused output.
流程 :
- 单独检测:利用深度学习模型分别对摄像机图像和LiDAR数据进行单独处理(包括目标分类与定位的具体内容)。
- 信息融合:通过视觉传感器采集的数据与LiDAR传感器采集的数据进行信息融合。通常采用的方法包括最近邻匹配、IoU阈值等方法对两组数据进行配准与整合,并基于此计算出最终的目标感知信息。
优点 :
- 分阶段处理:可以通过分别对视觉信息和LiDAR数据进行优化来提升效果。
- 效率高且流程简捷:在融合过程中无需过多复杂的计算即可完成任务。
缺点 :
- 信息利用率不足:未能在早期阶段整合两个传感器的数据而导致关键信息的遗漏。
- 处理精度受限:独立处理可能导致某些目标仅被一个传感器探测到而另一个传感器未能探测到,从而影响最终融合结果的准确性。
四、基于深度学习的视觉和LiDAR数据的前融合方法
概念介绍
定义 :
在目标检测之前,在对各自传感器数据进行目标检测之前,在特征提取阶段之前,在感知器数据处理开始时,在感知器数据预处理阶段,在感知器数据分析启动时,在感知器信息收集初期,在感知器信号接收过程中,在感知器输入准备阶段,在感知器输出生成前,在感知器处理启动时,在感知器工作流程开始时,在感知器任务执行初期
流程 :
- 数据预处理:对视觉数据与LiDAR数据实施同步处理,并通过精确定位使其实现时空一致性。
- 特征提取与融合:采用深度学习模型对视觉与LiDAR信息分别提取并融合其特征特性;借助多模态神经网络架构能够同时接收两种源信息并构建联合表征。
- 目标检测:基于综合优化后的表征参数序列执行目标识别任务;系统将输出相应的定位结果作为最终反馈。
优点 :
- 信息最大化利用:在初期阶段整合多源数据以充分挖掘信息潜力
- 显著提升的检测性能:借助联合特征表示方法模型能够更加准确地解析场景中的目标特征
缺点 :
- 由于需要同时处理和融合来自两个不同传感器的数据而导致的计算量大。
- 在设计与训练多模态融合网络时所涉及的技术难度较高。
同步和配准
时间同步
该研究主要涉及对多传感器数据的时间同步化处理过程,旨在实现其在统一的时间基准下的对应关系保持一致。
标定
进行标定是实现空间同步的基础。在完成对各传感器的内参数与外参数标定时,在完成对各传感器的内参数与外参数标定时,在完成对各传感器的内参数与外参数标定时,在完成对各传感器的内参数与外参数标定时,在完成对各传感器的内参数与外参数标定时,在完成对各传感器的内参数与外参数标定时,在完成对各 sensors 的 inner parameters and external parameters 的定位后即可实现 space synchronization. 通常情况下涉及完成对 each sensor 的自身 parameter 以及它们之间相对位置与 direction 的内外 parameter estimation.
摄像机内参标定(使用OpenCV)
- 摄像机内参标定 :通过棋盘格或其他标准设备成像多帧画面,并结合 OpenCV 中的张正友校准方法推导出摄像头的内参数矩阵及畸变因子。
- LiDAR内参标定 :与相机不同的是 LiDAR 标准配置较为简单明了;不过为确保其准确度与可靠性,在实际应用中需严格校准其安装位置与扫描角度。
import cv2
import numpy as np
# 读取标定图像
images = [cv2.imread(image_path) for image_path in image_paths]
# 设置棋盘格大小
pattern_size = (9, 6)
obj_points = []
img_points = []
# 准备棋盘格的世界坐标系下的点
objp = np.zeros((np.prod(pattern_size), 3), np.float32)
objp[:, :2] = np.mgrid[0:pattern_size[0], 0:pattern_size[1]].T.reshape(-1, 2)
# 提取角点
for img in images:
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
ret, corners = cv2.findChessboardCorners(gray, pattern_size)
if ret:
img_points.append(corners)
obj_points.append(objp)
# 进行标定
ret, camera_matrix, dist_coeffs, rvecs, tvecs = cv2.calibrateCamera(obj_points, img_points, gray.shape[::-1], None, None)
print("相机内参矩阵:", camera_matrix)
print("畸变系数:", dist_coeffs)
摄像机与LiDAR外参标定
- 采用基于ROS的操作系统进行数据采集。
- 利用PCL库对LiDAR点云数据进行处理。
- 利用ICP算法对特征点进行配准。
#include <pcl/point_cloud.h>
#include <pcl/io/pcd_io.h>
#include <pcl/registration/icp.h>
pcl::PointCloud<pcl::PointXYZ>::Ptr cloud_source (new pcl::PointCloud<pcl::PointXYZ>);
pcl::PointCloud<pcl::PointXYZ>::Ptr cloud_target (new pcl::PointCloud<pcl::PointXYZ>);
// 加载点云数据
pcl::io::loadPCDFile ("source.pcd", *cloud_source);
pcl::io::loadPCDFile ("target.pcd", *cloud_target);
// ICP配准
pcl::IterativeClosestPoint<pcl::PointXYZ, pcl::PointXYZ> icp;
icp.setInputSource(cloud_source);
icp.setInputTarget(cloud_target);
pcl::PointCloud<pcl::PointXYZ> Final;
icp.align(Final);
std::cout << "Has converged: " << icp.hasConverged() << " score: " <<
icp.getFitnessScore() << std::endl;
std::cout << "变换矩阵:\n" << icp.getFinalTransformation() << std::endl;
空间同步
空间对齐算法即为一种将不同传感器数据投影至统一的空间坐标系统的操作方法,其目的是实现各传感器数据的空间一致性。
具体应用
视域图技术(Bird's-Eye View, 鸟瞰视角)属于基于深度学习的前向融合方法。具体而言,在使用各自传感器数据进行目标检测之前,在特征提取阶段就将视觉(如摄像头)和LiDAR数据进行了融合。
4.1 BEV-LaneDet
a Simple and Effective 3D Lane Detection Baseline
本文的核心在于介绍了一种名为BeV-lanedet的高效且强大的单目三维车道检测技术。该技术主要包含三个创新性特征:
- 虚拟摄像机组件:该组件通过协调一致地统一各辆车辆摄像机的内外参数设置, 保证了各摄像头间的空间布局一致性, 进而提升了学习效果。
- 关键点表示技术:本研究开发了一种简洁有效的3D车道表示方法, 其显著优势在于能够更好地适应复杂的3D道路环境。
- 空间变换金字塔设计:这是一种高效且便于部署的模块化设计, 主要功能是将多尺度前视特征信息转化为适合鸟瞰视角(BEV)处理的形式。
研究结果显示,在F-score这一关键评估指标上,本研究提出的Bev-lanedet方案显著优于现有最先进的方案。具体而言,在OpenLane基准数据集上的准确率超出10.6%,而在Apollo 3D合成测试集中,在准确率上超出5.9%。此外,本方法实现了185帧每秒(FPS)的高效检测速度。这些实验结果进一步突出了该方法的实时性与计算效率优势,并特别适合应用于自动驾驶场景中。

4.2 BEVFormer v2
Adaptation of Modern Image Backbones to Top-Down Perspective-Based Recognition employing a novel form of Perspective Supervision.
本研究提出了一种基于鸟瞰视角的新型BEV检测器研究,并命名为BEVFormer++。该方法通过设计透视监督机制使模型具备更强的适应性,在保持原有框架优势的同时实现了对复杂场景的理解能力提升。本方法旨在解决现有技术中的关键问题,并以显著提升检测效率作为主要目标。
透视监督的引入 :该论文提出了一种基于透视监督(perspective supervision)的方法来引导图像骨干网络学习三维知识,并帮助其实现对复杂场景的理解与处理能力。通过这种方式能够有效克服贝维检测器在处理复杂三维结构时所面临的技术难题。此外,在应用过程中需要注意的是这种方法并非完全依赖于传统的bev检测器设计原则
基于双阶段的BEV探测系统:本研究开发了一种基于双阶段的BEV探测系统(BEVFormer v2)。第一阶段采用投影感知技术识别候选物体区域,并通过编码机制将其转化为目标查询表示;随后将这些目标查询与第二阶段的学习得到的目标表示进行融合,并整合上述信息完成目标边界框和类别信息的预测。
本研究通过nuScenes数据集上的多轮测试对所提方法进行了系统验证,并从多个指标维度评估了其实验效果

相关资料
该平台发布了一个关于BEV感知技术的开源数据集分享;该资源旨在为研究人员提供高质量的数据集以支持其开发工作
