论文笔记_CV_AD_Visual Perception for Autonomous Driving
目录
1 论文基本信息
2 主要内容
2.1 贡献与创新点
2.2 装备示意图
2.3 城市街道行驶时,相机的外部标定
2.4 使用立体相机,进行障碍物检测
2.4.1 概括
2.4.2 当前发展(state-of-the-art)
2.4.3 使用 Stereo Camera 进行障碍物检测 (Obstacle Detection)
2.4.4 涉及的知识域
2.5 红绿灯状态的识别
2.6 视觉自我运动估计(Visual Ego-Motion Estimation)
2.6.1 概括
2.6.2 当前发展(state-of-the-art)
2.6.3 涉及的知识域
2.7 Conclusions
3 经典引用
3.1 velodyne 激光雷达
3.2 相机标定
3.3 避障
3.4 地图表示
3.5 VO 视觉测量
3.6 卡尔曼滤波
1 论文基本信息
- 出处:博士论文,Freie Universität Berlin (柏林自由大学)
在2012年,柏林自由大学成功入选德国精英教育机构之列。
而在2020年,该高校则在QS全球高等教育机构排名中位居第130名。
- 年份:2020.1
- 作者: Tobias Langner
2 主要内容
2.1 贡献与创新点
- 1. 开发了一种实时在线标定技术, 用于计算安装于车辆上的摄像头旋转参数;
- 2. 研究人员设计了一种基于嵌入式立体摄像头实现三维障碍物检测的技术方案;
- 3. 该系统采用两个独立的单眼摄像头, 并配合一张标有全球交通灯位置的标准地图, 实现了对交通信号灯位置识别的应用;
- 4. 在柏林展示了这项技术的成功展示过程, 同时也获得了"2019迪拜世界无人驾驶交通挑战赛"的成功认可;
- 5. 研究团队实现了对障碍物感知功能, 并结合光流信息分析移动物体的速度矢量, 进而开发了一种用于计算小车行驶的速度与转向幅度的方法;
- 6. 该研究工作通过创新性地结合空间深度测量与运动分析算法, 提出了一个完整的智能驾驶辅助系统解决方案。
2.2 装备示意图
- 整车

- 单相机:交通灯检测,相机校正

- 立体相机:障碍物检测

2.3 城市街道行驶时,相机的外部标定
- 概括:不依赖标定物,在图像处理中采用光流算法来估计相机的姿态角。
- 方式:
- 利用平行线作为透视线索,
- 利用运动方向场作为透视线索,
- 通过立体深度信息实现校正。
- 方式:
2.4 使用立体相机,进行障碍物检测
2.4.1 概括
- 使用视觉技术,在FPGA与CPU协同平台上完成障碍物体检测及空旷区域(free space)评估。
- 现状:目前大部分智能汽车主要采用LIDAR-based的障碍物检测和跟踪系统。
- 缺点:1)成本较高;2)难以实现高精度的空间分辨率测量(spatial resolution)。
- 立体相机的深度测量精度的不确定性随着观测距离增大而显著提高。
2.4.2 当前发展(state-of-the-art)
- Perrollaz等人使用高斯分布对传感器噪声进行建模,计算每个3D点在多个占用网格单元上的加权更新。
- 占用网格 是三维点在参考平面上的网格单元上的投影。潜在障碍物的高度,是由网格单元相对于参考平面的累积高度,推断出来的。
- 路面近似:
- 平坦路面的假设是不充分的,更复杂的路面模型是必要的;
- Wedel[20]等人,用b样条,来近似道路的高度轮廓;
- Oniga[21]等人使用的二次曲面,来近似道路的高度轮廓。
- Schauwecker[22]等人的避免了参考平面的概念,并提出了一种体积方法,从测量中产生体素。
- 他们[21,22]还考虑了可见度方面,并根据高斯分布模型更新体素占用率。
- 对比:
- 激光雷达传感器的经典算法,在非结构化的三维点云上工作,并独立地更新每个三维点的单元;
- 视差图像(Disparity images)是结构化的,因为三维近邻,意味着在图像坐标接近。
- 因此,对视差图像进行分割,然后更新每个片段的单元格通常是有益的。
- 这样,相邻点的相关性,可以滤除立体匹配算法引入的噪声和误差。
- 视差分割( disparity segmentation**)** * 如果立体摄像机与路面平行安装,视差分割特别简单。然后,与道路正交的物体会有恒定的视差。
- u-v视差法,是第一个用这种方法分析视差图的方法。
- 它通过计算沿两个图像轴的视差分布直方图,来检测地面和垂直障碍物。
- Li等人[23],对u-v方法进行了改进,通过跟踪连续帧中的特征点,来分割独立运动的对象,来生成已占用网格单元的速度信息。
- Mar´ın-Plaza[24],结合u-v-disparity与射线追踪(ray-tracing),计算每个网格单元阻塞概率。
- Yu等人[24],利用Dempster-Shafer理论将u-视差和v-视差空间融合,建立了传感器的不确定性模型。
- Cordts等人提出了所谓的 stixel world,这是一个发现垂直条纹(几乎)恒定差异的细分。定义了可驱动空间的边界,并通过动态规划算法对单个离群点进行了平滑处理。
- Harms等人[27],利用垂直视差梯度,和与地平面的估计角度偏差,构建概率占用网格 (probabilistic occupancy grid)。
- Badino等人通过[28]跟踪视差的速度,生成随机占用网格(stochastic occupancy grid)。
- u-v视差法,是第一个用这种方法分析视差图的方法。
2.4.3 使用 Stereo Camera 进行障碍物检测 (Obstacle Detection)
- 立体视觉三维点云在噪声、准确度和精度等方面与激光雷达点云存在显著差异。
- 本文提出了一种障碍物检测系统,在二维/视差空间中运行,并且引入了三维约束条件。
- 视差图像中的邻近像素具有很强的相关性,因为它们很可能属于同一对象。
- 通过这种方法能够有效地去除由不匹配或遮挡区域引起的异常值;
- 基于对极几何学和视差图计算的基本理论基础;
- 同时将检测到的结果与我们测试车上的Velodyne激光扫描仪的测量数据进行了对比分析。
- 视差图像中的邻近像素具有很强的相关性,因为它们很可能属于同一对象。
- 本文提出了一种障碍物检测系统,在二维/视差空间中运行,并且引入了三维约束条件。
2.4.4 涉及的知识域
- 立体视觉的的对极几何 *

- 极线约(Epipolar Constraints)的代数表达式
- 基于视图对应的空间重建问题
- 在另一视角中定位这些特征的三维位置。
- 视差与深度之间的关系
- 由于所有对应点位于同一平面(即具有相同的y坐标),因此仅存在水平偏移量(视差)与深度成反比的关系。
- 三维图像分割任务
- 垂直等深条纹检测(V-Stripes)算法
- 沿局部汽车坐标系中的纵向方向以恒定间距探测这些条纹。
- v形条纹横向合并过程
- 通过将相邻区域内的多个垂直等深条纹整合到同一水平线上来完成这一过程。
- 填充占位网格

- 总结: * 相机的深度测量噪声,与 Velodyne laser scanner 对比,相当高。
- JOCOMMENT: can try to do something.
- 逐帧目标检测的位置不确定性,随目标距离的增大,而增大。
- 图像中的目标边界 ,比距离测量更加鲁棒!
- 因为深度边缘,为分割提供了很强的先验知识。
- 因此,基于图像的障碍物跟踪 ,比三维跟踪(3D tracking)更稳定。
- 通过过滤随时间变化的距离估计,可以改进静态对象的定位。
2.5 红绿灯状态的识别
原理流程图

- 总结:
- 条件:
- 识别由一张标注了红绿灯位置及其车道关联信息的地图;
- 配备两个单目摄像机。
- 街道上交通拥挤时会遇到大型车辆可能阻挡交通灯视野;
- 光源分为两类:一种是LED光源;另一种是由镜子聚焦的传统灯泡;
- LED几乎无限制地向外辐射明亮光线;
- 而传统光源则只能产生一个狭窄的高光锥。
- 主要挑战:
- 其他车辆可能导致视线被阻挡;
- 部分非LED交通信号灯具备高亮度但受限于光束宽度。
2.6 视觉自我运动估计(Visual Ego-Motion Estimation)
2.6.1 概括
- 目的:
- 采用集成化的立体视觉系统 ,结合光流分割算法与视差图分析的方法,
- 检测并排除移动物体的影响 ,以车速和转弯速率作为评估指标。
- 思想:
- 单目自运动估计面临的主要困难在于外部物体的独立运动,
- 通过集成化的立体视觉系统 同步获取前后两个画面 ,从中提取自身运动特征。
2.6.2 当前发展(state-of-the-art)
- 相关研究:
- Nister等人[49],从立体图像中提取 Harris corners,并用归一化互相关窗口进行匹配;
- 随着时间的推移,对三角化的3D点进行跟踪,并使用RANSAC方案和迭代,细化生成姿态。
- 作者进行了地面车辆测试,并报告了1%到2%的测量距离的相对误差。
- Agrawal等人提出了一种结合低成本GPS接收机的立体相机定位方法;
- 作者从跟踪的三组点生成运动假设,并使用RANSAC进行评估。
- 如果视差空间单应性在第二视图上产生较低的平均重投影误差,则转换被认为是一个离群点。
- 其实验结果表明,相对距离误差在2%到5%之间。
- Howard等人[51],提出了一种估计连续立体图像帧间的自我运动的算法;
- 并报告了其400米长的路线,相对距离误差为0.25%。
- Talukder等人[52],提出了一种将稠密的立体视差图与稠密的光流相结合的方法。
- Badino等人通过跟踪3D点随时间的变化,从视差图构建了一个3D运动场。
- 将逐帧运动估计与前一帧进行配准,提高了运动估计的鲁棒性和准确性。
- 其试验结果表明,700米的相对位移误差为4.5%。
- Nister等人[49],从立体图像中提取 Harris corners,并用归一化互相关窗口进行匹配;
- 概念:
- 光流
- 运动场(the motion field),是描述三维点相对于摄像机的运动的向量场。
- 除了光照变化外,运动流是引起图像强度变化 的主要原因,也称为光流。
- 为什么使用立体相机?
- 在静态场景中,光流完全是由摄像机的运动引起的。独立运动物体的存在,会引起额外的光流。
- 在单目摄像机中,这两个分量不易分离,这给视觉自运动估计带来了挑战。
- 光流
2.6.3 涉及的知识域
- 运动投影

* 速度:为点P在摄像机中连续投影位置的差值

- 通过光流与视差图的结合实现运动场景的重建
- 其投影可通过光流进行测量,并定义为像素强度随时间的变化。
- 基于亮度-空间恒定性的假设

- 假设运动物体在其连续帧之间的投影强度保持恒定。这种假设是对小时间间隔内光照条件变化较小这一合理简化的体现。
- 基于OpenCV的光流实现方法,在关键点描述符上计算了稀疏光流。
- 通过立体深度测量技术增强后的光流信息构建了一个稀疏三维运动场模型。
- 原理图:如图1所示。

- 使用卡尔曼滤波进行速度平滑
- 效果图:

- 总结: * 该算法利用立体深度测量来识别属于远三维点的光流。
- 根据中心投影方程,这种光流几乎完全是由相机的旋转运动引起的。
- 这种光流分离,被用来分别估计相机在连续帧之间的,旋转和平移部分。
- 实验结果表明,纵向速度(longitudinal speed)和偏航率(yaw rate)的估计是准确的,横向速度(lateral speed)的估计是合理的。
- 由于高频振荡,俯仰和横滚(Pitch and roll)估计是充满噪音的。
2.7 Conclusions
本文提出了一种新型标定方法,
能够从零开始标定或逐步优化车载摄像头的旋转参数。
该方法不受校准工具(calibration tool)限制,
而是基于测试驾驶过程中的图像数据进行计算。
该方法利用了汽车在运行中必须遵循的动力学约束,
从而形成了独特的光流特征模式。
通过实验对比不同安装方案,
该方法展示了良好的收敛性和稳定性。
障碍物感知框架
通过嵌入式深度传感器生成障碍物与空闲空间的三维表示。
该系统执行了一种混合型二维(2D)与三维(3D)分割算法,
结合图像空间与3D空间中的启发式约束条件。(创新点)
基于LIDAR构建的占用车网格显示:
可驾驶区域边界具有高度一致性,
但同时也揭示了立体摄像头固有局限性。
实验表明,
当距离超过30米时,
感知精度会显著下降。
这表明仅依靠立体摄像头作为替代激光雷达的功能不可行。
基于纯立体相机获取的视觉信息,
用于估计车辆运动状态。
系统结合视差图(disparity map)与光流图(optic flow map)提取关键特征点,
并通过时空跟踪估计车辆运动参数。
分离静态与动态环境是该系统面临的主要挑战:
动态环境中的运动流与车辆自身运动存在偏差。
在此基础上,
我提出了一种新的解决方案:
通过分析远距离点对光流的影响,
提出了可靠的方法来估计帧间旋转矩阵。
进一步地,
通过去除光流场中的旋转分量,
显著简化了线速度估计的过程。
3 经典引用
3.1 velodyne 激光雷达
The technical manual for the Velodyne VXL-HDL-64E-S2 LiDAR system is available at [https://www.velodynelidar.com/hdl-64e.html]. Accessed on: December 9, 2019.
3.2 相机标定
- R. Cipolla and colleagues presented a study titled "Camera calibration from vanishing points in architectural scenes" at the BMVC conference (volume 99, pages 382–391) in 1999.
- E. Rehder et al developed an approach for online stereo camera calibration within the Intelligent Vehicles Symposium (IV) proceedings (pages 1694–1699) for IEEE publication in 2017.
3.3 避障
- M. Perrollaz, A. Spalanzani, and D. Aubert, "Probabilistic representation of the uncertainty of stereo-vision and application to obstacle detection," in Intelligent Vehicles Symposium (IV), 2010 IEEE, pp. 313{318, IEEE, 2010.被引用次数:58
3.4 地图表示
- K. Schauwecker and A. Zell, "Robust and efficient volumetric occupancy mapping with an application to stereo vision," in Robotics and Automation (ICRA), 2014 IEEE International Conference on, pp. 6102{6107,IEEE, 2014 被引用次数:18
- Y. Li and Y. Ruichek, "Occupancy grid mapping in urban environments from a moving on-board stereo-vision system," Sensors, vol. 14, no. 6, pp. 10454{10478, 2014.被引用次数:33
- C. Yu, V. Cherfaoui, and P. Bonnifait, "Evidential occupancy grid mapping with stereo-vision," in Intelligent Vehicles Symposium (IV), 2015 IEEE, pp. 712{717, IEEE, 2015. 被引用次数:15
- M. Cordts, T. Rehfeld, L. Schneider, D. Pfeiffer, M. Enzweiler, S. Roth, M. Pollefeys, and U. Franke, \The stixel world: A medium-level representation of traffic scenes," Image and Vision Computing, vol. 68, pp. 40{52, 2017.被引用次数:24
- H. Harms, E. Rehder, and M. Lauer, "Grid map based free-space estimation using stereovision," in Proc. Workshop Environment Perception Automated On-road Vehicles, IEEE Intelligent Vehicles Symposium, 2015被引用次数:10
3.5 VO 视觉测量
- D. Nister´、Oleg Naroditsky以及Joseph Bergen在其合作研究中发表了题为《基于地面车辆应用的视觉 Odometry 技术》的重要论文(《机器人学领域》,第23卷第1期,《机器人学领域的研究与进展》,第3至第20页)。
- 在IEEE/RSJ国际会议(IROS)上发表的研究表明:A. Howard提出了实时立体视觉 Odometry 技术。
- 光流方法方面:A. Talukder与Lionel Matthies在《智能机器人系统》期刊上详细探讨了利用密集立体匹配和光流实现移动物体实时检测的技术。
3.6 卡尔曼滤波
- G. Welch, G. Bishop, et al., "An introduction to the kalman filter," 1995. 被引用次数:8487
