基于深度学习的视觉SLAM综述_赵洋
随读笔记
传统SLAM算法分为:帧间估计与后端优化两部分。
深度学习与帧间估计
无需特征提取、特征匹配和复杂的集合运算。
1.Konda 和 Memisevic提出基于端到端的深度神经网络
(1)提取图像序列深度和运动信息
利用乘性交互神经网络进行时序立体图像的同步检测,将立体图像序列之间的空间变换估计转换为同步检测,称为无监督同步/深度自动编码器(SAD-E)。
(2)图像序列速度与方向改变估计
将上一层SAD-E提取的运动和深度信息作为卷积神经网络层(CNN)输入,用以学习图像速度和方向改变。
2.Costante 利用卷积神经网络学习图像数据的最优特征表示进行视觉里程计估计
(1)先用 Brox 算法提取连续 2 帧的稠密光流特征,以此作为 CNN 网络的输入。
(2)将全局特征 CNN-1b 和局部特征 CNN-4b 结合构建了 P-CNN。
优点:在应对图像运动模糊、光照变化方面的鲁棒性;
缺点:实验结果也说明了所提算法对训练数据的依赖,特别是当图像序列帧间速度过快时,算法误差较大,其原因是训练集缺乏高速训练样本造成估计的旋转误差较大。
3.Handa利用神经网络构建了包含全局变换、像素变换和 M 估计器在内的 gvnn(geometric vision with neural network/基于神经网络的几何视觉)软件库
基于深度学习的闭环检测
1.Chen 等首次提出了基于 CNN 模型的位置识别技术
(1)作者选择 ImageNet 大赛中用以物体识别的 OverFeat 神经网络模型进行图像描述。
(2)利用各层特征构造混合矩阵。
(3)构造空间连续性滤波器和时间连续性滤波器进行综合验证,提高匹配准确率。
2.Gao等通过自动编码器提取图像特征来进行图像匹配
(1)首先利用传统 SIFT、FAST 或ORB 等算法提取图像特征位置.
(2)围绕特征位置裁剪图像为不同区域子图像块。
(3)针对损失函数进行了改进。
3.未来研究重要方向
(1) 如何选择合适的隐含层表示图像特征
(2)如何设计神经网络架构
(3)如何利用面向任务的大数据集对网络参数迁移学习优化
深度学习与语义 SLAM
1.优点
(1)传统SLAM 方法以静态环境假设为前提,而语义 SLAM可以预知物体(人、汽车等)的可移动属性
(2)语 义 SLAM 中的相似物体知识表示可以共享,通过维护共享知识库提高 SLAM 系统的可扩展性和存储效率.
(3)可实现智能路径规划
2.Sunderhauf等提出面向物体对象的语义建图方法
(1)利用 ORB-SLAM2 算法估计 RGB-D 摄像头位姿和构建环境的稀疏特征地图,并将深度图像对应的点云依据摄像头当前位姿投射到全局坐标,得到环境的 3D 点云地图
(2)物体检测与识别,采用SSD方法
1⃣️对关键帧图像生成固定数量的物体建议边界框,并计算每个建议边界框的置信值.
2⃣️基于超体元的 3 维目标物体点云分割,以进一步分割出前述基于图像划分得到的物体所对应点云.
3⃣️基于最近邻方法的物体数据关联,以确定当前物体和地图中物体之间的对应性,进而添加或更新地图中目标物体的点云信息和从属类别置信值等数据.
