SOF-SLAM论文阅读笔记
SOF-SLAM:A Semantic Visual SLAM for Dynamic Environment 2019.10.22
论文出发点:
对于动态场景的SLAM系统,如今一般采用语义信息,要么利用几何信息,或者简单结合的方法进行动态物体检测。
针对问题:
高动态场景的语义地图建立。
方案:
基于RGBD视频流的ORBSLAM2模型,提出一种动态特征提取方法:语义光流法(Semantic Optical Flow—SOF )。
SOF具体作用方式:结合运动前的语义信息(由SegNet获得),辅助对极几何的计算,然后过滤掉真正的动态特征。将仅保留了剩余的静态特征送入跟踪优化模块,实现了动态环境下相机姿态的精确估计。
具体实现:

整个系统与ORBSLAM区别就在于跟踪线程新增了SOF模块。接下来将介绍一下SOF,框图如下所示:

语义的运动先验信息的含义是,根据物体的语义标签判断其潜在的动态可能性。比如人是潜在的动态可能性很高,椅子很低。因此语义的先验信息包括三种状态:静态,潜在动态,动态。根据其状态保留或者删除对应的特征点,但潜在动态难以处理。
对极几何约束:我们需要通过对极几何约束估计相机位姿;又需要通过相机位姿判断特征点是否满足对极几何约束(不满足则代表特征点是在移动的)。这个关系是矛盾的。
一般情况下,是根据两种判断结果取“或”来作为最终结果。这种当时在文章中被称为“lossely coupled ways" 松散的耦合方式。因此本文采用一种紧密的耦合方式。具体步骤如下:
1)首先采用SegNet获得运动先验信息,去除动态点之后,利用光流法计算两帧图像的相机位姿变化。解的本质矩阵F。
2)然后利用外极线约束寻找动态特征(本文采用偏离超过1个像素,便作为动态特征删除)。
3)最后运用经过两次动态特征剔除的最终版本特征点集进行计算,得到最终的本质矩阵。
效果图如下:

可以看出效果比仅仅使用常规方法的好。论文最后和自己搭建的纯语义去除动态特征的SLAM系统做了比较。显而易见,肯定这个好。然后跟其他先进的系统在数据上进行了对比。
展望
1,采用更多帧
2,判断特征点是否动态采用一种概率框架,能提高准确性和鲁棒性。
思考
这篇文章的亮点在于解决这个外极线约束的时候逻辑关系的混乱,运用光流法,在运动先验信息的基础上计算位姿之后。用该位姿判断所有特征点的外极线约束。
系统整体结构并不复杂,融合语义和光流这个想法也比较新颖。总体创新不大,逻辑讲的比较清晰。
