自动驾驶场景下的光流增强的语义分割网络
Optical Flow augmented Semantic Segmentation networks for Automated Driving
自动驾驶场景下的光流增强的语义分割网络
Abstract:
运动是自动驾驶系统的主要线索(dominant cue)。光流经常用于检测移动物体和用三角化估计深度。在本篇文章中,我们的动机是利用现有的稠密光流来提高语义分割的表现。为了提供系统性的研究,我们搭建了四种不同的架构,一种只用了RGB图,一种只用了flow,一种将RGBF拼接在一起,一种是以双流的方式利用RGB和flow。我们在两个自动驾驶数据集上(Virtual KITTI, Cityscapes)评估这些网络,其中用到了最前进的光流估计器FlowNet v2。我们也利用Virtual KITTI中的光流真实值来作为理想估计器以及用一个标准的Farneback光流算法来研究噪声的影响。采用Virtual KITTI中的光流真实值,双流架构实现了最好的结果,提升了4%的IoU。正如预料的那样,对于移动的物体如trucks,vans和cars在IoU上分别有了38%,28%,6%的巨大提升。如果用FlowNet的话则平均提升2.4%的IoU,移动物体trucks,vans和cars则分别提升26%,11%和5%。在Cityscapes中,光流增强归于移动物体比如motocycle和train分别提升17%和7%的IoU。
真实光流值意义不大,但是仅看数据的话,FlowNet对于IoU的提升效果还是不错。
1 Introduction
以前的语义分割都是基于appearance cues,但是motion cues,比如两个连续帧(consecutive frames)之间的光流也有助于提高语义分割的精度。
2 Related Work
Motion cues can also enable generic object detection as it is not possible to train for all possible object categories beforehand[事先].
3 Semantic Segmentation Models

3.2 RGBF network
将光流场的幅值图和RGB图分别归一化后拼接在一起
3.3 Two stream (RGB+F) network
分别对RGB输入和光流输入进行编码,之后加和。
效果在四种中最好。
4 Experiment
4.3 Experiment Results
是通过语义分割的训练集吗?
语义分割基础上,通过光流值聚类实现实例分割
预训练的问题
