RTFNet:基于可见光/红外图像的城市自动驾驶道路场景语义分割


论文获取:https://yuxiangsun.github.io/pub/RAL2019_rtfnet.pdf
代码获取:https://github.com/yuxiangsun/RT
简介:
为了达成稳健且准确的城市景观语义划分目标,在自动驾驶汽车领域展开研究。基于热相机的优势,该系统将结合RGB与热成像数据,并最终达到卓越的性能水平。
注
本文主要贡献:**1)构建了一种新型深度神经网络架构,在整合RGB视觉信息与热成像数据的基础上实现了城市场景下的目标语义分割任务。2)通过实验研究发现,在特定条件下利用热成像数据可显著提升语义分割算法的准确性与效率。3)通过系统对比分析,在多组测试中均展现了该方法在多组测试中的优越性与稳定性。
该方法通过多模态特征融合实现目标任务。如图所示, RTFNet体系结构包含RGB编码子网络、热图像编码子网络及解码子网络三个主要模块: RGB编码子网络单独负责提取RGB图像特征, 热图像编码子网络专注于处理热图像特征; 解码子网络采用专门设计的解码模块, 有效恢复原始分辨率; 该系统架构在整体设计上具有明显的优势: 其解码功能与编码功能并非对称设计, 整个网络架构在编码与解码环节上采用了不均衡的设计策略: 主要采用了两组大型编码层以及一个较小规模的解码层; 在系统末端, 通过全连接层计算各像素对应的概率值, 并利用softmax函数进行归一化处理得到最终的概率分布图

编码器:
基于ResNet架构构建了该编码器设计,在去除平均池化层与全连接层后采用余弦相似度作为特征提取工具。热特征图通过元素求和的方式被整合到RGB编码器中。此解码器包含五层结构,在每一层次上分别采用了Upception块A与B进行处理。例如,在输入尺寸为480×640的情况下(如图所示),各层次与各模块对应的输出分辨率也有所体现。
解码器
解码器的主要目标是生成与原始输入分辨率一致的密集预测结果。经解码器处理后,特征图的空间分辨率逐步恢复至原始图像的分辨率。为了实现这一目标,在本研究中提出了一种 novel 的 Upception 网络模块。该模块由两个子模块组成:左侧为A模块(Upception block A),右侧为B模块(Upception block b)。其中左侧A模块维持了原始空间分辨率及通道数量;右侧B模块则通过增强空间分辨率的同时降低了通道数量。详细结构如附图所示。

在A块(左侧),共有三个卷积层。这些层均未改变特征通道的分辨率和数量。通过将输入信号与第三批归一化层的输出进行捷径连接(shortcut),实现了信息的有效传递。输入信号与特征图经过逐元素求和运算实现数值融合。在B块(右侧),第一卷积层(Conv1)同时保持分辨率不变,并减少了特征通道数量的一半。第二卷积层(Conv2)则维持了原有的分辨率和平铺面通道数量配置。与块A相似,在第三批归一化层之后引入了残差连接机制。值得注意的是,在第一个转置卷积操作模块中仅负责增加两倍的空间分辨率;而第二个转置卷积模块则需要同时提升空间分辨率和平铺面通道数量以确保后续计算的有效性。具体网络各组件参数设置细节可参考下表所示内容

数据集的设置:
基于MFNet开源平台提供的公共数据集,该平台采用InfReC R500相机对城市景观进行了成像,并支持同时获取RGB与热成像数据。该数据集合计1569组RGB与热成像配对样本,在实验条件下分为白天场景820组与夜间场景749组两大部分。在ground truth标注体系中包含9个预定义的语义类别,并将无标签背景区域作为独立类别处理。所有样本均具有分辨率480×640像素。遵循文献[27]所提出的划分策略进行数据分割操作:将总样本量按比例分配给训练阶段(各占一半)、验证阶段(各占四分之一)及测试阶段(剩余部分)。
评价指标采用通过两个关键度量指标对语义分割任务的性能进行量化评估。其中第一个关键指标为每个类别的真实正率(Recall),通常用符号Acc表示;第二个关键指标为每个类别间的交并比(IoU),常用符号表示为mIoU。这些指标的整体平均值分别用mAcc和mIoU表示,并通过数学公式进行计算

实验结果:
总的实验结果,包括白天和黑天都在一起计算的结果:

比较设计的两个模型RTFNet-50和RTFNet-152在mAcc指标下的结果:

白天黑天单独比较的结果如下:

可视化的样例结果图:

总结:
本文提出了一种基于热数据的城市场景语义分割网络。实验结果表明,该网络在各种场景下,甚至在具有挑战性的光照条件下都具有优越性。无论如何,未来仍有几个问题需要解决。首先,推理速度较低,特别是在嵌入平台上,重点是嵌入式平台的优化。其次,网络分割出的目标边界不够清晰。为了产生清晰的边界并保留更详细的信息,将使用short-cut将低级特征映射引入高级特征映射。最后,在某些情况下,RGB图像或热图像可能比其他图像更能提供信息。例如,对于具有相似温度的物体,热象将提供较少的信息,这将是热象机的一个不利方面。对贡献较少的信息给予较低的权重或完全丢弃它将有利于筛选。在未来,将发展判别机制,以发现更有信息量的数据。
