MultiNet Real-time Joint Semantic Reasoning for Autonomous Driving论文笔记

阅读量：

摘要：

尽管大多数语义推理方法都注重性能提升，在本文中强调计算时间对于实现实时应用如自动驾驶的重要性。作者开发出了一种基于统一架构设计的机制来同时完成分类、检测和语义分割的任务，并且编码器能够在三个任务之间共享参数。我们的方法简洁易懂，在经过高效可靠的数据集KITTI训练后展现出优异的效果。该方法同样表现出色，在每秒超过23帧的速度下实现了快速推理。代码：https://github.com/MarvinTeichmann/MultiNet

个人理解：

该研究探讨的是多任务学习模型。该模型旨在实现分类、目标检测以及语义分割三项主要任务的同时推进。如摘要所述,在实际应用中,性能固然重要,但时间往往被视为宝贵资源,而本研究则通过显著缩短推理所需时间来实现这一目标。其主要优势体现在显著缩短推理所需时间上,主要原因在于采用了共享编码网络策略,从而使得三个子任务能够并行运行并减少整体推理时长。

网络结构如下：

编码网络

主要用于提取图像特征并将其转化为更具表达力的信息源。该信息不仅能够辅助目标检测与图像分类任务完成定位与识别工作，在后续的学习过程中还能够提升模型性能。首先设计了深度神经网络架构，在此基础上进行了多方面的优化以提高计算效率与学习精度。具体而言，在网络结构上采用了模块化的设计理念并结合了先进的激活函数实现了更好的非线性表征能力。此外还通过引入自适应学习率优化算法显著提升了收敛速度与模型稳定性。

解码网络，分为三个，分别是分类解码器，检测解码器和分割解码器

分类解码器：论文中采用了两种类型的分类解码器。第一种类型基于经典的VGG或ResNet架构，并配置了全连接层或softmax层结构；然而由于这些模型未被采用的原因在于其计算资源消耗过高（主要源于全连接层），因此未能应用于本研究中。第二种类型则利用编码网络生成高分辨率特征图作为解码器的基础。其中系统接收了一个A 39×12×512的空间分辨率特征图块；由于该特征图相较于原图像而言空间分辨率降低了大约32倍（即每个像素对应着原图像中连续的一个32×32区域）。随后通过一系列卷积操作（包括先运用3×3卷积再配合使用1×1卷积）将该输入转化为一个A 37×12×30的空间分辨率特征图块；最终经过全连接层处理并结合softmax激活函数得到了一个A 1×2的空间预测结果块

检测解码器：使用的是不依赖候选区域的检测方法，在效率上更为突出。然而基于候选区域的方法由于其候选物体尺寸多样性的特点，在适应复杂场景时表现更为灵活。为了融合两种方法的优势，论文在RoIAlign层增加了多尺度变换机制。处理流程如下：首先将编码器输出的特征图作为输入数据进行处理。通过一次1x1卷积操作生成500个特征图（得到500个大小为39×12的空间位置特征图），随后再执行一次1x1卷积操作生成6个特征图（前两个通道用于判断目标是否存在对应原始图像中的位置信息）。剩下的四个通道则分别用于目标四维坐标预测（每个通道对应一个坐标轴方向的信息）。在此预测结果基础上应用尺度不变性原理（类似于mask R-CNN中的缩放策略），从而实现对预测结果的有效校正与优化。随后该方法直接在池化层阶段完成对各个cell位置偏移量的学习与校准（无需提前量化），这种设计不仅简化了计算流程还能提升训练效率（端到端训练更加高效）。最终将经过校正后的中间结果与初步预测结果融合在一起（拼接运算），从而获得更为精确的目标定位与边界框信息（第二个预测分支专门用于学习并修正初始预测中的偏移量信息）。

分割解码器：基于FCN架构设计，在编码网络输出层提取特征图后，并通过1×1卷积生成39×12像素的分割级特征图。随后通过连续应用三次上采样操作对这些特征图进行处理，并结合跳跃连接机制从低层区域提取出更高分辨率的图像块。这些经过较高分辨率重建的图像块首先经过1×1卷基层进行初步处理，并与局部上采样结果进行融合以完成最终输出。

损失函数

分类和分割任务采用了softmax交叉熵损失函数来完成目标检测；而检测任务则采用了位移量作为其核心指标，并详细说明了具体的实现流程。

在集成学习中，为了构建一个强大的预测模型，在集成学习中，为了构建一个强大的预测模型，在集成学习中

实验部分

基于KITTI数据集的研究中发现，在检测与分割过程中均采用了该数据集提供的标注信息；其中分类标签由人工标注生成，并通过不同量化标准对各阶段模型性能进行了评估：具体而言，在检测方面使用了平均精度这一量化指标，在图像分割性能则通过MaxF1值进行评估；而分类任务则采用了平均召回率作为性能评估指标；研究首先针对单目标优化问题进行了基础验证，并与现有基准方法进行了对比分析；接着扩展至多目标协同优化场景，并对两者的性能表现进行了系统性对比

全部评论 (0)

还没有任何评论哟~

MultiNet Real-time Joint Semantic Reasoning for Autonomous Driving论文笔记

摘要：虽然大多数语义推理方法都侧重于提高性能，但在本文中，认为计算时间对于实现自动驾驶等实时应用非常重要。为实现这一目标，作者提出了一种通过统一架构进行联合分类，检测和语义分割的方法，其中编码器在三...

【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】

2019cvpr【InDefenseofPretrainedImageNetArchitecturesforRealtimeSemanticSegmentationofRoaddrivingImage...

＜REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING＞论文阅读

Abstract 随着计算机视觉的最新进展，自动驾驶迟早成为现代社会的一部分，然而，仍有大量的问题需要解决。尽管现代计算机视觉技术展现了优越的性能，他们倾向于将精度优先于效率，这是实时应用的一个重要方...

《BiSeNet：Bilateral Segmentation Network for Real-time Semantic Segmentation》论文笔记

代码地址：BiSeNet 1\.概述导读：这篇文章是Face++推出实时语义分割算法，文章指出语义分割是同时需要丰富的空间信息以及大量的感受野的。然而，现有的方法通常是在空间分辨率上取折中去获得实时...

论文笔记_CV_AD_Visual Perception for Autonomous Driving

目录 1论文基本信息 2主要内容 2.1贡献与创新点 2.2装备示意图 2.3城市街道行驶时，相机的外部标定 2.4使用立体相机，进行障碍物检测 2.4.1概括 2.4.2当前发展（stateofth...

《Cross-view Transformers for real-time Map-view Semantic Segmentation》论文笔记

参考代码：crossviewtransformers 1\.概述介绍：这篇文章提出了一种新的2D维度的bev特征提取方案，其通过引入相机先验信息（相机内参和外参）构建了一个多视图交叉注意力机制，能够...

《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》论文笔记

代码地址：ICNet 1\.概述导读：这篇文章主要研究的是实时场景下的分割任务，现有的方法对于像素级分割是很难在较大比例上减少运算的计算量的。这篇文章对此提供了解决办法，提出了图像级联网络（Imag...

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

MultiView3DObjectDetectionNetworkforAutonomousDriving 本文提出一种多模态的3D目标检测，融合了视觉和雷达点云信息。和以往基于voxel的方法不同，...

A Survey on Deep Learning Methods for Semantic Image Segmentation in Real-Time——论文笔记

1、引言在分析图像时，需要达到以下几个理解层次： 1.分类，即标记图像中最突出的对象。 2.带定位的分类，即在前一种方法的基础上为目标对象添加一个边界框。 3.目标检测，分类和定位图像中多种类型的多...

【论文笔记】Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglemen

RealTime3DOccupancyPredictionviaGeometricSemanticDisentanglement 原文链接：<https://arxiv.org/abs/2407.13...

是否确定退出登录?

MultiNet Real-time Joint Semantic Reasoning for Autonomous Driving论文笔记

全部评论 (0)

相关文章推荐

MultiNet Real-time Joint Semantic Reasoning for Autonomous Driving论文笔记

【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】

＜REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING＞论文阅读

《BiSeNet：Bilateral Segmentation Network for Real-time Semantic Segmentation》论文笔记

论文笔记_CV_AD_Visual Perception for Autonomous Driving

《Cross-view Transformers for real-time Map-view Semantic Segmentation》论文笔记

《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》论文笔记

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

A Survey on Deep Learning Methods for Semantic Image Segmentation in Real-Time——论文笔记

【论文笔记】Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglemen