Advertisement

【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

阅读量:

原文链接:https://arxiv.org/abs/2308.05026

I. 引言

现有轨迹预测方法大多以道路参与者真实数据为基础,在实际自动驾驶系统中这些数据是由检测与追踪模块获取的,并不可避免地会受到噪声影响。本文提出了一种将感知器与轨迹预测器融合的新方案,在这一过程中实现了端到端的数据采集、追踪及轨迹预判功能

本研究中的感知模块基于单目图像数据进行处理,并采用QD-3DT这一核心模型实现对运动智能体的有效识别与三维边界框定位能力。预测模块则基于感知模块输出的位置信息进行数据融合,并通过应用注意力机制与条件变分自编码器技术来实现对智能体多模态运动轨迹的精确预测。此外,在此基础上引入了额外的信息处理机制以提升模型性能,并因此被命名为DCENet++版本

在这里插入图片描述

本文的方法称为ODTP(在线检测、跟踪、预测),流程如上图所示。

III. 方法

A. 问题表达

本文基于单目图像序列进行处理,并通过检测模块生成每个时刻对应的3D边界框集合S^t=\{s_1^t,\cdots,s_J^t\}。经过多目标跟踪模块的数据关联与运动细化处理后,在保证平滑性的同时获得了较为精确的轨迹集合\mathbb T=\{\tau_1,\cdots,\tau_N\}(其中\tau_i\in\mathbb R^{T\times 2}),以及相应的细化边界框集合\mathbb S^t=\{s_1^t,\cdots,s_N^t\}(其中N表示参与跟踪的目标数量)。接着将这些结果输入到轨迹预测模块中,在t+1:T'时间段内预测了每个目标的所有可能未来路径\{\hat Y_{i,1}^{T+1:T'},\cdots,\hat Y_{i,K}^{T+1:T'}\}(其中i=1,\cdots,N表示不同的跟踪主体);这里i=1,\cdots,N表示不同的跟踪主体;而K则代表了每条预测路径所包含的具体数目;时间跨度为t+1:T'

B. QD-3DT

QD-3DT算法基于图像与GPS/IMU数据作为输入(其中后者用于实现车辆定位),并将其各智能体的三维空间数据转换至本地车辆坐标系中进行处理。该系统首先通过主干网络与区域卷积(RPN)模块提取二维区域兴趣点(RoI)。随后将提取出的区域兴趣点分别输入两个预测分支:一个用于生成相似性特征嵌入信息,另一个用于确定物体在三维空间中的布局位置。为了实现目标跟踪功能,在此过程中我们不仅关注于利用3D信息以及运动学特性来计算多模态相似度指标,并且同时采用运动感知数据关联技术和深度排序方法以缓解部分场景中的遮挡问题。最终系统能够进一步细化三维空间数据特征表示以提升整体性能表现

C. DCENet++

相较于DCENet而言, 本文采用了估算出的智能体位置. 尺寸及朝向作为输入来生成细化的动态地图. 如图所示(从左到右依次为未考虑大小与朝向, 仅考虑大小, 同时考虑大小与朝向). 特别关注的是基于BEV的一维信息.

在这里插入图片描述

D. 联合3D跟踪和预测

在获取轨迹\mathbb T=\{\tau^{(1:)}_i,...,\tau^{(N)}_i\}及时刻T处的目标框集合\mathbb S^T=\{s_1^T,...,s_N^T\}后,在研究过程中我们采用了DCENet++模型,并将其批量大小设置为N。通过动态地图中的网格划分方式,在此框架下对各智能体的位置进行定位,并将其速度信息与姿态数据分别放入独立的网络通道中以提高特征提取效率。此外,在预测阶段我们不仅考虑了各智能体的历史运动模式(即偏移量序列\Delta X_i^{(1:T-)} = \{\Delta x_i^t| t=..., T-}\in \mathbb R^{(T-)\times 2}),还整合了多模态数据后进行预测

IV. 实验

B. 评估指标

MOT指标 :使用AMOTA(组合FP、FN和IDS指标)和AMOTP(衡量定位精度)。

轨迹预测评估指标:采用Average Displacement Error (ADE)Final Displacement Error (FDE)作为评价标准。其中ADE用于衡量预测路径与真实路径之间的欧氏距离,FDE用于衡量预测路径终点与真实路径终点之间的欧氏距离。在实际应用中,我们通过计算基于K个测试样本的ADE与KDE之比值得出该评估指标的结果

C. 实验设置

为了减少累积的跟踪误差,在本文中我们采用了基于下一步预测边界框来计算运动轨迹与检测到的目标状态之间的关联程度,并非采用持续预测目标状态的方法。

V. 结果

A. 感知性能

实验表明,本文对QD-3DT做出的改进能提高跟踪性能。

B.轨迹预测性能

研究表明,在动态地图环境中考虑加入物体尺寸与朝向两项维度能够实现最优性能表现。然而,在单一应用维度下所获得的效果提升却并不显著(由于缺乏足够的维度信息来支撑精确对齐计算)。

此外,DCENet++能超过现有方法的性能。

基于MOT算法获得的跟踪结果进行测试时,在真实场景下进行训练所构建的模型其性能将显著低于基于MOT结果构建并用于训练的数据集上的模型。这表明采用基于真实数据集进行模型训练的方式会导致其泛化能力受限,在实际运行环境中难以应对系统噪声的影响。另一方面,在基于MOT数据集进行训练后,在真实场景下进行测试时所获得的性能表现略高于完全依赖于真实数据集构建并运行的情况。

C. 定性结果

可视化表明,本文方法能在输出轨迹含噪声的情况下预测更光滑的轨迹。

本文的方法不得不将感知模块与轨迹预测模块分别进行训练,并且无法共享中间特征图;此外,在感知module发生漏检的情况下会导致 prediction module无法进行相应的处理

全部评论 (0)

还没有任何评论哟~