Exploring Dynamic Context for Multi-path Trajectory Prediction
深入研究多路径轨迹预测中的动态语境对于可靠部署智能自主系统具有重要意义
1.引言
智能自主系统(如机器人与自动驾驶汽车)对准确感知、理解和预判人类未来行为的能力具有极高的标准。从而能够在现实环境中安全可靠地运行。例如,在这种复杂环境下自导体将根据其他体可能占据的位置来规划自身运动轨迹。然而,在预判下一时刻各主体位置时存在高度不确定性:(1)单个主体可能会在行动过程中突然转变想法;(2)其他主体的行为会对它的后续动作产生影响(如避免碰撞);(3)这种影响往往是动态变化的。因此,在实际应用中单一确定性轨迹的预测往往难以满足需求。基于此我们提出了一种新型端到端框架:该框架能够预判同质主体(包括行人、自行车及车辆等)在未来一段时间内的运动轨迹,并非仅局限于预判行人轨迹(如文献[1])。框架中整合了自注意力机制以捕捉主体间的动态交互环境,并采用CVAE模块结合体的状态信息生成多条可能性较高的运动轨迹。实验结果表明该框架在Trajnet Challenge基准测试中表现优异:这是目前最广泛使用的轨迹预测基准之一。(注:此处应补充具体数据或结果描述)。此外我们还在大规模基准测试InD上进行了验证以进一步证明模型的有效性与泛化能力。为了确保各组件的有效性我们进行了多组消融实验并提供了相应的对比分析结果。(注:此处应补充消融实验结果)。整个框架架构图示见图2。

图1展示了预测目标agent(以红色标注)的各种可能未来运动轨迹(其中以虚线形式突出显示最可能的路径),这些预测结果是基于其观测到的运动数据(以实线表示)。同时考虑到不同交通参与者之间相互影响的关系(以蓝色标记),系统采用动态地图学习机制进行建模。每个层级都采用了颜色编码的方式分别提取位置信息、运动方向以及速度数据,并利用自我注意结构对这些特征进行处理。
2. 相关工作
轨迹预测

图2:本文方法的管道。编码器Y和编码器X的结构是相同的。
3. 方法
3.1 问题描述
轨迹预测被定义为基于观察目标代理I的运动轨迹xi = \{x_{1}^{i}, \cdots, x_{t}^{i}\}来进行未来位置y_{t+1}^{i}, \cdots, y_{t_0}^{i}的推算。其中,在第t步时xt^{i} = (x_{t}^{i}, y_{t}^{i})表示目标代理I在该时刻的具体坐标位置。这里将观测到的目标运动时间长度设为T步,在包含观测与预测阶段的时间跨度内设定总长度为T_0步。这样我们能够逼近真实的目标位置\hat{y}_{i}集合。基于XIFOR代理I的行为模式变化特征,则可将多路径运动轨迹预测问题转化为多个独立运动状态下的运动学模型集合\{y_i, 1,\cdots,y_i,n\}的形式表示。
3.2 动态地图
为了构建代理间交互的模型,在模拟环境中实现多智能体协作行为研究中具有重要意义。为此我们需要对多个动态变化的空间关系进行建模与分析
3.3 编码器网络
我们的编码器有两个分支,每个分支主要由堆叠的自我关注层组成,后跟一个LSTM模块,如图2所示。一个分支被训练为从观察到的轨迹中学习运动信息,另一个分支被训练为从动态地图中探索代理之间的动态交互,如第节所述。前者的输入是目标代理Xi的观测轨迹的位置向量= {x1,I,xT,i} ∈ RT×2,而后者是目标代理的动态图,记为DM = {O,S,P} ∈ RT×H×W×3。为简单起见,我们以前者为例。为了获得稀疏高维表示,首先将Xiis传递到卷积层(Conv)和全连通层(FC)。它们中的每一个之后都是ReLU非线性激活。我们把这个操作称为π(Xi)。如图3所示,自我关注层将查询、关键字和值作为输入,并输出值向量的加权和。分配给每个值的权重计算为带有相应关键字的查询的点积:
公式2
其中√dk为比例因子,dk为向量K的维数,T为转置运算。这种操作也被称为比例点积注意[23]。Q、K和V分别由三个具有相同输入的线性变换获得:
公式3
其中,WQ、WK、WV∈Rdπ×dk为可训练参数,dπ为π(X)的维数。
与LSTM不同,他的输入是按顺序的,时间信息是明确保留的,自我注意模块同时接受所有的输入。为了利用序列的顺序,位置编码被添加到每个自我关注层底部的Q、K和V。不同频率(此处随时间变化)的正弦和余弦函数使用最广泛:
公式4
其中D = dk确保位置编码与Q、K和v的向量具有相同的维数。
为了共同关注来自不同表示子空间的不同信息,多头注意力[23]策略被应用为常规操作,其中头部是独立的缩放点积注意力模块:
公式5
其中WQi,WKi,WVi∈RD×dkia是线性变换参数,与等式中的相同。(3)和WoE是用于聚集从不同头部提取的信息的线性变换参数。注意,dki=dk手dk必须是dk的等分部分。h是关注头的总数,我们在实现中使用2个关注头。
然后,通过将自我注意模块的输出作为输入并输出编码表示,训练LSTM利用步骤之间的时间依赖性。另一个利用代理之间动态交互的分支以同样的方式工作。最后,这两个分支的输出被连接并传递到光纤通道层进行融合,作为包含动态时空上下文的编码信息。

图3:自我注意编码器网络
3.4 多重轨迹预测
我们的方法是基于CVAE的,并且通过从以编码信息为条件的学习的潜在空间中重复采样来预测多个轨迹。CVAE是VAE [40]的延伸,引入了控制输出的条件[2]。给定一组样本(X,Y) = ((X1,Y1),,(XN,YN)),它联合学习真实后验概率pθ(z|Y,X)的变分近似的识别模型qφ(z|Y,X)和用于预测以输入X为条件的输出Y的生成模型pθ(Y|X,z)。z是随机潜变量,φ和θ是各自的识别和生成参数。目标是最大化条件对数似然:logpθ(Y|X) = log∑zpθ(Y,z|X) = log(∑zqφ(z|X,Y)pθ(Y|X,z)pθ(z|X) qφ(z|X,Y))。根据詹森不等式[41],可以得到证据下界:
公式[6]
这里,近似后验qφ(z|X,Y)和先验pθ(z)都被假定为解析解的高斯分布[40]。在训练期间,KullbackLeibler散度DKL()将近似的后验分布推到先验分布pθ(z)。生成误差Eqφ(z|X,Y)()测量生成的输出和地面真实之间的距离。在推断过程中,对于给定的观测值Xi,从先验分布pθ(z)中提取一个潜在变量zi,并且从分布pθ(Yi|Xi,zi)中生成一个可能的输出Yi。潜在变量z允许通过多次采样从条件到输出的一对多映射。在这项工作中,我们模拟了一个条件分布pθ(Yn|X),其中X是观察到的轨迹信息,而Ynis是其可能的未来轨迹之一。
训练 :如图2所示,在训练过程中,我们的编码器对观测轨迹及其未来轨迹Yi都进行了编码(参见第节)。ⅲ-C),分别为。然后,它们的编码被连接起来,并通过两个光纤通道层(每个层后面都有一个ReLU激活)进行融合。然后,使用两个并排的FC层来估计潜在变量zi的均值Zia和标准差σZia。LSTM解码器以观测值的子码和编码为输入,逐步重构轨迹。由于zi的随机抽样过程在训练过程中不能反向传播,所以采用标准的重新参数化技巧[40]使其可微。为了最小化预测轨迹Yi和地面真实Yi之间的误差,重构损失被定义为L2损失(欧几里德距离)。因此,通过使用随机梯度下降法最小化损失函数来训练整个网络。
公式(7)
测试 :在测试阶段,未来轨迹的基本事实不再可用,其路径被移除(图2中用绿色编码)。从先前分布N (0,1)中采样潜在变量z,并将其与作为后续训练的解码器的条件的观察编码连接,使得解码器可以预测轨迹。为了预测多个轨迹,这个过程(采样和解码)被重复多次。
3.5 轨迹排名
8
4. 实验
为了更好地评估我们提出的方法在实际应用中的性能表现, 我们进行了系统性地对比实验, 将DCENet与Trajnet[3]排行榜上当前领域内最具代表性和前沿性的9个主流轨迹预测模型进行了全面比较:(1)采用了线性预测模型作为基准方案;(2)引入了社会力[43]规则,实现了社会力避免碰撞的高质量规则建模;(3)融合了社交池化机制,提出了基于LSTM且具有社交感知能力的新架构;(4)采用生成对抗网络[12]原理,开发了先进的轨迹预测模块;(5)创新性地结合方向感知机制,设计了基于agent头部方向信息的独特LSTM架构;(6)采用消息传递机制,优化了隐状态建模过程;(7)借鉴Transformer技术[21],构建了新型RNN编码器-解码器组合体系;(8)引入自注意力机制,开发了基于Transformer的新一代轨迹预测算法;(9)最终确定DCENet为排行榜上的最优方案。随后我们展开了深入研究,系统考察各组件的作用影响:(1)基准方案:仅基于观测轨迹构建LSTM编码器/解码器;(2)去动态映射版本:移除动态映射编码分支后的改进方案;(3)转换版本:将传统编解码器替换为转换机制驱动的新架构体系
4.1 数据集
Trajnet挑战[3]是最大的多情景预测基准。在挑战中,每个轨迹的8个连续的地面真实位置(3.2秒)需要观测,并需要以下12个步骤(4.8秒)进行预测。Trajnet是一个集多种流行基准数据集的超集:ETH [46], UCY [47], Stanford Drone Dataset [48], BIWI Hotel [46], MOT PETS[49]。总共有11448个轨迹从这四个子集涵盖38个场景的训练。测试数据来自其他20个没有ground truth的场景的不同分区(除了MOT PETS)。Trajnet挑战为在线评估提供了一个特定的服务器。值得注意的是,许多现有的作品都是在Trajnet的一个子集上使用它们自己的列车/测试分割进行评估的。相比之下,在服务器上比较不同方法的性能更加公平和可靠。为此,我们只将DCENet与在Trajnet挑战排行榜上表现出色的作品进行比较。
InD于2019年被Bock等人在德国四个繁忙的十字路口使用无人机收购。交通由车辆主导,它们与行人的互动很频繁。速度差异和对抗使得轨迹预测具有挑战性。对数据进行处理,获得与Trajnet相同的格式:8步观测,以下12步预测。
4.2 评价指标
我们采用了广泛应用的评价指标ADE和FDE来评估轨迹预测性能。其中ADE用于计算从预测轨迹对齐至真实轨迹的整体欧几里得距离及平均步长,并对所有测试样本结果进行求均;而FDE则用于计算从预测最后一个位置至真实位置之间的欧氏距离。此外,在第III-E节中所述的方法决定了最优排序的选择;与ground truth相比(仅在可用时),@top10表示10个预测中的ADE和FDE最小者。
4.3 结果
表1展示了不同方法的实验结果,并列出了我们在Trajnet排行榜上发表的烧蚀模型。通过这一展示可以看出,在这项研究中所取得的进步在于我们不仅实现了高效的轨迹预测算法(即DCENet),而且通过与其他现有方法进行对比分析可以发现其优势所在。

表一:Trajnet挑战[3]不同方法的结果。模型分为确定性(deterministic .)和随机性(stoch.),取决于它们是否包含生成模块。
首先,与基线相比,DCENet w/o DMs和Ind-TF的结果都要好得多,其中DCENet w/o DMs的平均分和FDE略好(0.7760m vs. 0.7765m), ADE略差于Ind-TF。考虑到两种模型都只使用观测轨迹作为输入,这表明我们的方法(自我注意+ LSTM编码器/解码器)探索了比Transformer更好的时空上下文。此外,Ind-TF利用BERT,一种大量堆叠的变压器结构,必须在外部大规模数据集上进行预训练,而DCENet不需要它。DCENet w/o DMs的结果证明,它优越的性能不是因为我们使用了更多的信息(动态映射)。
第二,通过对比基线和S-LSTM,我们可以看到我们的基线模型明显更好。它们之间唯一的区别是我们的基线是基于caee的,并产生多个轨迹。这表明,人类未来的运动具有很高的不确定性,预测一组可能的轨迹比只预测一个轨迹要好。这也证明了轨迹排序方法(见第III-E节)的有效性,该方法用于从多个预测中选择最可能的轨迹。我们的基线模型也显著优于S-GAN模型,S-GAN模型也是一种生成式的多轨迹预测模型。
第三,有趣的是,反式。在我们的框架中采用了变压器编码器和解码器的En&De与DCENet相比,并没有取得更好的性能。这一现象证明了我们的自注意+ LSTM编码器/解码器结构在轨迹预测方面比变压器编码器/解码器更好地探索了agent之间的动态上下文。Trans的优越性能。不使用DMs对抗Ind-TF也证实了这一点。
最后,DCENet优于DCENet w/o DM,这表明动态映射有助于模拟智能体之间的相互作用,对轨迹预测很有帮助。
根据上述比较,结果表明:(1)DCENet对于预测各种真实交通场景中同构代理的精确轨迹是有效的,即使没有明确建模交互(基线模型)。(2)排序方法正确估计多次预测,为单轨轨迹预测任务推荐可靠的候选。(3)与基线模型相比,DCENet通过具有自我注意结构的动态地图有效学习交互,取得了较好的学习效果。(4) LSTM和变压器网络都能够学习复杂的序列模式,但两者的结合进一步提高了轨迹预测的性能。
此外,我们在InD[4]上测试了DCENet,以验证其性能和泛化能力。我们将我们的模型与三个最相关的模型进行比较:S-LSTM,用于比较agent-to-agent交互的占用网格映射;S-GAN,用于生成模块;AMENet,用于CVAE模块和LSTM序列建模。为了保证公平的比较,所有的模型都使用相同的数据进行训练和测试。表二列出了ADE/FDE测量的定量结果。我们的模型在所有交点的@top10预测中都取得了最好的性能,并且大大降低了误差。我们的模型也比其他模型在最有可能的预测,在四个路口中的三个。在十字路口©,它只稍微落后于AMENet型号。我们预计最有可能的预测落后于@top10的预测。然而,与其他模型相比,排序方法在推荐可靠的候选时仍然是有效的。结果表明:(1)我们的模型能够在不同的数据集上进行泛化,并保持良好的性能。(2)对于一个agent来说,预测多条路径比预测一条路径更有利。一方面,多重预测增加了缩小误差的机会。另一方面,单一的预测可能会导致错误的结论,特别是当预测的初始步骤偏离地面真实值时,误差会随着时间的推移而显著累积。多个预测形成一个区域,表明agent的潜在意图,区域大小反映agent意图的不确定性。

表二:我们对ADE/FDE基准进行定量评估的结果展示了与现有InD基准的对比情况。定性分析结果如图4所示。展示了一个典型的Trajnet场景值得注意的是 独立训练集的一个子集用于验证我们的模型性能以便与真实数据进行对比 该模型成功预测了两位行人从3号书店走向彼此的过程 不同轨迹的可能性区域被清晰标记出来 在死亡圈-0中 我们重点分析了不同转弯角度的可能性 并重点关注环形交叉路口的情况 在香6项目中 接近行走的人群之间的相互作用被准确捕捉到了 第二行展示了InD数据集中的场景 高速行驶车辆的行为模式被成功识别出来 不同转弯策略在十字路口(B)被详细分析 在斑马线处 十字路口(C)和(D)的行为模式得到了重点研究 十字路口(A)处 高速行驶车辆的行为模式被成功识别出来 十字路口(B)处 左右转向策略得到了详细分析 十字路口(C)处 行人与非行人之间的互动行为得到了重点研究 最后 十字路口(D)处 的等待车辆与行人之间的互动也被观察到了 The overall findings highlight the model's capabilities in accurately predicting pedestrian movements across various scenarios with clear distinction between dynamic and static elements.

图4:Trajnet(第一行)共享空间和InD(第二行)不同路口的多路径轨迹预测。
5. 结论
本文提出了一种新型框架DCENet,在多样化的真实交通环境中实现了异构体的多路径轨迹预测。我们将动态时空上下文的学习过程分解为基于自我注意机制建立agent间的动态空间关系,并通过下方配置好的LSTM编码器模型来捕获时间维度的信息。通过CVAE模块将时空信息映射至潜在空间中。基于训练好的CVAE模型,在给定时空背景条件下推导出每个智能体的所有可能未来运动轨迹。实验结果表明,在Trajnet基准测试中DCENet取得了优异成绩。此外,在InD基准测试中的卓越表现进一步验证了该方法的有效性以及广泛的适用性。通过消融实验分析表明,在各个模块的设计过程中均发挥了各自的作用。展望未来研究方向方面我们计划扩展环境与静态上下文对智能体行为的影响学习机制,并探索如何优化这些机制以提升轨迹预测性能。
