UniV2X:开启V2X协同端到端自动驾驶新篇章!
前言
本篇文章由原paper一作Haibao Yu(俞海宝)全权翻译写作,俞海宝为香港大学MMLab博士生,导师为罗平教授。目前在清华大学智能产业研究院合作实习,合作导师为聂再清教授,曾任商汤科技自动驾驶研究员。俞博在CVPR、ECCV、NeurIPS等顶级人工智能会议上发表了多篇第一作者论文,并构建了多个具有行业影响力的数据集(如全球首个真实场景的车路协同自动驾驶数据集DAIR-V2X)。他的研究兴趣包括V2X、自动驾驶和通用机器人等领域。
1.UniV2X开发背景
自动驾驶技术主要分为单车智能自动驾驶(AD)和车路协同自动驾驶(VICAD)两大路线。通过V2X通信获取并充分利用路端或其他车辆传感器传输的数据,可以显著提升自动驾驶的感知范围,从而提高整体自动驾驶的水平。然而,当前的协同自动驾驶研究主要集中在提升单个模块(如检测等)的性能,较少从端到端的角度考虑如何利用路端或其他车辆的数据。这不仅不利于数据的充分利用,也无法在现有的单车端到端技术路线中发挥作用。为此,我们提出了首个全栈协同端到端自动驾驶框架——UniV2X,旨在推动协同自动驾驶迈入端到端时代。
2.UniV2X框架
在介绍UniV2X框架之前,先介绍整体设计原则:
1)有效性(Effective):路端或他车数据应能有效融入端到端框架中,最终提升路径规划(Planning)性能,同时也能提升各个中间模块的性能。
2)传输友好型(Transmission-Friendly):鉴于实际V2X通信带宽有限,为减少通信带宽消耗并确保实时性,传输的数据量需要受到控制。
3)可信性(Reliable):由于存在通信中断和通信攻击的风险,传输的数据需要是可解释的,以便车端能够验证传输数据的安全性和可用性。
基于上述三个原则,我们设计了UniV2X框架:

图1|UniV2X框架图©️【深蓝AI】
UniV2X整体借鉴了UniAD的transformer架构,能够输出检测、跟踪、在线建图、预测、栅格占据等中间结果,实现可解释的端到端方案。在传输过程中,UniV2X采用了混合传输融合架构,即query和概率图(probability map)的混合传输。其中,agent query和lane query是实例级特征(instance-level feature),相较于鸟瞰图特征(BEV feature)更加稀疏,而占据概率图(occupied probability map)是场景级特征(scene-level feature),在特征维度上也较为稀疏。这种稀疏-密集混合传输融合架构很好地保留了对端到端有用的信息,同时大幅减少了传输数据量,并且整体上具有可解释性。我们通过对路端和他车数据进行时间和空间同步,然后进行跨视角的数据特征融合,最终实现协同端到端。

图2|Query缺乏rotation显示表征示意图©️【深蓝AI】
需要注意的是,由于query本身无法显式表示旋转信息,因此在通过query flow实现时间同步补偿后,我们还需要在空间同步阶段,额外学习相应的参数,以对不同视角的query进行空间对齐。
Q_{A}^{i n f}\left(t_{v}\right)=Q_{A}^{\text {inf }}\left(t_{i}\right)+\left(t_{v}-t_{i}\right) * Q_{A F l o w}^{\text {inf }} \qquad(2)
{ spatial_update }\left(Q_{A}^{i n f}\right)=\operatorname{MLP}\left(\left[Q_{A}^{i n f}, R\right]\right)\qquad(3)
3.实验结果
我们在DAIR-V2X和V2X-Sim这两个协同自动驾驶数据集上验证了UniV2X。结果显示,UniV2X在碰撞率(Collision rate)指标上实现了更好的路径规划效果,同时传输代价更低。

我们还测试了UniV2X在不同中间任务(如检测、跟踪、在线建图、栅格占据等)上的效果。结果显示,UniV2X在这些任务上也显著超越了许多现有的单任务融合方案。

4.不足与未来工作
UniV2X是一个协同端到端探索性框架。由于全栈协同端到端涉及不同任务模块和不同视角的融合,开发工作量大且涉及的因素众多,目前的工作还存在许多不足之处。例如,评测不够全面,缺乏闭环评测,开环规划(Planning)评测未包含更多指标(如车道违规等),以及整个传输融合框架较为简单。我们欢迎对这一领域感兴趣的同学一起合作,继续推进协同端到端的研究。
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
