读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
研究背景:在自动驾驶领域,多模态大语言模型的应用多限于理解复杂环境或生成高级指令,而少有涉及端到端路径规划,主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题,本文提出了CoVLA数据集,含80小时真实驾驶视频,通过自动数据处理技术,匹配精确轨迹与自然语言描述,超越了现有数据集。研究利用CoVLA数据集,探索了多模态大语言模型在自动驾驶中的视觉、语言和动作处理能力,证实了模型在生成连贯输出方面的强大性能,展现了视觉-语言-动作模型在自动驾驶领域的应用潜力。
主要贡献:
介绍了CoVLA数据集,这是一个大规模数据集,提供了多种驾驶场景的轨迹目标,以及详细的逐帧情境描述。
提出了一种可扩展的方法,通过传感器融合准确估计轨迹,并自动生成关键驾驶信息的逐帧文本描述。
开发了CoVLA-Agent,这是一种基于CoVLA数据集的新型VLA模型,用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力,为更可靠的自动驾驶铺平了道路。


数据集生成 pipeline 概述。
1.自动标注视频帧和传感器信号以生成轨迹和其他标签。
2.对视频帧应用自动描述生成,以生成行为和推理的描述。
视频帧(Video frames): 行驶中的车辆前方摄像头捕捉到的视频帧,画面中标注了检测到的目标(如交通灯和前方的车辆)。这些视频帧是后续处理的基础数据。
传感器信号(Sensor signals): 来自车辆各种传感器(如IMU、GNSS、雷达等)的数据,这些传感器可以提供速度、油门/刹车、转向等信息。为了提高数据的准确性,使用了卡尔曼滤波器(Kalman Filter)来处理传感器数据。
目标检测与标签(Object Detection & Object Labels): 从视频帧和传感器数据中通过对象检测模型识别并标记不同的物体,如交通灯和前方车辆(Leading vehicle)。这些标记的物体信息会作为后续生成行为描述的重要输入。
轨迹生成(Trajectories): 通过传感器数据(如速度、转向、IMU数据等)和规则驱动的算法,生成车辆的预测轨迹,即车辆未来可能的行驶路径。这个轨迹信息同样作为行为描述的一部分。
行为描述(Behavior captions): 基于视频帧和传感器数据生成的物体标签和轨迹信息,自动生成行为描述。例如,“自车以高速直行,前方有一个绿灯”这样的行为描述。
推理描述(Reasoning captions): 结合行为描述,系统生成更高层次的推理描述,如:“自车驾驶员需要保持与前车的安全距离。”这些推理描述帮助解释当前驾驶行为背后的原因。
视觉语言模型(VLM): VLM通过从视频帧中提取的视觉信息和基于规则生成的文本指令(如“描述当前的场景”),进一步生成行为和推理描述。VLM负责将视觉内容转化为自然语言。

CoVLA数据集的示例帧。显示了估计的轨迹(绿色线)和由描述生成模型生成的描述。关键对象以蓝色粗体文本突出显示,而描述中的错误以红色粗体文本显示。
自左往右自上而下: 1.自车以中等速度直行,没有交通灯。天气阴天,道路狭窄。 提醒:自车应注意横穿马路的行人,尤其是携带蓝色包的老人。 2.自车以高速直行,没有交通灯。天气晴朗,车在高速公路上行驶。 提醒:应保持与警车及其他车辆的安全距离。 3.自车以中等速度跟随前方车辆加速行驶,没有交通灯。天气雨天,车在高速公路上。 提醒:应保持与前方运载白色水箱的卡车的安全距离。 4.自车以中等速度直行,没有交通灯。没有行人。 提醒:应注意前方停车标志,必要时准备停车。 5.自车以中速行驶,准备右转,前方交通灯为绿色。天气雨天,路面湿滑且道路狭窄。 提醒:应与其他车辆保持安全距离,注意路面湿滑的危险。 6.自车以中速直行,没有交通灯。天气晴朗,道路狭窄。 提醒:应避免撞到路旁的停放车辆、石墙和木栅栏。

车辆速度和转向角的数据分布。红色条表示采样前的分布,而黄色条显示采样后的分布。请注意,为了清晰展示,(b)中使用了对数刻度

CoVLA-Agent是一个为自动驾驶设计的VLA模型。使用预训练的Llama-2(7B)作为语言模型,并使用CLIP ViT-L(224×224像素)作为视觉编码器。此外,该模型将自车速度作为输入,通过多层感知器(MLP)转换为嵌入向量。CLIP ViT-L提取的视觉特征与速度嵌入和文本嵌入拼接在一起,然后输入到Llama-2模型中。对于轨迹预测,使用特殊的 tokens 作为轨迹查询。这些轨迹查询的输出经过MLP层处理,生成10个(x, y, z)坐标的序列,表示车辆相对于当前位置的预测轨迹,覆盖三秒的时间范围。
训练:基于这种架构,在两个任务上训练CoVLA-Agent,分别是交通场景描述生成和轨迹预测。 对于交通场景描述生成,使用交叉熵损失作为损失函数; 对于轨迹预测,采用均方误差损失。最终,训练的目标是最小化一个组合损失函数,其中两个损失被等权重对待。

图为CoVLA-Agent在各种交通场景下的轨迹预测结果。红线表示在预测描述条件下的预测轨迹,蓝线表示在真实描述条件下的预测轨迹,绿线表示真实轨迹。
1.左上角的照片显示了一个三车道的道路,车辆在行驶,远处可以看到一个银色的油罐卡车。 2.右上角的照片是在高速公路上,一辆公交车正在准备并入主路。 3.左下角的照片描绘了交通控制的情景,车辆需要从右车道返回左车道。 4.右下角的照片则是在一个十字路口,交通信号灯是绿色的,多辆车在右车道等待或行驶。
我的思考:这里为什么命名为CoVLA-Agent,文中并没有说明,但是我觉得这是一个单智能体agent,CoVLA-Agent 集成了视觉、语言和动作数据,具有类似于人类驾驶员的能力。它能够从传感器(视觉和语言描述)中获取环境信息,经过处理后,生成对应的行为和轨迹预测(如车辆转向、减速、加速)。这一感知-决策-行动的循环是典型的智能体(agent)的核心特征。
CoVLA-Agent 处理的是视觉、语言和动作三种不同类型的数据,这意味着它不仅仅依赖单一的信息源,而是需要结合多方面的数据进行决策。通过结合这些信息,智能体能够生成更为准确和细致的预测和解释,这也是“agent”具备复杂智能的体现。
虽然 CoVLA-Agent 不像聊天机器人那样进行文字对话,但它的操作模式其实也是一种“对话”——它与物理环境进行交互,实时获取反馈并做出决策。它在自主驾驶场景中,仿佛是一个不断获取外界信息、调整行为策略的驾驶助手。
因此,CoVLA-Agent虽然不是通过语言与用户进行直接对话,但它通过持续与环境互动、获取反馈并调整决策的方式,依然符合智能体(agent)这一概念。
