读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

阅读量：

研究背景：在自动驾驶领域，多模态大语言模型的应用多限于理解复杂环境或生成高级指令，而少有涉及端到端路径规划，主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题，本文提出了CoVLA数据集，含80小时真实驾驶视频，通过自动数据处理技术，匹配精确轨迹与自然语言描述，超越了现有数据集。研究利用CoVLA数据集，探索了多模态大语言模型在自动驾驶中的视觉、语言和动作处理能力，证实了模型在生成连贯输出方面的强大性能，展现了视觉-语言-动作模型在自动驾驶领域的应用潜力。

主要贡献：

介绍了CoVLA数据集，这是一个大规模数据集，提供了多种驾驶场景的轨迹目标，以及详细的逐帧情境描述。

提出了一种可扩展的方法，通过传感器融合准确估计轨迹，并自动生成关键驾驶信息的逐帧文本描述。

开发了CoVLA-Agent，这是一种基于CoVLA数据集的新型VLA模型，用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力，为更可靠的自动驾驶铺平了道路。

数据集生成 pipeline 概述。

1.自动标注视频帧和传感器信号以生成轨迹和其他标签。

2.对视频帧应用自动描述生成，以生成行为和推理的描述。

视频帧（Video frames）：行驶中的车辆前方摄像头捕捉到的视频帧，画面中标注了检测到的目标（如交通灯和前方的车辆）。这些视频帧是后续处理的基础数据。

传感器信号（Sensor signals）：来自车辆各种传感器（如IMU、GNSS、雷达等）的数据，这些传感器可以提供速度、油门/刹车、转向等信息。为了提高数据的准确性，使用了卡尔曼滤波器（Kalman Filter）来处理传感器数据。

目标检测与标签（Object Detection & Object Labels）：从视频帧和传感器数据中通过对象检测模型识别并标记不同的物体，如交通灯和前方车辆（Leading vehicle）。这些标记的物体信息会作为后续生成行为描述的重要输入。

轨迹生成（Trajectories）：通过传感器数据（如速度、转向、IMU数据等）和规则驱动的算法，生成车辆的预测轨迹，即车辆未来可能的行驶路径。这个轨迹信息同样作为行为描述的一部分。

行为描述（Behavior captions）：基于视频帧和传感器数据生成的物体标签和轨迹信息，自动生成行为描述。例如，“自车以高速直行，前方有一个绿灯”这样的行为描述。

推理描述（Reasoning captions）：结合行为描述，系统生成更高层次的推理描述，如：“自车驾驶员需要保持与前车的安全距离。”这些推理描述帮助解释当前驾驶行为背后的原因。

视觉语言模型（VLM）： VLM通过从视频帧中提取的视觉信息和基于规则生成的文本指令（如“描述当前的场景”），进一步生成行为和推理描述。VLM负责将视觉内容转化为自然语言。

CoVLA数据集的示例帧。显示了估计的轨迹（绿色线）和由描述生成模型生成的描述。关键对象以蓝色粗体文本突出显示，而描述中的错误以红色粗体文本显示。

自左往右自上而下： 1.自车以中等速度直行，没有交通灯。天气阴天，道路狭窄。提醒：自车应注意横穿马路的行人，尤其是携带蓝色包的老人。 2.自车以高速直行，没有交通灯。天气晴朗，车在高速公路上行驶。提醒：应保持与警车及其他车辆的安全距离。 3.自车以中等速度跟随前方车辆加速行驶，没有交通灯。天气雨天，车在高速公路上。提醒：应保持与前方运载白色水箱的卡车的安全距离。 4.自车以中等速度直行，没有交通灯。没有行人。提醒：应注意前方停车标志，必要时准备停车。 5.自车以中速行驶，准备右转，前方交通灯为绿色。天气雨天，路面湿滑且道路狭窄。提醒：应与其他车辆保持安全距离，注意路面湿滑的危险。 6.自车以中速直行，没有交通灯。天气晴朗，道路狭窄。提醒：应避免撞到路旁的停放车辆、石墙和木栅栏。

车辆速度和转向角的数据分布。红色条表示采样前的分布，而黄色条显示采样后的分布。请注意，为了清晰展示，（b）中使用了对数刻度

CoVLA-Agent是一个为自动驾驶设计的VLA模型。使用预训练的Llama-2（7B）作为语言模型，并使用CLIP ViT-L（224×224像素）作为视觉编码器。此外，该模型将自车速度作为输入，通过多层感知器（MLP）转换为嵌入向量。CLIP ViT-L提取的视觉特征与速度嵌入和文本嵌入拼接在一起，然后输入到Llama-2模型中。对于轨迹预测，使用特殊的 tokens 作为轨迹查询。这些轨迹查询的输出经过MLP层处理，生成10个(x, y, z)坐标的序列，表示车辆相对于当前位置的预测轨迹，覆盖三秒的时间范围。

训练：基于这种架构，在两个任务上训练CoVLA-Agent，分别是交通场景描述生成和轨迹预测。对于交通场景描述生成，使用交叉熵损失作为损失函数；对于轨迹预测，采用均方误差损失。最终，训练的目标是最小化一个组合损失函数，其中两个损失被等权重对待。

图为CoVLA-Agent在各种交通场景下的轨迹预测结果。红线表示在预测描述条件下的预测轨迹，蓝线表示在真实描述条件下的预测轨迹，绿线表示真实轨迹。

1.左上角的照片显示了一个三车道的道路，车辆在行驶，远处可以看到一个银色的油罐卡车。 2.右上角的照片是在高速公路上，一辆公交车正在准备并入主路。 3.左下角的照片描绘了交通控制的情景，车辆需要从右车道返回左车道。 4.右下角的照片则是在一个十字路口，交通信号灯是绿色的，多辆车在右车道等待或行驶。

我的思考：这里为什么命名为CoVLA-Agent，文中并没有说明，但是我觉得这是一个单智能体agent，CoVLA-Agent 集成了视觉、语言和动作数据，具有类似于人类驾驶员的能力。它能够从传感器（视觉和语言描述）中获取环境信息，经过处理后，生成对应的行为和轨迹预测（如车辆转向、减速、加速）。这一感知-决策-行动的循环是典型的智能体（agent）的核心特征。

CoVLA-Agent 处理的是视觉、语言和动作三种不同类型的数据，这意味着它不仅仅依赖单一的信息源，而是需要结合多方面的数据进行决策。通过结合这些信息，智能体能够生成更为准确和细致的预测和解释，这也是“agent”具备复杂智能的体现。

虽然 CoVLA-Agent 不像聊天机器人那样进行文字对话，但它的操作模式其实也是一种“对话”——它与物理环境进行交互，实时获取反馈并做出决策。它在自主驾驶场景中，仿佛是一个不断获取外界信息、调整行为策略的驾驶助手。

因此，CoVLA-Agent虽然不是通过语言与用户进行直接对话，但它通过持续与环境互动、获取反馈并调整决策的方式，依然符合智能体（agent）这一概念。

全部评论 (0)

还没有任何评论哟~

读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

研究背景：在自动驾驶领域，多模态大语言模型的应用多限于理解复杂环境或生成高级指令，而少有涉及端到端路径规划，主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题，本文提出了CoVLA数据集，...

论文解读--4D mmWave Radar for Autonomous Driving Perception：A Comprehensive Survey

用于自动驾驶感知的4D毫米波雷达：综合综述摘要自动驾驶技术的快速发展推动了感知系统的不断创新，其中4D毫米波（mmWave）雷达是关键的传感设备之一。利用其全天候操作特性和在具有挑战性的环境中的强...

论文精读系列1：Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

大模型论文精读系列1：Senna:BridgingLargeVisionLanguageModelsandEndtoEndAutonomousDriving 本文主要突出：大模型+端到端，大模型高维驾...

51-58 CVPR 2024 Bosch博世出品 | VLP: Vision Language Planning for Autonomous Driving

24年1月，Bosch、SyracuseUniversity联合发布VLP:VisionLanguagePlanningforAutonomousDriving，自动驾驶的视觉语言规划。 Abstra...

＜REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING＞论文阅读

Abstract 随着计算机视觉的最新进展，自动驾驶迟早成为现代社会的一部分，然而，仍有大量的问题需要解决。尽管现代计算机视觉技术展现了优越的性能，他们倾向于将精度优先于效率，这是实时应用的一个重要方...

【读论文】AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction

文章目录 1\.What 2\.Why 3\.How 3.1Input 3.2BackgroundReconstruction 3.3ForegroundReconstruction 3.3.1Con...

论文笔记_CV_AD_Visual Perception for Autonomous Driving

目录 1论文基本信息 2主要内容 2.1贡献与创新点 2.2装备示意图 2.3城市街道行驶时，相机的外部标定 2.4使用立体相机，进行障碍物检测 2.4.1概括 2.4.2当前发展（stateofth...

Diffusion-Based Planning for Autonomous Driving with Flexible Guidance论文细读

1）粗看 Q:这篇论文试图解决什么问题？ A:这篇论文试图解决自动驾驶领域中的一个关键挑战：在复杂开放世界环境中实现类似人类的驾驶行为。具体来说，论文旨在解决以下几个问题： 1. 多目标平衡与安全保障...

【论文阅读】Review on 3D Lidar Localization for Autonomous Driving Cars

文章目录 Reviewon3DLidarLocalizationforAutonomousDrivingCars 基于配准的基于特征的基于神经网络的 Reviewon3DLidarLocaliza...

A Survey on Multimodal Large Language Models for Autonomous Driving

本文是LLM系列文章，针对《ASurveyonMultimodalLargeLanguageModelsforAutonomousDriving》的翻译。

是否确定退出登录?

读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

全部评论 (0)

相关文章推荐

读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

论文解读--4D mmWave Radar for Autonomous Driving Perception：A Comprehensive Survey

论文精读系列1：Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

51-58 CVPR 2024 Bosch博世出品 | VLP: Vision Language Planning for Autonomous Driving

＜REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING＞论文阅读

【读论文】AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction

论文笔记_CV_AD_Visual Perception for Autonomous Driving

Diffusion-Based Planning for Autonomous Driving with Flexible Guidance论文细读

【论文阅读】Review on 3D Lidar Localization for Autonomous Driving Cars

A Survey on Multimodal Large Language Models for Autonomous Driving