Advertisement

A3VLM: Actionable Articulation-Aware Vision Language Model阅读记录

阅读量:

文章目录

  • 概述部分
  • 相关工作的综述
  • 被操作的人体articulated objects
    • LLMs/VLMs用于操作

    • 技术架构

    • 技术细节/实验细节

      • 数据集验证
      • 实物验证
    • 随想

    • 代码初读

概述

该A3VLM模型专注于结合关节结构与操作可能性两者的特性。(结合了两者关节结构与操作可能性)
基于机器人agnostic的方式进行表示
通过学习一个物体中心表示,并将其转化为低层的操作指令
该视觉语言模型首次实现了准确且一致地识别并理解物体关节结构的能力。

Manipulation of Articulated Objects

  1. 在处理 articulated 物体时, 首先需估计其 articulation 模型, 然后通过 predefined primitive operations 进行操作.
  2. FlowBot3D [10] 预测了物体 3D 点云上每个点的 perpoint articulated motion.
    A subsequent technique, FlowBot++ [38], 预测了每个点的 articulated parameter 而不是 motion.
  3. GaPartNet 结合了 articulated 和 affordance 的概念.

LLMs/VLMs for Manipulation

技术路线1:在纯文本或代码中创建高层语义动作计划。
技术路线2:无需中间步骤地生成机器人动作。
技术路线3:利用大语言模型(LLMs)或视觉语言模型(VLMs),先生成中间表示形式,并将其转换为机器人所需的动作指令。

技术架构

一张单RGB图像用于描述该未知物体的语言任务

在这里插入图片描述

三元组:(Bounding box B, Axis A, Semantic label S)
两种关节
三种action原语

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

language core architecture is built upon SPHINX-X version 1.0, enhanced with LLaMA-7B models. The visual encoder is powered by CLIP v4 and DINOv3 for extracting detailed local semantic features, while QFormer v5 is employed to summarize global visual information comprehensively.

技术细节/实验细节

对现有视觉语言模型进行微调以提升其性能

数据集验证

The experimental setup employs Sapien [34] as the simulation platform and PartNetMobility [28]-based items as the target objects. A flying Franka Panda robotic arm equipped with a vacuum gripping mechanism is utilized for manipulation. The dataset is divided into 20 training categories and 10 unseen test categories. The baseline evaluates several state-of-the-art methods: based on Where2Act [27], UMPNet [36], Flowbot3D [10], Implicit3D [40], and ManipLLM approaches, with the current method representing the most advanced solution.

从PartNet-Mobility系统中获取一个对象,并对其进行分析以识别出可移动组件以及确定其驱动方向;在任务成功标准的确定过程中,请确保连接组件需在其运动轨迹上达到预定范围

在这里插入图片描述

实物验证

包含两个方面的实验:一是针对不同类型的20种物体(涵盖反光材质和透明材料的物体)进行实世界推断测试;二是具体配置采用Kuka机器人配备带有实时深度相机的Realsense D415传感器和Robotic gripping三指抓取器进行实世界机器人操作测试)。其中仅提供单张图片作为测试样本;而实世界机器人操作测试环节中则采用5个不同对象进行多次尝试,并记录起始与结束状态的照片。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

随想

2.1 一种传统的做法是先确定物体的连接结构后再对其进行预定义动作本体的修改

代码初读

项目仓库: https://github.com/changhaonan/A3VLM
文章中的计算资源池中进行了持续24小时的模型训练,并未识别到具体的部署环境信息。

复制代码
    - A3VLM
      - data_gen   # 从PartNet-Mobility中渲染图片,生成标签等标注工作
      - model # 源于LLaMA2-Accessory
复制代码
    示例脚本 
    a3vlm_infer.sh # eval_affordance_v2.py
    a3vlm_train.sh # main_finetune.py

全部评论 (0)

还没有任何评论哟~