《具身智能时代:机器人具身抓取技术的前沿探索与应用综述》
自2022年以来基于GPT等大规模语言模型的崛起推动了人工智能领域的技术革新,在多个交叉学科领域掀起了一股创新浪潮。到今年年底之前基于DeepSeek等新技术推动下,“元宇宙”概念引领下的新兴技术正在重塑未来社会形态。“元宇宙”作为一种虚拟现实空间概念正在逐渐走向现实,在这一过程中计算机视觉、机器学习以及人机交互等领域都取得了长足进展。“元宇宙”的核心理念在于实现人机共处的新范式,在这种模式下人类可以通过虚拟现实设备直接与虚拟数字角色进行深度交互并完成协作任务。随着相关技术的发展这一概念正从理论层面逐步向实际应用转化。
在这一节点上,我们进行了系统的归纳和分析,并对近年来大模型在机器人领域应用的关键性研究进行了全面梳理。
内容简介
机器人领域集成了人工智能、机器人学和认知科学,是一个感知,理解,决策和执行的端到端的过程,近年来,以互联网规模数据训练得到的预训练模型在感知、交互和推理方面得到显著提升,将它们作为具身抓取和操作方法的基座,极大推动了机器人应用领域的发展。在本文中,我们对该领域最新进展进行全面综述。首先总结具身基础 ,包括前沿的具身机器人、仿真平台、数据集和数据获取方式,以充分了解研究重点,然后介绍具身算法,从预训练模型 开始,到三个主要研究目标,1)具身感知 ,利用视觉传感器捕获的数据,得到3D特征或进行三D重建,结合预训练模型,来理解目标物体和外部环境,直接预测执行动作;2) 具身策略 ,在模仿学习中,利用预训练模型进行数据增强或作为特征提取器增强模型的泛化能力,在强化学习中,通过预训练模型得到最优奖励函数,提升强化学习的学习效率和能力;3)具身代理 ,预训练模型采用分层执行或整体执行的方式实现端到端的机器人控制。
具身基础
介绍常见的具身机器人技术及其应用领域。涵盖灵巧手与机械臂等单一功能系统的开发研究;同时研究轮式机械臂系统、四足式机械臂系统的低集成度设计方法;此外重点探讨足部人形机器人与轮式人形机器人的高集成度运动控制方案,并结合当前流行的技术平台与资源库进行深入分析与优化研究。

预训练模型
预训练的多模态通用模型
具身感知
预训练模型拥有大量丰富的视觉语义先验知识。通常基于点云信息或用于进行3D场景重建,并融合传统的3D视觉抓取技术。通过预训练模型实现了增强的视觉语言引导机器人抓取能力。
具身策略
研究主要集中在embodied strategies (Imitation Learning)以及强化学习 (Reinforcement Learning, RL)上。
其中,在imitation learning中,
研究者通过收集特定任务下的轨迹数据集,
并利用深度神经网络拟合状态(state)或观测(observation,如第一人称视角的图像)的时间序列至动作(action)
以实现技能的学习。
而reinforcement learning则通过让智能体与环境直接进行互动,
在这一过程中优化预先定义好的与特定任务相关的奖励函数(reward function)
从而掌握新的技能。
具身代理
预训练模型直接用于机器人操作, 是近年来提出的一种新型研究方法, 包括以下两种主要方式: 1) 分层执行 。大模型负责高层次的任务规划, 将长期目标划分为更简单的子目标, 然后由低级控制策略或人类预先设定的动作库依次完成具体操作。2) 整体执行 , 主要是通过微调预训练模型来实现, 将机器人动作编码为特定标记, 并与大规模视觉-语言数据集结合训练, 直接生成VLA(视觉-语言-动作)模型, 从而让机器人根据任务信息自主输出动作指令。此外, 还有一种基于视觉运动规划的方式: 通过微调预训练模型生成视频内容, 并利用这些视频实时指导机器人的行为; 或者可以直接利用预训练模型生成所需动作序列并输出给机器人控制器。
参考
[1] Sun J, Mao P, Kong L, et al. A Review of Embodied Grasping[J]. Sensors, 2025, 25(3): 852.
