具身人工智能的最新进展--综述
本文主要探讨了具身人工智能(Embodied AI)在实现人工通用智能(AGI)中的关键作用及其作为连接网络空间与物理世界的基石性技术角色。值得注意的是,在多模态大模型(MLMs)与世界模型(WMs)的发展背景下,这些架构因其卓越的感知能力、交互能力和推理能力而被视为具身代理的核心结构。首先对具身机器人及模拟器领域的代表性研究进行回顾,并分析其研究重点及局限性;随后深入探讨了具身感知、具身交互、具身代理以及模拟至现实适应四个主要研究方向;此外还详细阐述了多模态大模型在虚拟与实体具身代理中的具体应用场景,并强调了其在实现动态数字环境与物理环境交互中的重要价值;最后总结了当前具身AI面临的挑战及其局限性,并展望了未来的发展方向。这项研究为本领域的学者提供了重要的理论参考,并激发了更多的创新思路。

1 具身机器人
仅限于多模态大模型(MLMs)和世界模型(WMs)在具身机器人中的应用范畴之内,在这一领域内涉及的任务类型非常广泛。涵盖其中的是视觉语言导航、物体抓取等复杂交互任务。例如,在视觉与文本提示的引导下,英伟达开发的NvidiaVIMA系统能够完成复杂的任务并模拟物理现象。特斯拉的人形机器人Optopus持续进化中,在这一过程中不断展现出新的能力与潜力。马斯克预测其将成为特斯拉未来的核心价值来源之一。斯坦福大学李飞飞团队发布的研究成果表明,在这一领域内人类自然语言指令与具体行动之间的转换过程得到了有效突破,并且这一进展预示着具身机器人正在朝着更加自主与智能的方向稳步前进,在不久的将来有望实现更为广泛的应用场景覆盖。

2 具身研究四大领域
(1)具身感知
具身感知的主要任务是:估测,识别和操作。
估测: 依据触觉信息推断出物体的特性,如硬度、形状等。
识别: 根据触觉反馈识别物体的种类。
操作: 利用触觉信息指导对物体的操作过程。
非视觉感知的触觉中存在特殊的感性特性,在其设计过程中往往模仿了人体皮肤的基本功能机制:当物体接触相关表面时会引发形变并经由一系列神经细胞传递电信号。基于不同的设计思路触觉传感器可划分为基于电学/力学规律工作的非视觉基类基于光学/视觉机制运用的视觉类以及可实现混合多模态感知的第三类系统类型:其中作为基础配置的主要研究对象是非视觉基触觉传感器这一类别其核心功能通常集中于利用电学或力学特性去捕捉力压痕击振以及温度等方面的物理量信息。

(2)具身交互
具身交互中基于视觉语言导航(VLN)的任务主要有:
MiC: 涉及大型语言模型(LLM)直接预测目标位置,并通过描述场景感知提供导航指令。该方法要求LLM充分运用其"想象"能力来构建想象中的场景
MCR-Agent: 开发了一种三层行动策略,在模型能够预测目标坐标的同时,模型还用于生成用于目标交互的像素级掩码,并从上一次导航决策中获取经验
OVLM: 规定LLM预测指令对应的行动序列及其相关标记。在导航期间, 视觉语言地图将持续地进行更新与维护, 并且其动作将与地图中的相关标记保持关联。
(3)具身智能体
具身智能体中基于视觉语言动作(VLA)模型有:
MiC: 需要LLM直接预测目标位置,并提供导航指令。
MCR-Agent: 基于三个层级的行动方案开展操作规划与执行管理。该系统涵盖目标定位、像素级别的交互掩膜预测以及通过历史导航决策进行学习优化。
OVLM: 是一种方法或系统设计模式, 其核心在于利用LLM模型对操作及其对应的地标序列进行识别, 并在导航过程中动态维护视觉语言地图.
(4)具身世界模型
在模拟环境中构建与真实世界高度逼真的世界模型,并以提高其向真实环境迁移的能力为目标。构建该模型需要从物理环境中收集数据,并利用这些数据进行训练。此外,在算法设计中采用了基于具身控制的方法,并通过逐步优化实现了对现实世界的适应能力。具体而言,在实现Sim-to-Real适应的过程中包括了对算法性能的学习阶段以及在真实物理环境中验证阶段的双重验证过程。
具身世界模型与VLA模型的区别: VLA模型最初在大量网络数据上进行训练从而获得高级能力;随后,在真实世界机器人数据下协同微调。而world model则从零开始在物理环境中的大量数据中学习并逐步发展出复杂的智能行为。
具身世界模型适用场景: 适用于输入输出具有明确结构的任务, 如车辆自动控制与图像识别等, 但难以有效处理高度非结构化的问题.

3 多模态大模型应用
多模态大模型(MLMs)在具身人工智能(Embodied AI)领域得到了广泛应用与深入研究。这类模型通过融合多种感官数据如视觉与语言信息等手段使具身智能体能够在复杂环境中实现精准导航与协作互动。例如优化跨模态匹配策略能够使智能体更好地理解指令并借助过往决策进行自我监督学习。同时结合大型语言模型(LLMs)与视觉编码器的技术可显著提升智能体对历史记忆的理解从而支持执行更为复杂的任务。此外图谱学习技术被用于预测连续环境中可移动路径点这一技术有助于将复杂导航问题转化为节点间关系的问题从而缩小了离散环境向连续环境下的性能差距。这些创新性研究共同推动了具身代理系统在理解和应对动态物理环境方面的显著进展

4 结语
文章系统性地对多模态大模型时代下的具身人工智能领域展开全面综述,并深入探讨了具身机器人领域的前沿动态。该研究全面覆盖了交叉领域的发展热点:包括基于数字仿真平台的机器人进化算法研究、先进感知技术在智能体感知环境中的应用探索、人机交互场景下的协作创新以及自主体行为研究等关键方向,并对系统性地探讨了从虚拟环境中的仿生实验到实际应用场景的迁移与适应问题进行了深入分析
论文题目:The Mapping of Digital/Networked Space to Real/Physical World: The Systematic Analysis ofEmbodied AI
论文链接: https://arxiv.org/abs/2407.06886
PS: Dear community members, please scan the QR code to join our official WeChat official account. Together, we will explore the frontiers of AI and work hand in hand towards mutual progress!

