Advertisement

具身人工智能:人工智能机器人如何感知世界

阅读量:

什么是具身人工智能

虽然近年来机器人在智能城市、工厂和家庭中大量出现,但我们大部分时间都在与由传统手工算法控制的机器人互动。这些机器人的目标很狭隘,很少从周围环境中学习。相比之下,能够与物理环境互动并从中学习的人工智能 (AI) 代理(机器人、虚拟助手或其他智能系统)被称为具身人工智能 。这些代理配备了传感器(摄像头、压力传感器、加速度计等),可以从周围环境中捕获数据,以及可以分析和“学习”所获取数据的人工智能系统。
这张图表解释了人工智能机器人如何通过与物理环境的互动进行学习。

人工智能机器人通过与物理环境的互动进行学习。

通过反复试验,人工智能代理形成了“世界观”:对我们世界的空间或时间维度的抽象表示和理解。它学会了实现目标,无论目标是走路、堆箱子还是其他完全不同的东西。

具象人工智能可以改变行业并改善生活。机遇无穷无尽。

想想增强制造流程、使娱乐和游戏更具互动性和沉浸感、改善医疗分诊、手术和老年人护理,以及使智能仓库更加高效和自动化。对具身人工智能的需求肯定存在。

人口老龄化和劳动力短缺问题已经显现,尤其是在发达国家。1过去几年,制造业的机器人密度已因此大幅提升。在美国,每 10,000 名员工的机器人密度增长至 255 台,比 2015 年增长了 45% 。
人工智能机器人有潜力改善制造业、数字医疗、娱乐和仓库。

人工智能机器人技术对于改善社会有着巨大的潜力。

特斯拉机器人正式进入工厂!明年可能交付给客户!机器人最新进展更新!

不到万元的量产机械狗——go2

具身人工智能的普及需要什么

高通人工智能研究院,我们致力于将生成模型应用于具身人工智能和机器人技术,以超越传统机器人技术并实现以下功能:

  • 开放词汇场景理解。
  • 自然语言界面。
  • 通过大型语言模型 (LLM) 进行推理和常识。
  • 闭环控制,通过 LLM 或扩散模型实现动态动作。
  • 视觉-语言-动作模型。

机器人技术需要数据效率、低延迟、增强隐私和传感器处理。所有这些要求都可以通过设备上的 AI 实现,这就是 Qualcomm Technologies 一直在开发平台以支持创建更高效​​、自主和先进的机器人的原因,例如Qualcomm 机器人平台。这些平台包括 Qualcomm AI Engine,提供能够释放创新应用和可能性的功能。
图表解释边缘人工智能处理如何满足具身人工智能的需求。

边缘AI处理满足具身AI的需求。

数据高效的机器人运动规划架构

虽然边缘 AI 处理为构建具身 AI 应用奠定了良好的基础,但仍有一个关键问题有待解决。与从静态数据集(例如包含 2D 图像的 ImageNet)中学习以解决各种任务的互联网 AI 不同,具身 AI 通过与物理环境交互来学习。此类数据在互联网上不易获得,而且获取成本高昂。高通 AI 研究团队开发了一种新颖的数据高效架构模型,以改善机器人对其环境的感知。我们将这种架构称为“几何代数变换器”(GATr)——注册我的网络研讨会以了解更多信息。

GATr 通过几何代数表示和等变性来考虑物理环境的几何结构。它具有 transformer 的可扩展性和表现力。实验表明,即使数据很少,它也能发挥令人印象深刻的性能。从本质上讲,GATr 是一种用于几何数据的通用架构。它有三个组件:几何代数表示、等变层和 transformer 架构。

几何代数表示

GATr 使用一种称为几何代数的数学框架来表示几何数据并对该数据执行计算。通过将不同类型的几何数据嵌入到单个几何代数中,GATr 可以处理各种几何数据类型,使其适用于广泛的应用,而无需修改网络架构。

等变层

我们通过等变神经网络带来的创新是,无论你如何旋转或移动物体,通用模型仍然会识别该物体。这是提高人工智能机器人数据效率的关键。
图表解释称,等变神经网络将增强人工智能机器人技术。

当我们转换网络输入时,输出也会一致地转换。

Transformer 架构

GATr 基于 Transformer 架构,这是最成功的生成式 AI 架构之一。Transformer 中的基本操作称为自注意力,我们为其提出了一种等变替代方案,同时保留了经典自注意力的出色可扩展性。
一条折线图显示了 GATr 与其他方法相比的表现如何。

即使数据很少,GATr 也能表现良好。

GATr 优于其他最先进的架构

您可以查看我们为机器人生成路径规划的过程,其方式与使用扩散模型生成图像类似,只不过我们现在对机器人轨迹进行去噪,而不是对图像进行去噪。此外,我们使用 GATr 作为去噪网络,而不是更标准的 U-Nets。

我们在多个任务上测试了我们的方法,包括机器人积木堆叠。在上图中,我们的方法在 1% 的训练数据下优于所有以前的方法。随着项目数量的增加,我们的方法继续表现出色。GATr 扩展到数万个 token,优于几何深度学习基线。

这是一个模态窗口。按 Esc 键或激活关闭按钮即可关闭此模态窗口。

具身人工智能

让具身人工智能成为现实

我们相信,具身人工智能将造福制造业、医疗保健业等社会。我们用于数据高效型机器人运动规划的模型架构只是 Qualcomm AI 研究团队正在开展的具身人工智能项目之一。我建议您也查看我们在“不确定性驱动的高效机器人操作可供性发现”方面的工作,以帮助人工智能机器人做出决策。

设备上的生成​​式 AI 将继续在具身 AI 中发挥重要作用。此外,我们认为等变性可以让 AI 更有效地理解 3D 图像/视频。请继续关注此方向的更多研究。

全部评论 (0)

还没有任何评论哟~