Embodied Artificial Intelligence具身智能概述
具身智能概述
- 历史
- 驱动力
- 代理体与环境交互
- 自体感知能力
- 互联网人工智能
- 主动式感知机制
- 稀疏奖励信号处理
- 任务目标
-
-
视觉里程计(Visual Odometry)及其应用:
- 全局定位技术(Global Localization Technology)
- 视觉导航系统(Visual Navigation System)
- 地基语言学习框架(Grounded Language Learning Framework)
- 指令引导型视觉导航方案(Instruction Guided Visual Navigation Scheme)
- 具身问答系统(Embodied Question Answering System)
-
数据集和模拟器 Datasets and Simulators
-
模拟真实
-
人工智能、机器学习与计算机视觉领域的最新研究动态催生了一个迅速发展的新兴研究领域——嵌入式人工智能(Embodied AI)。Facebook 人工智能研究中心(FAIR)与英特尔实验室均处于这一领域研究的前沿位置。"体现"一词定义为向想法提供具象化或可视化的形式。简而言之,"嵌入式人工智能"意指虚拟机器人的人工智能实现。更具体地说,嵌入式人工智能专注于解决虚拟机器人面临的智能问题,这些虚拟机器人能够在虚拟环境中移动、观察、对话并与其它虚拟机器人互动——最终将此模拟解决方案成功移植到现实世界中的机器人上。
历史
Linda Smith于2005年提出"具身假说"这一理论框架.其核心观点在于,智能是主体与环境互动过程中生成的结果,源自知觉运动活动.这些研究者指出,自幼接触物理世界、社会互动以及语言环境对于培养人类特有的灵活智力与创造能力具有关键性的作用.此外,实施论论文强调了认知特征如何深深依赖于人体结构及其功能的作用机制.尽管如此,这一假说最初是基于心理学与认知科学研究成果.
自 20 世纪 60 年代以来,在人工智能领域各个子领域已经基本上实现了专业化发展,但仍面临诸多限制性因素的影响。然而,在嵌入式人工智能体系中集成了多学科交叉技术要素,在自然语言处理(NLP)、计算机视觉、强化学习、导航、基于物理的模拟以及机器人技术等方面形成了完整的生态系统。尽管嵌入式人工智能要想取得理想效果需要综合运用多个不同的人工智能子领域知识与技术的支持,并且嵌入式人工智能作为一个新兴的研究方向的发展进程主要得益于计算机视觉领域的研究突破和发展推动
计算机视觉领域的研究者归类嵌入式AI为存在于3D环境中的智能代理,并认为其决策依赖于基于自身视角的感知输入;这些感知输入会随之因代理的操作而发生改变。体感AI则通过在真实3D模拟器中对具备自主意识能力的AI代理(即虚拟机器人及自我导向型辅助者)进行训练,并将其习得的能力应用到现实环境中;从而实现了从基于静态数据集(如ImageNet、COCO及VQA等)所支撑的传统互联网AI模式向更具实体感的知识迁移型实体AI模式的重要转变;其中这些智能体能够在真实环境中的模拟空间中执行任务。
动机
过去十年中的人工智能诸多长足进步均得益于机器学习及深度学习的发展(具体包括语义分割、目标检测以及图像描述等具体实例)。这些技术之所以能够取得显著进展,在很大程度上得益于数据规模的持续扩大(如YouTube平台上的视频库、Flickr图片集合以及Facebook社交网络中的用户生成内容)以及计算资源的发展(包括CPU运算单元、GPU图形处理器以及TPU专用处理芯片)。然而值得注意的是,在上述技术中所使用的"互联网数据"(指源自网络平台如互联网中的图像信息及视频素材等),均来自于非实时世界的环境,并未呈现真实的具象化体验。这类数据往往经历了随机化处理,并来源于卫星图像、个人自拍照片乃至社交媒体平台上的推文等来源渠道;而这些素材均不具备人类直接感知世界的特点。尽管如此,在这些领域中"基于互联网的数据"与"基于互联网的人工智能"已经实现了突破性进展;但这一路径并非最适宜的数据来源模式亦非最优的学习方法体系。传统的人类学习机制依赖于持续不断的探索与实践过程而非单纯的数据积累与随机经验采集;人类的学习行为更多地受到感官刺激及直接交互的影响。因此研究方向转为发展具身人工智能系统:即让仿生机器人或虚拟代理能够像人类一样通过观察环境变化进行自主探索并完成特定任务;这也就使得认知科学研究者们的见解显得尤为重要:他们提出的观点也应当成为指导这类智能系统设计的关键依据。
尽管"体感智能"的方法论与"网络人工智能"有所差异, 但实体人工智能仍可从网络人工智能的成功经验中获益不浅. 计算机视觉及自然语言处理如今已在一定程度上展现出良好效果(前提是具备大量标注数据). CV及NLP领域的这些进展将为体感AI的成功前景奠定了坚实基础.
此外,在当前环境下拥有大量逼真且具高度仿真度的三维场景(如SUNCG、Matterport3D、iGibson等),它们可作为训练嵌入式人工智能(Embodied AI)的有效仿真环境。此类环境包括SUNCG、Matterport3D、iGibson等知名数据集。与以往用于嵌入式AI研究的仿真环境相比而言更加逼真。公开获取这些数据集不仅显著降低了开发嵌入式AI系统的成本,并且极大地扩展了其应用范围

具身智能广泛涵盖个人机器人、便携式智能助手以及高级别自动驾驶系统等多种应用场景。 当NLP、计算机视觉与机器人技术实现深度融合时, 其实质上使得Embodied AI在解决实际问题时更加自然地达到了预期效果。
代理和环境
agent仅是一个能够在环境中执行行动的抽象概念。我们将其称为virtual robot, simulation agent, virtual agent或self-aware agent(因其具有一阶视角/传感器/交互系统)。从另一个角度来看待agent的方式是将其视为游戏中的玩家。与之相对地,在讨论环境时,请注意以下几点:环境只是一个抽象概念,它代表了现实世界中多个位置,房间和其他对象在三维空间中的映射关系;该环境充当了一个物理世界的模拟版本;在其中实现的目标包括但不限于交互(interaction)、导航(navigation)以及语言理解(language understanding)。
自我中心感知
具身人工智能基于自我导向的感知模型构建,在理论体系上与传统的异己导向模型存在显著区别。基于第一人称视角的感知机制能够更精准地捕捉主体对外界环境的认知特征。这种以自身为中心的信息处理方式不仅能够识别直接关联于主体的对象信息,在同心感知模式下还会自动关注于其他主体对象的位置信息(如前厅位置等)。具备全局环境认知能力的人工智能系统可能在异中心感知方面表现出色。然而,在实际应用中,“具身主体”仅能获取基于自身第一人称视角的感受信息。实体代理系统由于缺乏全局空间认知能力,在实现环境导航与规划时会面临诸多限制问题。回顾相关研究可知,在关注个体自主性这一核心议题的前提下,“具身人工智能”这一概念仍需进一步深化和完善
互联网人工智能
相较于基于互联网的人工智能系统而言, 具体执行型的人工智能面临着更为复杂的挑战. 基于互联网的人工智能系统主要通过从"互联网数据集"(如ImageNet)中获取大量静态图片来进行学习, 这些图片具有良好的质量和精美的装帧; 与此同时, 以自身为中心感知的嵌入式人工智慧则会生成可能不够稳定且构图欠佳的画面或视频内容. 相较于基于外部数据集的学习方式, 以自身为中心感知所固有的特性为具体执行型的人工智慧带来了独特的变化特征. 此外, 基于外部数据集的学习重点主要集中在对来自网络的各种图片、视频以及文本进行模式识别上, 而以自身为中心感知的重点则在于使环境中具体执行主体(如机器人)具备主动行动的能力. 因此, 我们的最终目标即是结合现有的技术发展优势, 将基于外部数据集取得的进步成果成功应用至具体执行型的人工智慧体系之中
主动感知
该代理可能在其活动范围内的任何位置生成,并且无法立即获得其视觉目标信息(即汽车/目标可能不可见)。因此, 智能体需要主动移动以获取所需信息——通过控制所感知的操作结果来完成任务。观察结果反映了代理通过执行操作而获得的信息。代理能够调节输入数据的空间分布. 这种模式与基于静态图像的数据集不同, 在线生成并能覆盖多个视角变化. 主动感知的任务之一是对视觉变化具有广泛鲁棒性.
稀疏奖励
与监督学习框架下的对象检测或图像识别不同,在强化学习中的一些替代方案确实能够实时获取每个动作的即时反馈。强化学习中的代理通常面临稀疏奖励的情境,在某些动态环境中也是如此;而在其他情况下,则仅在完成特定目标时才能获得正面反馈(例如'走到汽车')。这将导致反馈信息相对稀缺,并且会使预测未来行为变得更加困难;同时,在某些情况下仅完成特定任务才能获得正面反馈也会限制探索的有效性
任务
具身智能领域可以完成多项任务。以下是一些现有任务。
视觉里程计 Visual Odometry
通过任何传感器测量车辆行驶的距离, 其中视觉里程计量是由用于确定具体使用的特定传感器属于视觉类型(如相机)。车辆行驶的距离总是相对于起始位置而言, 因此, 视觉里程计量必须基于初始位置已知这一前提来进行运算. 视觉定位技术(Vision Odometry, VO)作为一种重要的姿态估计方法, 自20世纪以来便受到了计算机视觉与机器人学领域的广泛关注. 它不仅被广泛应用于各类机器人系统中, 而且还能够补充传统的GPS定位、惯性导航系统(INS)以及车轮式里程计量等技术手段. 在过去30年间, 人们为了开发出更加精确与强大的VO系统而进行了大量的研究与探索.
全局定位 Global Localization
基于给定的环境地图和代理观察条件下的自主代理位置估计问题。自主代理依赖于在不确定条件下进行精确的定位能力,并以此为基础完成一系列后续任务工作流程。作为机器人数学的基础问题之一,在实际应用中有着重要的地位和作用。本地化技术广泛应用于自动驾驶汽车、工业机器人以及无人机配送等场景中发挥着关键作用。全局定位问题假定起始位置未知(与基于视觉的 Odometry(VO)相比)。尽管这一领域已有较长时间的发展历史(与已有一定基础的研究相比),但全局定位仍是一个尚未彻底解决的难题。
视觉导航 Visual Navigation
三维环境中的导航是在物理世界或模拟环境中运行的机器人的一项基本功能。人类和其他动物能够自然地在复杂而动态的环境中顺利穿越并实现多个目标。动物能够在未曾接触过的环境中独立且有意识地导航,并通过这一过程形成对这些环境的内部表征。这种内部表示对于人工智能系统至关重要
基础语言学习 Grounded Language Learning
人工智慧技术正日益广泛地渗透到我们的生活中。它们不仅主导着我们的决策过程,并且在执行各种行动中发挥关键作用。因此亟需开发一套通用交流工具来指导与之互动。其中最为引人注目的是人类语言系统。为了使该系统具备良好的扩展性需求智能化体必须具备将语言转化为具体行动的能力并理解其背后的意义这实际上意味着尽管如此在人工智能领域学习基础语言仍然是一个具有挑战性的课题
指令引导视觉导航 Instruction Guided Visual Navigation
也许有可能向机器人发出通用指令,并有一定成功的几率让它完成所需的任务。这也被视为机器人与人工智能的一项重要目标。尽管已取得重大进展,在实现真正的人工智能之前仍需应对一系列关键的技术障碍。其中一项主要需求是将自然语言与非结构化环境中的视觉信息及行动联系起来的技术。这项关注点被称为视觉和语言导航(VLN)。
具身问答 Embodied Question Answering
EmbodiedQA 指的是代理在一个随机生成的3D环境中提出问题的能力(如询问物品的颜色)。为了应对这些问题(如指示其回答为"橙色!"),代理必须具备智能导航能力以探索环境,并通过以自身为中心的第一视角视觉收集信息。该系统要求代理具备一系列人工智能技能:主动感知能力要求智能体移动以获取相关视觉信息;语言理解能力则需解析问题内容;目标导向的导航策略需要明确行动方向;常识推理能力则用于判断物品通常位于何处;最后是将语言信息转化为具体的操作指令。

数据集和模拟器 Datasets and Simulators
数据集一直是互联网人工智能进步的关键驱动力。借助 Embodied AI,模拟器将承担之前由数据集扮演的角色。数据集由环境的 3D 扫描组成。这些数据集代表房屋、实验室、房间或外部世界的 3D 场景。然而,这些 3D 扫描不允许特工“走过”它或与之交互。模拟器允许实体主体与环境进行物理交互并在其中行走。将数据集导入模拟器中,供实体主体居住并与之交互。借助模拟器,代理可以查看、移动环境并与其环境交互。代理甚至可以借助模拟器的功能与其他代理或人类交谈。
环境是通过模拟器实现的。然而,有不同类型的环境表示。
1)非结构化的环境能够保存所有细节,并或许还可以缩减规模作为典型示例。Habitat 作为一个具体实例展示了这种特性。该系统能够支持长时间的任务执行。目前的环境模型主要基于这些特征构建,并通常包含用于描述状态空间的度量表示。
拓扑学中的一种方法可以用于表示环境中关键点之间的关系。具体来说,在这种拓扑环境中定义了一种包含两个要素的数据结构:一种是用于根据观察结果在图中检索特定节点的方法;另一种是用于描述这些节点之间连接关系的信息存储机制。需要注意的是,在这种情况下,并未对空间中的具体距离或物理位置进行度量;相反地,则着重于描述各节点之间是否存在连接关系。此外,在这种拓扑环境下构建的导航系统能够采用基于地标位置的导航策略(landmark navigation),而无需依赖于度量空间中的具体坐标。
3)空间记忆/认知图。地图绘制者依据代理基于自身视角所构建的地图来描绘环境的空间布局。通过空间记忆技术可以获取并记录环境的整体结构。认知框架整合了代理随着时间推移所积累的第一人称视角数据,并基于这些数据生成关于世界度量与语义自我中心感知的基础框架。随着每个时间步的到来,在线学习算法会根据新的观测更新当前的认知模型参数,并据此生成新的知识表示形式以反映动态变化的外部状态信息和内部感知模型变化情况
模拟真实
一种直接的方法是将实体智能体置于真实的物理环境中。这种做法虽然有价值……它在现实世界中的实施却面临诸多挑战:操作过程缓慢且存在安全隐患(可能导致机器人摔倒或损坏设备)、资源消耗巨大(不仅涉及机器人本身还需要大量的人力物力支持)以及难以实现完美复现(尤其是在极端边缘条件下)。相比之下……通过在虚拟环境中培养实体代理并将其技能迁移到真实环境中是一种更为高效的方式。这种方案的优势在于其运行速度远超实时水平,并支持大规模并行计算;此外,在安全性方面具有显著优势
