具身智能与强化学习前沿进展 | 2023智源大会精彩回顾
导读
今年值得铭记的一年,在过去一年里,谷歌发布了具身多模态大模型,并展示了智能体与环境之间的智能交互能力;与此同时,特斯拉的人形机器人则引发了人们对这一前沿技术及其未来发展方向的广泛遐想。那么,在这一领域中,具身智能如今已抵达何方?
在2023北京智源大会"具身智能与强化学习"论坛中,本次汇聚了来自该领域的杰出学者,包括北京大学助理教授王鹤,美国UCSD的助理教授苏昊,北京大学另一位assistant professor卢宗青,清华大学副研究员眭亚楠,以及中科院计算所研究员蒋树强.围绕当前具身智能领域的最新动态展开讨论;同时聚焦于这一技术的发展进程中,探究其在未来将承担什么样的角色.

本论坛由王鹤主持,下文是精彩回顾。
苏昊:Modeling the 3D Physical World for Embodied AI

UCSD助理教授苏昊将分享题为《Modeling the 3D Physical World for Embodied AI》的精彩演讲,并阐述了如何在三维物理空间中构建具身智能体系。他指出,在这一领域研究的核心难题集中体现在概念生成与知识表示层面。作为人工智能体系中的核心技术环节之一,在这项研究中他强调了其底层架构主要由感知-认知-行动一体化组成,并提出了其终极追求即是打造具备自主学习能力的人工智能系统
具身智能具有长远目标的追求,并非遥不可及而是广泛涵盖了人工智能的核心领域。该研究方向整合了控制理论、信息论、博弈论以及认知科学等多个学科领域的研究成果。苏昊指出这一目标预示着人工智能将进入一个崭新的发展阶段。目前而言具身智能的主要实现手段仍局限于基础能力训练(basis ability training)。这些基础能力多用于解决短期任务问题(short-term task-oriented problems),时间尺度一般在2-3秒之间波动最多不超过5秒(at most 5 seconds)。通过将这些基础能力巧妙地结合使用以完成更为复杂的任务(complex tasks)。尽管如此这些基础能力仍面临诸多挑战:例如涉及视觉感知摩擦力的变化转动惯量的变化物体硬度以及形状等多维度的问题(a variety of challenges concerning visual perception, frictional forces, rotational inertia, object hardness and shapes)。
苏昊指出,在这一领域中掌握物体操作技能的学习被视为具身智能的基础性任务。其地位类似于计算机视觉中的物体识别任务。若此任务得以实现,则其他诸多问题将变得相对容易解决。他进一步指出,在结合大型预训练模型与具身智能的过程中需要大量的高质量数据支持。其数据来源主要来自真实世界或通过生成机制模拟的数据例如模拟器(Simulator)。这些模拟工具在某些方面具有真实世界无法比拟的优势例如具有良好的可扩展性、可复现性和快速原型(prototyping)能力
根据自然语言处理领域的Transformer架构启发
最后,苏昊指出了3D的AIGC与具身智能之间的密切关系,并指出前者的功能可为其生成大量几何数据。他还认为将图形学与机器学习相结合将成为具身智能未来发展的关键趋势之一。

卢宗青:从视频、文本到智能体策略学习

针对强化学习中的样本效率问题以及简单游戏通常需经历大量操作步骤等主要挑战,在北京大学助理教授并担任智源学者的卢宗青教授于其题为《从视频与文本到智能体策略学习》的研究报告中阐述了基于视频与文本数据辅助强化学习算法构建策略体的方法论
卢宗青指出这种视觉观察学习的核心问题在于掌握一个策略使其在状态及其后续状态的联合概率分布上与专家模型达到一致。此外他们进一步利用任务提示将文本与图像进行关联以促进智能体更有效地进行知识获取这可通过微调CLIP技术来实现具体来说它能将文本与图像关联起来并据此生成适合智能体的奖励函数以优化其行为。
卢宗青阐述了优化奖励函数以适应强化学习任务的方法,并提出了在《我的世界》中解决区域划分以及复杂任务处理的具体策略。他指出,在处理复杂数字时需要构建多层次结构,并探讨了大语言模型(如ChatGPT)在高层次规划方面的潜力。特别强调,在训练底层技能时需要注重从数据与视频中获取经验或进行精细学习。针对长期稀疏奖励的问题,他提出应构建分层结构,并建议使用具备强推理能力的语言模型进行规划工作。关于系统的泛化能力问题上,则认为必须依赖视觉与语言的共同进化机制才能实现策略层面的泛化能力。
眭亚楠:交互式建模与学习:重建人类运动功能

关于《交互式建模与学习:重建人类运动功能》一文,在清华大学副教授眭亚楠的研究中探讨了AI技术在重建人类运动功能方面的应用。该研究着重分析了从无模型学习(model-free learning)向基于模型学习(model-based learning)的转变过程,并探讨了如何确保系统的安全性以及提高采样效率的问题。他指出,在早期的研究中,在物理世界的控制问题上采用了离线强化学习的方法,并关注其安全性、偏好度及其采样效率等问题。
在线强化学习具有很高的潜力
在实际应用中,在线强化学习面临一个关键挑战:依赖人类偏好反馈的信息收集是一个复杂的过程。通过采用A/B测试法和概率预测模型等方法,在解决在线强化学习中的核心难题方面取得了显著进展。A/B测试法让用户能够在两个选项中选出更优者;概率预测模型则帮助建立输出与输入之间的动态关联关系
�亚楠在报告中深入探讨了在线优化技术的应用,并详细阐述了其在实际场景中的应对措施。他指出,在神经调控与运动控制的相关挑战面前,在线优化方法能够有效提升系统性能,并在此过程中帮助截瘫患者站立以及高位截瘫患者的手部抓握能力的恢复。
具身智能从建立世界模型扩展到建立人类自身模型(self model),通过神经-肌肉-骨骼系统建模能够使对人的运动功能的描述、理解和控制更加精准从而为人类运动功能的重建提供了更多可能性
蒋树强:具身智能中的视觉导航

中科院计算技术研究所研究员蒋树强在报告《具身智能中的视觉导航》中阐述了当前视觉导航技术的发展现状及其研究方向,并特别强调了这一领域的价值与难点问题。他指出,在当前环境下,在线学习系统已经展现出同样具有竞争力的优势,并且在某些领域可能比传统模式识别方法更为高效可靠。然而,在整个体系中还存在诸多未被系统设定的问题或仍处于初期探索阶段的技术环节。要实现真正的人机交互目标,则仍然面临诸多未解之谜有待进一步突破与完善。此外,在这一研究领域中起着关键作用的是支撑系统——主要包括人形机器人、机械臂等设备——这些支撑系统的建立和发展直接关系到整个体系能否取得突破性进展及其应用前景如何扩大。为了实现真正的智能化目标,则必须将各部分的能力有机地结合在一起形成一个完整的认知体系——这不仅涉及感知能力的提升与数据处理水平的优化更为关键的是要在不同层次上实现感知-认知-行为的整体协调机制构建起来的基础上才能真正达到智能化的目标要求。
蒋树强深入探讨了视觉导航技术及其在机器人领域的应用与挑战。传统的定位方法依赖于构建环境地图,并且通常采用基于传感器的数据融合策略来估计机器人位置状态信息。相比之下,视觉 Navigation 突出强调通过图像信息感知实时位姿的能力。该技术主要由图像处理算法、机器学习模型以及强化学习机制共同构成以实现自主航行能力。具体而言,在系统架构上主要包括图像编码器模块用于提取特征信息动作决策器用于生成控制指令以及奖励惩罚机制用于评估优化效果等环节。为了使 Visual Navigation 系统发挥其最佳效能需要综合考量充足的数据支持强大的特征表示能力高效训练的预建模型以及多任务协同训练方案等多个关键因素以确保系统的稳定性和可靠性。他介绍了一系列创新性研究成果其中一项是基于场景图的地图驱动全局路径规划系统能够在静态环境中快速生成最优路径并避免障碍物阻挡问题;另一项是多目标动态路径优化系统能够有效应对复杂环境下的多约束条件下的最优解搜索问题;还有就是实例级局部避障系统能够在动态环境中实时响应障碍物变化并保证安全通过能力;此外还有一个零样本学习驱动的自适应Navigation框架能在无先验知识的情况下通过大量实际运行数据不断优化自身性能从而提升泛化能力。然而这些研究仍面临构建先验知识体系自动更新机制以及理解复杂物体关系等技术难题亟待进一步突破以推动Visual Navigation 技术向更高水平发展
此外,在介绍场景图的相关知识时蒋树强详细阐述了场景图的建立和更新过程,并重点讲解了如何通过场景图实现动态路径规划这一技术手段。他强调导航任务的复杂性与挑战性指出尽管目前这项技术仍处于研究探索阶段但未来的发展前景依然广阔大模型作为这一领域的重要技术手段之一在实现智能化应用方面发挥着关键作用然而如何将这些技术成功地应用于实际的具身智能系统还需要解决许多关键问题
圆桌论坛

按顺序来看的话:北京大学的年轻教师包括王鹤和苏昊两位杰出青年;UCSD的年轻教师包括两位年轻学者:卢宗青和眭亚楠;而中科院计算技术研究所的年轻教师则由蒋树强担任。
王鹤先生在学术讨论中提出了一个问题:相较于之前提出的 disembodied intelligence 和网络化智能化两种概念,体态感知与行为控制智能是否带来了新的研究课题与技术难题?
苏昊:主要难题是如何实现感知、认知与行动之间的融合?这个核心难点在于最有效地构建对世界的模型,在新的概念不断涌现时尤其如此。
然而现有梯度下降方法无法支撑推理实现良好组合泛化的能力如何?它们是否需要以符号形式存在?
卢宗青指出基础模型(Foundation Model)是一个非常活跃的研究领域,在当前人工智能研究中占据重要地位。其中大型语言模型因其强大的应用潜力而备受关注。尽管这些技术能够有效地提取和组织大量信息,并在此基础上生成新的知识输出;然而这些方法在一定程度上依赖于语言学的抽象框架,在具体应用场景中往往缺乏足够的细节刻画。
因此主要障碍是:如何整合大型语言模型到具身智能系统中,并使模型能够适应其所在的环境以积累关于环境的具体表象(感知信息)和具身知识(基于身体的感知与行动的知识)。
另一个主要问题是:将抽象的物理世界转化为具体的物理世界的具体方法是什么?具体来说,在具身智能领域中, 如何构建一个输入式的视觉模型, 并将其与文本或符号表示结合使用以实现对每个像素位置的精确感知?这个问题也是一个需要深入研究的方向。
在讨论具身智能与机器人学习时, 王鹤指出世界模型的重要性变得愈发显著. 这一发现引发了关于其如何影响具身智能领域的问题探讨.
卢宗青:World Model被视为一个广泛的概念,在强化学习框架中对应于基于模型的强化学习(Model-based RL)。在Internet AI时代以前的研究中——尤其是计算机视觉这类任务——决策问题并未被纳入研究重点。相比之下,在机器人学领域必须处理每个动作的选择过程。此时可采用基于World Model的方法或基于模型的强化学习来进行策略规划
苏昊表示,在他的时代互联网AI已经到来,在这个背景下研究者们更倾向于聚焦于前向预测方面的探索与应用,并且由于技术局限性使得预测结果的准确性难以得到充分验证与确认。然而在具身智能领域中基于世界模型的方法则面临着更为严峻的挑战:误差积累的问题变得愈发突出
当一个系统执行多步骤预测任务时,在这一过程中可能出现误差逐步积累的现象
王鹤指出:人类学习的本质是通过感知与行动建立联系(Perception-Action Loop)。在这个过程中,个体通过感知采取行动,并由此改变环境状态;随后又会重新审视所获信息以形成新的认知框架。在具身智能体系中,在对环境进行建模的基础上能够预测不同行为及其后果,在复杂情境下实现适当反应。
换一个问题,请问体感智能与其安全性之间存在怎样的关联?它带来了哪些新型安全挑战?
�亚楠:通常情况下,具身智能都需要与环境或人类进行互动。其中安全性问题尤为关键,在无人环境下运行如自动码头或工厂系统时虽然安全考量相对较低但主要涉及经济成本而在涉及人类的环境中则面临更为复杂的算法挑战和伦理道德层面的问题人们普遍缺乏对智能系统的信任度远低于对其它人以及专业专家的信任度因此当具备人智能逐渐提升时特别需要注意其与人类互动过程中的相关问题
王鹤:在学术研究角度,除了导航之外,还有哪些值得研究的问题?
蒋树强:在具身智能背景下值得深入研究的问题有很多。例如,在具身场景下, 传统的人工智能研究任务会面临哪些新的挑战?这些新兴技术如何与其他技术领域(如计算机视觉、自然语言处理和运动控制)进行深度融合?
此外,在关注大模型的过程中,人们渐渐转向了对大模型的关注。然而,在具身智能环境下,尽管面临动态环境和上下文等挑战,大模型可能并不适用。这也为具身智能研究带来了新的难题。
他指出,在具身智能领域研究中
大型模型(如GPT-4)之所以成功,是因为其充分利用了网络资源中的图文对以及文字材料等多维度数据支持。对于具身智能系统而言,如何获取这样的实时感知与决策的数据仍是一个亟待解决的关键问题。可能的方法包括模仿人类操作获取示范性数据以及利用仿真环境中执行强化学习策略等方法来实现
王鹤:请问如何获取更多数据?
苏昊:在具身学习领域中,获取具身大数据被视为一个关键挑战。缺乏足够的具身大数据时,在讨论任何关于具身基础模型的问题之前就难以深入探讨。获取具有体感大数据涉及两个主要问题:一是由于无法实现某些复杂的人机交互操作;二是受限于现有技术架构导致的数据生成效率较低。相较于前者,在模拟器中虽然能够提供相对可控的实验环境但仍然面临诸多挑战。
尽管遇到困难……但进展依然在进行。许多企业及团队正在致力于开发底层与上层仿真架构。
卢宗青的研究基于大量的视频数据尤其是第一人称视角的视频,在学术领域探索模型构建的难题但值得探索其中的技术
王鹤先生:归纳总结如下所述,在当前可用的数据类型中存在以下四种类型的数据:视觉信息数据、远程操控记录的数据、仿真模拟的数据以及强化学习算法产生的训练样本。
在推进通用具身机器人领域的发展过程中, 强化学习可能扮演关键角色. 我们可以在仿真实验环境中实施强化学习, 同样可以在现实环境中实施, 其中后者实施时可能面临挑战.
眭亚楠:像《我的世界》此类游戏可能会在算力提高后具有更强的真实性和物理交互性。现在的大规模3C游戏已经在交互性和模拟方面做得非常好。这些数据来源于对动物和人体的实际样本,例如肌肉的弹性系数、皮肤组织、骨强度以及神经系统参数。
此外
王鹤:从模拟到真实的差距有多大?强化学习等相关方法是否存在局限性?
蒋树强表示差距显著且存在不足之处,在模拟环境中运用强化学习来训练模型可能会有一定成效但当环境发生变化时模型在真实世界中可能难以发挥作用
强化学习必须具备足够的数据量,在某些情况下则要求具备较强的泛化能力。如果想进一步提升泛化能力,则可能会有赖于从真实环境获得更多的反馈信息。在实际应用中,在具身智能体系中强化学习作为一种关键的技术手段被广泛应用着它不仅是一个独立的方法论还常常与其他辅助手段协同工作这其中包括数据分析与融合技术并借鉴其他领域的知识与经验目前有一种观点认为强调数据驱动与知识引导相结合的学习方法然而,在实际应用过程中仅依赖数据驱动的方法难以满足需求;相反地,则必须结合人类反馈等其他因素以确保系统的高效性和实用性
苏昊:强化学习可能在三个层面有用:
强化学习起源于控制领域的基础层面;通过强化学习,在掌握基础层面上的操作能力时可以获得一个可靠的控制器。
上层层面:强化学习可被视为一种可在反馈中进行学习的方法,并非仅仅局限于控制工具的应用领域。此外,在出现错误时能够灵活调整规划策略的情况下,则也可用作一种探索工具,在错误中不断优化上层规划策略
- 模拟到真实:强化学习在操作技能领域的发展空间更为广阔。首先,在导航问题中无需使用强化学习即可通过直接建模解决这些问题。与此同时,在执行复杂动作时尤其是面对像经典机器人、软体机器人这样的系统时,则需要考虑摩擦力或其他复杂因素的影响。特别是在处理涉及嵌入式驱动系统这类场景时,则传统控制策略往往难以可靠地实现目标。因此,在这些情况下强化学习的应用显得尤为重要。
王鹤指出,在技能学习过程中,“操纵任务”确实非常复杂;通过试错法获得经验是一种重要方法。如同Google的摇操作系统所采用的方法,“模仿学习”也是一种有效途径。未来,“具身机器人”可能成为通用机器人技术的一个瓶颈;为了实现这一目标,“泛化”的、“低成本”的方式将被用于训练各类技能以适应真实环境
请谈谈技能学习。
卢宗青:利用大型语言模型(如GPT-4)以及视觉信息输入的方式构建的模型体系能够与之整合以实现相关功能具体而言该系统能够辅助完成诸如游戏《我的世界》之类的游戏相关任务
此外,在环境中的持续学习技能同样至关重要;而用于构建系统的视觉世界模型对于实现目标来说不可或缺。如何整合这种视觉世界模型与更具推理能力的语言模型之间的关系也是一个值得深入探讨的问题。
王鹤:关于具身大模型发展方向,有两种可能的发展道路:
类似于现成的GPT-4模型,具身智能系统能够接收图像信息与语言指令,进而直接产生机器人本体层的动作指令,例如指示机器人如何移动腿部或手部。
2.具身大模型输出的是机器人的技能,而不是底层的控制信号。
各位如何看待具身大模型的发展?
卢宗青在研究具身大模型的过程中指出,在这一领域中对" skill learning "的关注程度非常高。研究表明,在人类的成长过程中会不断积累各种" skill "储备, 如站立、行走等基本动作, 因此, 具体到" embodied intelligence ",就需要建立一个专门库—— skill library ——来进行系统化的" skill planning "工作。
掌握强化学习对于提升各类球类运动如网球和乒乓球等技能的学习效率具有重要意义。例如,在训练这些球类运动时无论是采用无模型(model-free)还是基于模型(model-based)的方法均要求通过不断的实践来掌握相应的技能。
蒋树强指出实现通用大模型仍面临诸多挑战。其训练数据的质量与效率直接影响其性能水平,在现实世界中这类具身智能场景与任务种类繁多因而构建真正意义上的通用大模型难度极大。即便如此对于专门针对某类特定任务设计的大模型而言数据采集过程同样繁琐
大模型可能会基于某些成功案例从特定任务开始逐步发展,并向其他领域延伸。对于某些特定的任务而言, 大模型可能表现出色; 然而是否能真正满足实际需求和完成目标仍需时间验证.
学术界难以承受大规模数据采集的高昂成本。虽然企业虽然有可能出资开展数据采集活动,但所开发的大规模模型是否能够满足实际应用场景的需求仍存疑问。
苏昊:具身大模型不是一个单一的系统而是由多个子系统组成的网络架构其中包括感知子系统、认知子系统以及决策子系统等。在实际发展路径上可能需要对这些子系统进行解耦处理从而使得每个子系统的数据需求相对降低。在引入规模概念时这将不需要那么多层级化的数据流与控制流程了
具身大模型在面临挑战时如何将其分解为若干个较小规模的大模型并进行系统性组织是一个重要课题。通过人类学习新事物的经验来看,当我们在接触新事物初期需投入大量时间和精力去理解和掌握基础认知,但随着经验的积累这一认知体系逐步内化成为自然的知识结构。这表明构建完整的能力体系不仅需要具备足够的资源支撑还需要在持续的学习实践中形成完整的知识网络
王鹤:如何实现人与智能机器人的共融共生?
�亚楠:我们已实现机器系统的深度协同共生。其中手机已成为我们生活中不可或缺的一部分。但人机交互仍可分为物理层面的硬性互动以及虚拟交流两大类。其中虚拟交流设备已相当普及;而物理层面的硬性互动中;尤其是能够实现与人类直接肢体接触的人型机器人领域仍面临着诸多挑战。
在现实应用中使用的人形机器人都会面临一个主要挑战:即维持身体稳定的能力不足。瘫痪者虽能借助自身的力量站立起来(瘫痪者虽能借助自身力量站立起来),但维持身体稳定仍是一项复杂的技术挑战。此问题也体现在机器人身上;尤其是其传感器和控制器系统与人类相比仍存在明显差距;因此并非所有实现共融共生的人机系统都采用双足设计;例如,在酒店等公共场所中已经出现了许多轮式机器人文体交互的成功案例;
卢宗青指出,在探讨人机协同共生之前,机器人必须具备智能化能力。有一些看似令人担忧的问题,并非不可解决的障碍;但当前我们还未能触及那个高度。
只要有机器人能够服务人类促进他们的生活 无论其形态如何都是可接受的
观众A:传统多模态和现在的大模型下多模态之间有什么区别?
蒋树强指出,在他之前的著作中,多模态技术主要包括图像、文本以及视频等多种数据类型,并通过综合学习的方式实现这些数据间的融合过程。当前的大型多模态模型主要基于Transformer架构设计,在此架构下努力构建视觉与语言之间的对齐机制
达成这种对齐任务仍然面临很大挑战。即使在语言层面完成词与词之间的配准时可能相对简单,在图像或视频中完成配准时则更具挑战性。
王鹤:身体感知多模态大模型与非身体感知多模态大模型之间存在根本性差异。基于具体形态的机器人设计将会使其行为模式与其形态特征紧密相关。举个例子来说吧:机器人能从事哪些任务?它有几条胳膊和腿吗?此外,请问它如何进行移动以及如何与环境互动呢?
观众B:通过训练一个大型语言模型使其处理金融数据的操作流程是什么?与采用具身代理方法相比有何不同?
卢宗青:大型语言模型通常不具备直接的操作记录数据;但如果数据中包含操作日志(例如交易记录),则有可能适用。否则的话,则这种方法可能不合适;具体情况主要取决于原始数据的内容及其特性。
金融领域的任务既可能涉及交易活动,也可能涉及资产配置管理。在宏观层面的任务中,大型语言模型可充当规划工具;而针对微观层面的任务,则可能会更适合采用强化学习策略。
王鹤认为,在探讨体感代理时将其应用于金融领域可能存在局限性(因为他指出),这是因为金融操作本质上是高度抽象的活动(强化学习与体感思想能够辅助金融交易活动)。他建议我们可以通过构建一个交易模拟器来训练交易策略;随后将其应用于真实市场环境并观察其适应性变化
