读论文 NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models
研究背景:近年来,在处理复杂问题方面表现出色的大型语言模型(LLMs),包括ChatGPT和GPT-4,在经过无限语言数据训练后,推动了通用体现代理技术的进步。传统的视觉与语言导航(VLN)任务通常基于特定任务训练的模型。然而,本文提出了一种名为NavGPT的新系统。该系统能够通过零样本顺序预测动作验证大语言模型(LLM)在复杂场景下的推理能力。 NavGPT系统能够将复杂的导航指令分解为若干子目标,在此基础上整合已有的知识基础,并实时追踪任务进展及应对可能出现的情况。
源码:https://github.com/GengzeZhou/NavGPT
主要贡献:
开发了一种创新性地采用了指令跟随 LLMs 代理技术,并被应用于视觉导航领域;该系统配备了支持其在执行过程中与环境交互以及追踪其航行历史的数据系统的功能。
研究了当前 LLMs 在导航决策中的推理能力及其局限性;
通过演示LLMs在导航高级规划中的性能表现出来后,在促进导航代理的规划流程时更容易被理解并解释清楚

该系统的工作流程图详细阐述了利用视觉-语言模型(VLM)以及大语言模型(LLM)来进行导航任务的过程。该系统能够通过与其他多种视觉基础模型交互来适应多样化的输入数据,并结合历史缓冲区与 GPT-3.5 摘要器来管理历史信息。系统通过提示管理器整合各来源信息后,在分析并理解 LLM 想法的基础上(具体指 LLM 提出的想法),再结合 LLM 的知识库进行判断与决策,在此过程中引导移动至下一个目标位置

如图直观地呈现了视觉与语言协同工作的机制及大语言模型在复杂导航中的应用流程。各组件之间的协调使智能体能够在未知环境下依据指令进行合理的路径规划。
Visual Foundation Models(视觉基础模型)· 房间左侧展示了3D视角的画面,在线采集了多个视角下的环境图像,并将这些数据传递给Visual Foundation Model(CLIP)。这些智能模块能够从不同角度生成相应的图像信息。
2. 可移动视界(Navigable Viewpoints) · 定义:基于不同可移动的节点规划多角度布局方案以供智能体参考使用这些空间布局 · 功能:通过图像展示了房间内的多个可移动视点系统通过这些节点的位置与覆盖范围来确定目标方向并辅助路径规划
Prompt Manager(提示管理器)· 功能模块:该系统的核心模块负责将视觉模型生成的环境描述与可访问的视点位置及其他相关数据整合成一个综合性的指令。该综合指令会被发送给大型语言模型以确定下一步行动方向。整合后的指令中会包含环境中的物体位置信息(如灯座、沙发),以及可操作的方向指示。
ChatGPT(大语言模型)·功能: ChatGPT 负责接收提示管理器提供的文本信息,并解析并识别当前环境布局以及用户的指令内容。系统图中呈现了 ChatGPT 输出的具体场景描述示例:如一个带弯曲沙发、一盏台灯及窗户布置的客厅等。这些描述用于辅助智能体解析其当前位置所见之物
Output Descriptions(输出描述) · 过程:由系统基于视觉模型以及提示管理器生成关于当前环境的具体信息。ChatGPT根据上述输入形成高层次的理解,并对房间的整体结构及主要物体的位置进行归纳总结。

NavGPT 的特性。该系统通过明确的顺序动作预测机制实现高级规划能力,并支持以下核心功能:首先将指令划分为若干子目标;其次结合常识库进行推理;第三步通过观察场景数据识别地标位置;第四实时追踪导航进程;最后能够有效处理导航中的异常情况并动态调整规划方案。
图中的场景分为四种主要类型:
1. Progress Tracking(进度跟踪)——短指令与长指令
短指令示例:指令定义为"依次登上楼梯直至顶端"。系统持续监控任务进度,并通过"Thought"模块追踪当前位置及下一步行动计划。该模块将根据观测数据动态更新自身状态信息。例如:当前处于底层楼梯段,在此阶段应执行登楼操作以进入下一楼层段
长指令示例:详细操作步骤包括‘移入室内区域、深入厨房区域、至大黑色书架右侧之门’。系统同样通过逐步推理过程及持续监控整个操作流程...
2. Exception Handling(异常处理)——长指令
- 指令可能过于复杂,并且包含了多层次的任务。
- 当系统在某个步骤无法定位目标物体时(比如书架),它的思考将被重新评估。
- 它会改变策略以寻找目标物体,并建议探索其他区域的可能性。
采用动态调整机制和优化的异常响应策略,在复杂工作环境中具备良好的应变能力。
3. Sub-goal Planning(子目标规划)——短指令
示例:指示是"避开床、置于门口"。系统首先识别或设定子目标(如避开床)。然后,在每个子目标完成后逐步规划后续行动。每个步骤中系统都会细致分析并持续监控当前状况。最终精确地定位到指定位置。
任务分为多个子目标
4. Integrating Commonsense Knowledge(整合常识知识)
示例:系统必须利用常识来补充不明确的指令。
例如,在我的情况下,“我要走到水槽,但看不到水槽”时,
这时系统将整合已掌握的信息与常识,
进一步确定可能的位置并规划前往最近的导航点。
主要功能:该系统无需明确视觉信号或具体指令指导,在缺乏视觉信息时依靠常识推理机制来弥补信息缺口,并进而规划后续行动步骤。

1. Trajectory of NavGPT(NavGPT的轨迹)
图像左侧呈现了一个三维室内环境并提供俯视视角;显示的是该环境中智能体的空间行进路线。黄线勾勒出 intelligent body 的移动轨迹;它从起始位置出发,并通过多个房间后抵达目标位置。
在不同导航节点中进行探索时
2. Ground Truth Instruction(真实指令)
位于右上方的部分展示了系统在执行过程中包含的真实自然语言指令。这些指令包含:
离开缝纫室后向右转朝装有婴儿的玻璃窗移动穿过左侧的小门再穿过一张铺着床单的小床到达左侧紧邻的小门走进浴室在水盆边等待
这些真实指令旨在告诉智能体如何在复杂的室内环境中导航。
3. Instruction Generated by GPT-4(GPT-4生成的指令)
基于观察与场景建模的能力,GPT-4成功生成了一种自然语言描述,这种描述旨在阐述智能体在环境中的导航路线.这些指令特别关注环境中的视觉特征,具体包括:天花板上的一架小提琴,悬挂在建筑顶端的大吊灯以及墙面作品等.与实际操作性更强的真实指令相比,在视觉符号识别方面表现出更强的能力.
该部分展示了大语言模型如何基于环境生成指令,以指导智能体行动。
4. Top-down Map Drew by GPT-4(GPT-4绘制的俯视图)
位于右下方的图表以GPT-4为框架展示了基于智能体路径绘制生成的俯视图。此图以坐标系的形式呈现:纵坐标代表了位置的变化情况;横坐标则标识着时间或步骤的变化过程。通过该图表可以清晰观察到智能体在各个导航阶段的位置演变过程
