论文阅读:Multiview Scene Graph
目录
摘要
1 Introduction
3 Multiview scene graph
3.1 Problem definition
3.2 Evaluation metric
4 Our Baseline: Attention Association MSG Generation
摘要
准确的场景表示对于追求空间智能至关重要,在此智能体能够稳健地重建并高效地理解 3D 场景。场景表示要么是度量式的,比如 3D 重建中的地标地图、目标检测中的 3D 边界框或占用预测中的体素网格;要么是拓扑式的,诸如 SLAM 中含闭环的位姿图或 SfM 中的可见性图。在这项工作中,我们拟从无姿态图像构建多视图场景图(MSG),用相互连接的地点和目标节点从拓扑层面表征场景。 构建 MSG 的任务对现有表示学习方法颇具挑战,因其需从视野有限且视角变化可能较大的图像中,同时处理视觉地点识别、目标检测及目标关联问题。为评估应对此任务的各类方法,我们依据公开 3D 数据集开发了 MSG 数据集,并基于 MSG 边缘的交并比分数提出一种评估指标。此外,我们构建了一种新颖的基线方法,它依托主流预训练视觉模型,将视觉地点识别与目标关联整合进一个 Transformer 解码器架构。实验表明,与现有相关基线相比,我们的方法性能更优。所有代码与资源均在 https://ai4ce.github.io/MSG/开源。
1 Introduction
理解三维空间以及二维观测之间空间关系的能力,在移动智能体与现实物理世界的交互中起着核心作用。人类主要从视觉智能中获取此类空间智能[26, 45]。当人类处于未知环境中并试图从视觉观测来理解空间结构时,我们并非依据精确的米数和度数去感知与记忆场景。相反,我们基于视觉观测和常识从拓扑学角度构建认知地图[27, 48]。给定图像观测,我们能够通过寻找重叠的视觉线索,并从不同视角识别相同或不同的物体,来关联在同一地点拍摄的图像。这种从视觉感知建立对应关系的能力构成了我们空间记忆以及对世界认知表征的基础。我们能否赋予人工智能模型类似的空间智能呢?
**** 受此问题启发,我们提出构建多视图场景图(MSG)的任务,以明确评估表征学习模型理解空间对应关系的能力。具体而言,如图 1 所示,给定从同一场景拍摄的一组无姿态 RGB 图像,该任务需要构建一个由图像和对象节点组成的地点加对象图, 其中在相近位置拍摄的图像相互连接,并且同一对象在不同视图中的外观应作为一个对象节点关联在一起。

图 1:多视图场景图(MSG)。MSG 的任务以无姿态的 RGB 图像作为输入,并输出一个地点加对象图。该图包含地点-地点边和地点-对象边。相连的地点节点代表在同一地点拍摄的图像。从不同视角识别出的同一对象被关联并合并为一个节点,且与相应的地点节点相连。
总之,我们的贡献体现在两个方面:
- 我们提出将多视图场景图(MSG)生成作为评估空间智能的一项新任务。我们从公开可用的 3D 场景数据集中精心整理出一个数据集,并设计了评估指标以推动该任务。
- 我们为 MSG 任务设计了一种新颖的 Transformer 解码器架构。它联合学习地点和对象的嵌入表示,并依据嵌入距离确定图。实验证明了该模型相较于现有基线的有效性。
3 Multiview scene graph
3.1 Problem definition
Multiview Scene Graph 给定一组场景的未置图像
,我们将多视图场景图表示为场所对象图 :

其中,
和
分别指代地点和对象节点的集合。对象节点集
包含从
中检测到的所有对象。从不同视角的不同图像中检测到的同一对象应始终被视为一个对象节点。对于地点的定义,我们遵循视觉定位与识别(VPR)文献中的定义,并令
。这意味着每幅图像对应一个地点节点,如果两幅图像的拍摄仅存在很小的平移和旋转距离,它们就被视为在同一地点,并在
中有一条边相连。因此,
是地点-地点边的集合,指的是连接被视为在同一地点的图像的边(此边说明两幅图像拍摄的机位很靠近),而
代表地点-对象边的集合,指的是连接地点和出现在这些地点中的对象的边(此边说明有物体O出现在场景P)。因此,一个对象可以出现在多幅图像中,从而连接到多个地点节点。这些图像可以是近距离拍摄的,也可以是远距离拍摄的。自然地,一个地点节点可以连接到多个对象节点,因为一幅图像可能包含多个对象的外观。
MSG generation task 如图1所示,多视图场景图(MSG)生成任务,需要根据未定位的RGB图像集构建一个估计的地点+对象图
。该图进一步表示为一个大小为
的地点 + 对象邻接矩阵
,而真实图
由大小为
的
表示。
请注意,对象集
可能与
不同。
的质量通过测量
与真实值
的对比来评估。根据我们的定义,邻接矩阵可以进一步分解为如下的块矩阵:

其中
且
。同样的分解也适用于
。由于多视图场景图(MSG)只包含地点-地点边和地点 - 对象边,
留空。同时,
与
是对称的。因此,我们的评估将重点关注
和
。
3.2 Evaluation metric
鉴于两个邻接矩阵
和
是二进制的,我们通过计算它们的交并比(IoU)来衡量这两个图的对齐程度。如前所述,一个邻接矩阵
主要由两部分组成:地点-地点部分
和地点-对象部分
。因此,我们分别将它们作为 PP - IoU 和 PO - IoU 进行评估,并将它们组合起来得到整个图的IoU。我们在附录B.1中提供了针对任意两个二进制邻接矩阵的IoU计算的精确数学定义,为了简洁起见,我们在此用
来表示这个函数。
PP IoU 由于图像数量是确定的,并且真实值
和预测值
之间的一一对应关系是固定的,所以计算相对简单。因此,PP IoU简单地表示为:

此外,我们还报告了与 PP IoU 一起的 Recall@1 分数,因为它是视觉地点识别的标准评估指标。
PO IoU 然而,对于 PO IoU 来说,情况就没那么简单了。预测集中的对象数量
可能与
不同,并且它们的对应关系无法直接从邻接矩阵中确定。为了公平评估,我们需要尽可能地将
与
对齐。换句话说,在计算交并比(IoU)之前,我们需要为每个真实对象找到最佳匹配对象。这种从真实结果到预测结果的匹配在多对象跟踪中也是一个重要问题。为此,我们还记录了每幅图像中的对象边界框,并根据计算边界框的广义交并比分数(GloU)。然后,我们基于所有图像中累积的GloU分数计算
和
之间的一对一匹配。分数计算的细节包含在附录B.2中。根据匹配结果,我们可以重新排列
,使其与
中的对象最佳对齐。这可以用一个置换矩阵
来对
的列进行置换来表示。形式上,PO IoU表示如下:


图2:AoMSG模型。通过使用相应的边界框裁剪图像特征图来获得地点和对象查询。然后将这些查询输入到Transformer解码器中,以获得最终的地点和对象嵌入。为清晰起见,边界框使用不同颜色表示。Transformer解码器和线性投影头中的参数通过监督对比学习进行训练。图像编码器和对象检测器是经过预训练且冻结的。
4 Our Baseline: Attention Association MSG Generation
在为 MSG 生成任务开发新模型时,我们遵循两个核心原则:
- 首先,模型应基于预训练视觉模型的优势。这些预训练模型为视觉任务提供了强大的初始化,因为它们的输出特征包含丰富的语义信息,为类似任务奠定了坚实的基础。
- 其次,地点识别和对象关联从根本上解决了视觉对应问题,并且可以通过上下文信息相互强化。
因此,我们的模型旨在在一个统一框架内集成这两项任务。基于这些指导原则,我们提出了注意力关联多视图场景图(AoMSG)模型,如图 2 所示。
地点和对象编码 给定一批未定位的 RGB 图像作为输入,AoMSG 模型首先使用预训练的编码器和检测器来从每幅图像中生成图像标记和对象检测边界框。我们使用基于 Vision Transformer 的预训练模型 DINOv2 作为我们的编码器,尽管我们的设计适用于任何基于 Transformer 或基于 CNN 的编码器,这些编码器会生成一系列标记或特征图。在 DINOv2 编码器的情况下,我们将输出的标记序列重塑为特征图,该特征图与对齐的边界框对齐,为每个检测到的对象聚合一个编码特征。为了在统一框架内整合地点识别和对象关联,我们通过将其视为一个包含整个图像的大边界框来获取地点编码特征,将特征聚合为检测到的对象。所获得的地点特征随后与对象特征一起排列,作为 Transformer 解码器的查询,如后续部分所述。
AoMSG 解码器 我们遵循 DETR-like 结构来设计我们的 AoMSG 解码器。具体来说,所导出的地点和对象特征被堆叠为 Transformer 解码器的查询序列,而先前的图像标记则作为键和值使用。如图 2 所示,我们通过归一化和嵌入边界框坐标来增强查询。例如,对于地点特征,等效边界框是整个图像,如前所述,从而产生归一化坐标 [0, 0, 1, 1]。这些坐标被投影以匹配编码的维度,并添加到地点查询中。AoMSG Transformer 解码器的输出是具有从图像标记聚合的上下文信息的地点和对象嵌入。然后将两个线性投影头分别应用于每个对象和地点嵌入,以获得最终的对象和地点嵌入,将它们投影到表示空间中用于该任务。
损失和预测 对于训练,我们以多任务方式分别对来自同一训练批次的地点和对象嵌入进行监督对比学习。对于对象损失,我们简单地使用具有较高正权重的二元交叉熵。对于地点损失,最小化它们余弦距离的均方误差,这在经验上能得到更好的结果。 在推理过程中,我们简单地计算地点嵌入之间的余弦相似度,并应用一个阈值来获得
中的地点-地点预测。对于对象,我们追踪它们的出现情况,并为每个场景维护一个现有对象的记忆库,根据余弦相似度和阈值来更新它们的嵌入或注册新对象。结果随后被转换为
中的地点 - 对象部分。值得注意的是,计算对比损失和确定预测有很多可能的选择,我们选择简单的方法,因为我们从经验中发现标准损失和简单的余弦阈值处理已经可以产生不错的结果,同时使嵌入空间的意义更加直观。我们将在第5节详细讨论结果。
6 Discussion
6.1 Application
鉴于在新视角合成、3D重建和度量映射方面的最新进展,人们可能会怀疑所提出的多视图场景图(MSG)是否仍然有用。在此,我们提供一些理由和展示应用。与3D场景图相关文献[32, 66]相呼应,我们认为MSG可以成为嵌入式人工智能体和机器人的一种通用心智模型。在全局层面上,它能从纯2D RGB输入中保持场景的轻量级拓扑记忆,这可以作为机器人导航的基础[15, 37]。在更精细的层面上,它可以与3D重建方法无缝结合,以估计深度和姿态并构建局部重建。因此,机器人可以在环境中移动,参照MSG进行自身定位,并在需要诸如操作任务等度量信息时构建局部重建。
作为一个展示应用,我们使用最新的现成3D重建模型Dust3r提供了图6所示的两个局部3D重建案例。直接将Dust3r应用于密集图像集会极大地消耗GPU内存,这对移动机器人来说可能是不可行的。然而,随机子采样无法保证重建质量。相反,借助多视图场景图(MSG),我们可以为Dust3r提供局部互联子图,以实现快速且可靠的局部重建。由于MSG具有地点加对象的特性,这些子图和局部重建可以以对象为中心。此外,局部重建通过MSG在拓扑结构上相互连接。这表明MSG能够提供一种平衡2D和3D、抽象与细节的灵活场景表示。

图6:使用现成模型Dust3r 从2D多视图场景图(MSG)进行局部3D重建。两个场景的3D网格并排展示,每个场景上方有3个用灰色圈出并进行了重建的子图。
6.2 Limitation
当前的工作仍然存在许多局限性。首先,我们只在一个数据集上进行了实验。尽管该数据集包含大约5000个场景,足以获得令人信服的结果,但如果能看到在更多样化的数据集上进行训练能够产生更好的模型和更强的泛化能力(正如[63]中所观察到的那样),尤其是对于更大的模型,那将是非常好的。我们把这个问题留作未来的工作。其次,当前数据集中的场景只包含静态物体,向动态物体扩展是一个值得探索的方向。
此外,鉴于这项工作的范围是提出多视图场景图(MSG)作为一个促进空间智能的新视觉任务,我们专注于明确评估图的质量。因此,我们没有研究物体检测质量,也没有将MSG应用于诸如导航之类的下游任务。请注意,检测质量确实会影响MSG的性能,尽管我们发现它在不同的检测模式(即真实值和GroundingDINO)下是一致的。将检测器与MSG模型一起训练并将MSG应用于下游任务将是我们使这项工作成为一个更完整系统的下一步。
