【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation
这项研究提出了一种新的方法,LLM4SGG,用于弱监督场景图生成(WSSGG),通过利用大型语言模型(LLM)来缓解现有方法中两个主要问题:语义简化和低密度场景图。研究指出,现有方法主要集中在从图像标题中提取三元组,但忽略了三元组形成过程中的关键问题。为了解决这些问题,LLM4SGG采用了链式推理和上下文少样本学习技术,显著提高了现有WSSGG方法在视觉基因组和GQA数据集上的性能。该方法在数据效率方面也表现出色,仅需少量训练图像即可有效训练模型。研究验证了LLM4SGG在解决WSSGG中的长尾问题方面的有效性,首次证明了其在弱监督场景图生成中的优势。
论文阅读
论文研读
论文研读
abstract
由于全监督方法对标注数据的高昂成本高度依赖,弱监督场景图生成(WSSGG)研究近期出现。在这一方面(In this regard),针对WSSGG的研究主要依赖图像标题(image caption)来获取非局部三元组,而主要关注将非局部三元组建立在图像区域上。
为解决这两个挑战,本文提出了一种创新的方法,即弱监督SGG的大型语言模型(LLM4SGG),通过利用LLM在从标题中提取三元组以及实体/谓词类与目标数据对齐期间对语言和推理能力的深入理解来缓解这两个问题。为了进一步促进LLM参与这些过程,我们采用了思维链的思想和上下文内的少样本学习策略。
1. Introduction
场景图生成(Scene Graph Generation, SGG)是计算机视觉中的一个核心任务,旨在从图像中提取结构化视觉知识[21,32,36,39,45,56]。大多数现有的SGG方法均基于全监督的学习框架,即需要依赖于高质量的标注数据,这些标注数据不仅包含实体和谓词的类别信息,还涉及实体的边界框信息[19,48,50]。由于构建大规模标注的场景图数据集是一项高成本的工程,严重依赖高质量标注数据给模型训练[54]带来了实际应用中的诸多限制。为了缓解人工标注带来的高昂成本,弱监督场景图生成(WSSGG)方法近年来逐渐兴起,其目标是无需任何标注数据即可训练SGG模型[20,47,54,57]。具体而言,最近提出的WSSGG方法的核心思想是利用图像标题和相关图像信息,因为这些信息易于从Web上获取[20,47,54,57]。
现有的WSSGG方法主要关注于步骤4[20,33,47,57]。以图1(a)为例,他们的研究重点在于将实体人通过未定位的三元组进行grounding,该三元组能够有效捕捉坐姿行为的图像区域。具体而言,LSWS[47]通过三元组内嵌入的语言结构,结合上下文对象信息,实现了对非定位实体的精确grounding。另一方面,[20]则采用了预训练的视觉-语言模型[15],以反映图像描述中实体间的语义交互。

然而,我们认为现有的WSSGG方法忽略了步骤2和步骤3中进行的三元组形成过程的重要性。我们确定了下面描述的两个主要问题,即语义过度简化和低密度场景图,这在步骤2和3之后会导致不完备的未定位三元组。这些不完备的三元组语大多是数量有限的无信息谓词,即使在步骤4中正确地建立了实体,也会对SGG模型的训练产生负面影响。为了证明不完备的未定位三元组的影响,我们遵循提取未定位的三元组的常规过程(即步骤1-3),并对从COCO标题数据集中获得的三元组进行检查,这些三元组是通过步骤2中的场景解析器[43]和步骤3中的WordNet[25]生成的。因此,我们发现了以下两个问题:
语义简化:
我们发现,标准的场景图解析器[43]基于步骤2中常用的启发式规则原则进行操作,导致提取三元组中的谓词的语义过度简化。换句话说,细粒度谓词被不期望地转换为粗粒度谓词,我们称之为语义过度简化。例如,在图1©中,由于基于规则的解析器无法立即捕获所基于的谓词,且其启发式规则无法适应描述文字结构的多样化范围,图像描述中的信息量较大的谓词(即细粒度谓词)被转换为信息量较小的谓词(即粗粒度谓词)。结果,谓词分布变得非常长,其中粗粒度谓词(例如,with、on、in)的数量大大超过细粒度谓词(例如,parked on, covered in)(图1(b))。更糟糕的是,许多细粒度谓词最终以0的频率结束,即使它们最初出现在标题中。具体来说,50个谓词中有12个是不存在的,这意味着这12个谓词永远无法预测,因为模型根本没有在这些谓词上进行训练。
低密度场景图:
我们发现步骤3中基于kb的三元组对齐导致低密度场景图,即步骤3后剩余的三元组数量较少。将低密度场景图主要归因于步骤3中对知识库的利用。具体来说,如果三元组中的任何一个成分(即主、谓、宾)或它们的同义/上义/下义未能与目标数据中的实体或谓词类对齐,则丢弃三元组。例如,在图1(d)中,三元组⟨elephant, carrying, log⟩被丢弃,因为在视觉基因组数据集中不存在日志,也不存在其同义词/上义,即使大象和携带确实存在。在表1中,我们报告了视觉基因组数据集(全监督SGG方法中常用的基准数据集)和COCO caption数据集(弱监督SGG方法中常用的基准数据集)中的三元组和图像数量。我们观察到平均每个图像包含7.1个三胞胎(即405K/57K)(见表1(a)),而COCO数据集每个图像只包含2.4个三胞胎(即154K/64K)(见表1(b))。这表明现有的WSSGG方法缺乏对每张图像的充分监督,导致泛化能力差和性能下降[47,49]。综上所述,依赖知识库的静态结构化知识不足以覆盖大范围词汇之间的语义关系,从而导致步骤(3)后的低密度场景图。
为解决语义表达过于简化和处理低密度场景图等问题,本研究提出了一种新型方法,即弱监督SGG的大型语言模型(LLM4SGG)。该模型基于预训练的大型语言模型(LLM)架构,在符号推理、算术运算以及常识推理等下游任务中展现出显著的可扩展性[2,5,38]。在借鉴Chain-of-thought (CoT -[41])的思想基础上,将三元组生成过程分解为两条独立的链路,分别对应步骤2中的基于规则的解析器(即Chain-1)和步骤3中的知识库(即Chain-2)。具体而言,我们设计了一个从标题中提取三元组的prompt,并要求LLM识别<主语、谓语、宾语>(Chain-1)构成的三元组。通过LLM对标题内容的全面理解,我们期望提取出的谓词具有丰富的语义内涵,从而有效缓解语义表达过于简化的挑战。为应对低密度场景图问题,我们还引入了原始标题的解释版本。为此,进一步设计了一个用于解释原始文本的prompt,并从解释后的标题中提取了更多三元组。然而,Chain-1生成的三元组中实体和谓词与目标数据尚不匹配。针对这一问题,我们设计了另一个prompt,要求LLM将这些三元组与目标数据中感兴趣的实体/谓词类进行对齐,并将其与预定义的语义词典中的词汇进行匹配(Chain-2)。为了使LLM能够参与Chain-1和Chain-2的推理过程,我们采用了上下文少样本学习方法,在提示中融入了一些输入输出示例,使LLM能够在无需微调的情况下完成任务。
为了验证LLM4SGG的有效性,我们将其应用于最先进的WSSGG方法[54,57]。通过大量实验,我们发现,LLM4SGG通过缓解语义过简化和低密度场景图(见表1,其中三元组数量增加到334K)显著提升了现有WSSGG方法在视觉基因组和GQA数据集上的平均Recall@K和Recall@K性能。LLM4SGG的另一个显著优势是其高效性,即使在训练图像数量有限的情况下,其性能也优于现有的基线方法,进一步验证了LLM4SGG的有效性。

2. Related Works
To be done
