2020-无偏见的场景图生成:Unbiased Scene Graph Generation from Biased Training
2020-无偏见的场景图生成:Unbiased Scene Graph Generation from Biased Training
- 摘要
-
引言
-
相关工作
-
因果图中的有偏训练模型
-
通过因果效应实现无偏预测
-
- 4.1 符号说明
- 4.2 总直接效应
-
Experiments
-
- 5.2 场景图生成诊断
- 5.3 实现细节
- 5.4 消融实验
- 5.5 量化研究
- 5.6 定性研究
-
Conclution
-
论文地址:(https://arxiv.org/pdf/2002.11949v3.pdf)
代码链接:(https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch)
Abstract
当前场景图生成任务(SGG)因存在明显的训练偏差而导致效果不尽如人意。然而消除这种偏差并非易事, 因为现有的去偏差方法无法明确区分良性偏差与恶性偏差, 比如良性偏差表现为"人们阅读书籍而非翻阅书籍", 而恶性偏差则表现为"near被误认为位于前后位置"等现象. 本研究提出了一种新的无偏景致生成框架. 该框架主要通过以下步骤实现: 首先构建一个因果关系图, 并采用带有一定偏差的传统方法对其进行训练; 然后从已训练好的模型中提取反事实因果关系, 最终推断出导致偏差的影响因素, 并将其从模型预测结果中去除. 为了衡量模型的无偏性能, 我们采用了Total Direct Effect指标作为评估标准. 值得注意的是, 该框架并未依赖于特定类型的SGG模型, 因此具有广泛的应用前景. 在Visual Genome基准测试以及多个流行模型上应用所提出的场景图诊断工具包后发现, 相较于现有最先进方法, 我们的改进方案取得了显著提升.
Introduction
场景图生成模型(SGG)旨在实现对目标物体的视觉检测以及图像中的关系建模。然而该模型无法充分支持基于图形推理的高水平视觉任务(如视觉标注、视觉问答等)所需的全面场景表征。然而我们的核心任务是[71,55,6]。假设有一个仅由稀疏二元关系连接的对象布局,并将这一结构直接嵌入到图形神经网络中以增强上下文对象表示能力。尽管当前在图推理方面的研究仍有不足之处,但关键在于准确预测偏见关系。

图1展示了先进模型基于SGG的结果分析。其主要缺陷在于:绝大多数被精确检测的目标对象之间的相互关系都非常微弱。如图1©所示,在二维空间布局上表现良好,在near, on, has等方面的表现则较为薄弱。这种现象的根本原因在于训练数据中的偏见性影响有限了模型的学习能力(图1(b))。出现频率较高的相关关系往往替代了频率较低的相关联系(behind/in front of取代near;parking on/driving on取代on)。因此,在区分复杂的关系层次时应更加注重细节描述(例如将"behind/in front of"与"near"区分开),而不仅仅停留在表面层面(如将"on"与"parking on"/"driving on"视为同一层次)。
然而,尽管有偏见的注释数据能够帮助模型建立基于内容的上下文先验知识(从而过滤掉不必要的搜索候选对象),但传统的反事实去偏见方法未能充分尊重"好偏见"的影响(即zero-shot SGG方法无法生成这些未观察到的关系)。这一结论源于以下观察:人类认知倾向于通过因果效应而非旁观现象来进行决策;而机器认知系统则更像是一个在巨大可能性列表中进行预测的选择器。
为了实现这一目标,在本文中我们引入了一种新的机制——反事实因果推理能力(counterfactual causal reasoning)。这种机制允许机器在无偏预测中聚焦于主要因果效应(而不是由旁观现象引入的影响因素)。通过这种方法实现的效果是:反事实推理关注的是客观上存在的事实与未发生事实之间的比较(即考虑事物存在与否所带来的差异),这种比较方式能够有效消除上下文偏差的影响。

图2(a)基于存在偏差的训练数据进行推断后导致预测结果偏向on这一结果,并由此可有效去除不合理的选项以提高判断质量。为了深入探讨上下文偏见的关系,在对比原始情形与反事实情况的基础上进行分析:图2(b)仅消除狗与冲浪板相关联的视觉特征而不影响其他场景及物体类别相关的视觉信息,在此基础之上可聚焦主要视觉效果的变化趋势。在因果推理领域中构建基于Total Direct Effect(TDE)分析框架下的无偏置信集生成器(SSG)方法。

如图3(b)所示,在实验结果中发现所提出的TDE方法显著提升了大部分谓词的表现。这些提升不仅体现在性能上更为稳定且均匀(non-long-tail distribution),而且这一效果完全源于该方法本身的优势特性而非依赖于更好的上下文利用能力(context biases)。值得注意的是,TDE作为一种独立于具体模型的设计方案,因此能够广泛应用于不同类型的模型架构以及融合机制(aggregation strategies)中
Related Work
场景图生成
大多数现有方法都在争取更好的特征提取网络。
无偏训练
现有的去偏方法大致分为两类:(1)数据增强或重采样 [9, 24, 26, 11, 3],(2)通过精心设计的训练或学习损失的无偏学习[72,29],(3)从无偏中分离偏见表示[35,4]。提出的TDE被分为三类,主要差异是TDE不需要像[35,4]训练额外层建模偏见,它直接通过因果图的反事实将偏见与现有模型分开。
效应分析
最近有很少的工作试图赋予该模型因果推理的能力。
Biased Training Models in Causal Graph

图4b展示了数据所隐含的因果关系及其变量获取其值的方式。该方案适用于多种基于符号几何学的方法。具体而言, 该方案包含三种具有代表性的模型案例: 经典的VTransE、先进的MOTIFS, 以及VCTree, 均采用节点与关系的语言进行描述。
(1) 输入图像与Backbone节点(I)。Faster R-CNN模型经过预训练并固定在该节点上, 通过此节点生成多个边界框并输出相应的特征图。
(2) 链接I→X的目标特征提取器(X)。利用Faster R-CNN的目标分类器从输入区域提取RoIAlign特征R={ri} 和暂定目标标签L={li}, 例如采用双向LSTM结构的MOTIFS或基于双向TreeLSTM结构的VCTree均可用于对实体视觉上下文进行建模。

(3)目标节点X(对应的目标特征)。
(4)各对象的微调标签从对应的xi解码后,并通过链接X->Z将其归类为目标分类。
(5)目标节点Z(对应的目标类别)。
(6)通过链接X->Y将SGG的目标特征输入引入系统,并将成对的X特征合并为一个模块的联合表示。
(7)各目标类别先验知识通过链接Z->Y引入SGG系统,并由联合嵌入层进行计算。
(8)视觉区域I通过链接I->Y传递到SGG系统中的视觉上下文输入部分,并提出聚合区域特征的上下文向量。
(9)预测结果节点Y(对应的分类结果)通过融合函数整合来自三个分支的信息以生成最终谓词对数。
(10)采用传统的交叉熵损失函数作为训练模型的标准指标。
Unbiased Prediction by Causal Effects
传统的偏见预测仅能观察到给定图像整体输出的结果,在图形分析中,则是通过直接干预几个节点的值来进行研究的方法。具体而言,在阻断连接I->X后,并为X引入虚拟赋值,在考察这一命题的基础上进行分析的方法被称为因果推理中的干预

4.1Notation
干预措施:去除一个变量的所有引入链接并强制设置其为固定值(见图5b)。反事实分析中将x赋值为缺失状态时(即x−),系统会继承原有的z值。研究中采用成对对象特征x作为调节影响的因素。

4.2 Total Direct Effect
无偏预测基于观测结果Yx(u)与潜在结果Y¯x,z(u)之间的差异。我们的目标是通过预测去除与上下文相关的偏差。直观上讲,我们希望实现公正预测的方法是从虚无到观测到具有特定属性、状态和行为的真实物体视觉刺激,而不仅仅依赖于环境与语言先验。

还有一种类型的效应(TE),它不涉及推导反事实偏差Y¯x、x(u),而是允许X的所有子节点能够通过干预手段实现变化(X=¯x),如图5(b)所示。因此,TE的具体表述为:

其本质区别在于Y_bar_x(u)并非建立在原始对象标签的基础之上(这些标签是由变量X所引发产生的),因此TE仅消除了整个数据集中的普遍偏差(类似于线性模型y = k·x + b中的截距项b),而这种偏差并不涉及我们关注的中介变量所带来的特殊影响。TE与TDE之间的细微差别则进一步被界定为自然间接效应(NIE)或纯间接效应(PIE)。就整体而言,在应用TDE进行预测时会呈现出无偏性特征——它实际上进行了两次‘推理’过程:第一次用于观察到Y_xe(u) = y_e;第二次则模拟了在没有X的影响下Y_bar_x,ze(u) = y_e(bar_x, ze)的情形。据此可得关于变量Y的无偏对数定义如下:

所提议的TDE没有引入任何附加参数,并且广泛适用于各种模型。
Experiments
采用VG数据集进行训练与评估
5.2 场景图生成诊断
SGG诊断有以下三个评估:
(1)关系检索(RR)。被分为三个子任务:预测分类 (PredCls)、场景图分类 (SGCls)、场景图检测(SGDet),使用mean Recall@K (mR@K),分别检索每个谓词,然后对所有谓词进行平均R@K。
(2)零镜头关系检索(ZSRR)。本文首次在VG数据集上进行了评估,它只报告了那些在训练集中从未观察到的主-谓-对象三胞胎的R@K。
(3)句子到图检索(S2GR)。RR和ZSRR都是三重级的评估,忽略了图级的一致性。因此,我们设计了S2GR,使用人类描述来检索检测到的SGR。在S2GR中,检测到的SGs(使用SGDet)被认为是图像的唯一表示,切断了所有对黑盒视觉特征的依赖性,因此对SGG的任何偏差都会敏感地破坏SGs的相贯性,导致更糟糕的检索结果。
5.3 实现细节
5.4 消融实验
此外,在已有研究的基础上, 我们进一步探索了以下几类经典的去偏方法: 包括传统的Focal, Reweight和Resample方法; 以及基于因果图的X2Y和X2Y-Tr模型; 同时涉及的还有因果效应分析中的TE( Treatment Effect )和NIE(Nonlinear Interaction Effects)。
5.5 量化研究




这三个模型和两个融合函数在应用TDE之后都有了显著的改进。
5.6 定性研究

每一个案例都揭示了一个显著的趋势,并且TDE对于语义关联而非微小偏差更为敏感。
Conclution
我们开发了一种基于偏差训练的无偏差SGG通用架构。该系统首个解决SGG中的严重偏差问题。借助反事实因果推理的能力,在良好的上下文偏差中去除了有害的偏向。通过构建因果图来计算 TDE 以实现系统的无偏差性。通过采用所提出的场景图诊断工具包进行评估,在所有测试案例中我们的无偏差模型表现显著优于有偏向模型的结果。
