笔记:Unbiased Scene Graph Generation from Biased Training
Unbiased Scene Graph Generation from Biased Training CVPR2020
本文借鉴了《The Book of Why》一书中所阐述的一种逻辑推理思想。当一个模型在训练阶段推断"on"这个词出现了1000次,并超过"stand on"的数量时,在测试阶段很可能将其归类为"on"而非"stand on"。该图表旨在说明,在训练推理过程中我们将那些模糊不清的词汇替换成更具体的术语以提高区分度(从而间接地降低了'on'出现的可能性),例如将'near'替换为'behind'或'in front of'等其他相关术语。这种方法仅是众多可能性中的一种。

该文所提出的是一种反事实因果推理模型旨在使机器学习区分主要影响与次要影响的程度。若无法看到图片本身是否仍能进行预测呢?反事实概念处于现实观察与想象构想之间的位置通过对比真实情况与假设性情境下的结果来消除上下文偏差。基于上下文信息所得出的结果应当具有一致性。

假设一个站在浮板上的狗如图(a),因训练偏差导致模型误判为'... on ...'并剔除大量不合理的关联关系,在其中最大的问题是'... on ...'。图(b)中去除了该狗及其浮板的视觉特征,并保留其他场景中的物体

如图所示为Causal Graph模型框架包含两种主要推断策略第一种基于事实推导路径X→Z→Y与Y相关的联结链其中X代表特征节点Z代表中间预测节点而I则表示输入图像通过提取其区域特征RoI分别对Z和Y进行直接预测任务两者的预测结果再通过加权融合得到最终输出Y_hat。第二种推断方式则构建了隐式的因果关系网络不受输入图像I的影响仅基于节点间的全局联结性进行推理运算以实现对复杂系统行为的建模能力。此外该模型还首次将图像处理与因果推理相结合实现了跨模态数据的有效融合与语义信息的深度提取能力。
该方法可无缝整合到现有主流的深度学习框架如VTransE、Motifs和VCTree中由于其优异的性能指标已在多个领域展现出显著的应用潜力包括但不仅限于图像理解自然语言处理以及多模态交互系统等场景。
首先我们定义有向无环图G=(N,E)其中N代表变量集合即下图左半部分E则表示各变量间的因果关系网络连接结构其中特别地我们关注的是右半部分所展示的核心模块设计基础及其在实际应用中的表现情况。

节点I代表了图像输入与backbone的结合。该模型基于Faster RCNN进行预训练,并对该节点进行固定处理。该模型生成的目标边界框(bounding box)及其对应的特征图谱(feature map M)。

连接I->X:通过Faster RCNN的提取出RoIlAlign特征:

以及经过object分类器得到的label:

基于Motifs和VCTree模型的类比,我们采用LSTM模型对每个object的视觉上下文进行编码:

节点X:从x中成对的取一些object feature作为X:

简化为x_e:

关联X至Z:具体来说,这指的是基于Motifs中使用LSTM模型来输出标签z,并非只能依赖于现有的方法;此外,还可以借助其他分类器完成这项功能。
节点Z:包含的是成对的object label,以one-hot向量存储。

关联X至Y: 该方法仍采用Motifs中的LSTM架构(第二层),直接由成对特征X推导出关系分类结果

连接 Z->Y:用object class输入到SGG中,生成N*N的one-hot向量z_e
连接 I->Y:用Region feature信息作为输入,表示为v_e

集合定义了两个RoIs的bounding box。
节点Y处进行谓词分类。
通过融合函数将三个分支整合后得到最终结果Y。
研究中对比测试了两种融合函数

训练时用object label和predicate label的交叉熵损失。
防止单链接控制逻辑产生(尤其是Z->Y的情况),我们增加了辅助交叉熵损失项,并特别关注并预测各分支的强度
防止单链接控制逻辑产生(尤其是Z->Y的情况),我们增加了辅助交叉熵损失项,并特别关注并预测各分支的强度
4.Unbiased Prediction by Causal Effects
上文阐述了一个常规模型的训练框架。在本文中提出了一种新的方法:上文阐述了一个常规模型的训练框架。本文的核心思路是通过切断I→X这条路径进行设置:具体来说,在该路径被切断后,在X节点处赋予一个虚拟值,并根据这一操作推断出相关的谓词是什么。实际上就是采用控制变量法进行对比实验:即类似于假设一个人吸烟的情况与不吸烟的情况(好比吸烟的人),观察两种情况下对结果的影响是否存在偏差:如果有偏差则可以通过消除次要影响因素来修正模型;如果结果无偏差则说明两种情况下的结果一致

上图中(b)即为断开I到X的联系,并与I无关。此处采用平均特征或零向量。Z则遵循真实的X到Z关系。

根据事实和反事实分析(其中一部分源于原始图表信息,另一部分源自反事实推理方法),如图所示,在图a和c中推导出两个谓词Y:

计算TDE(Total Direct Effect):

特殊一些:只考虑x,u对Y的影响:

能够有效地消除如在y=kx+b方程中b所造成的偏差影响。TDE实际上得出了精确值即b值。进一步利用实际数据来修正这些误差从而获得最终计算结果。(统计图表显示频率呈现下降趋势其余指标则有所上升)

将常规的一次性预测替换为TDE,它考虑两次的原因是 第一次观察

另一次是想象

最终无偏Y预测被表示为如下形式

不需要任何附加的参数,可以广泛应用。
5.实验 VG数据集

这是作者分享的一些技巧:https://mp.weixin.qq.com/s/wLsVyyhP9jjBoj1FMgy3xg
