Unbiased Scene Graph Generation from Biased Training
Unbiased Scene Graph Generation from Biased Training
Homepage: https://www.notion.so/Unbiased-SGG-from-Biased-Training-25d4f7ca02d64aeeb3a374d6056d123f
Publisher: CVPR
Status: Finalized
代码: 是
1.使用maskrnn-benchmark作为底层的物体检测
2.Integrate the latest and most comprehensive set of Performance Indicators, including Recalls such as Recall, Mean Recall, No Graph Constraint Recall and Zero Shot Recall, along with other related metrics.
3.针对有偏问题进行了专门设计的前提下,在现有技术框架内完成相关研究工作,并未 introducing全新架构或方法论。所采用的验证模型包括VTransE、MOTIFS以及VTree三种主要类型,并采用SUM和GATE两种融合机制进行综合评估。
作者指出目前的研究方法在处理推理问题时并非常规,在现有模型架构的基础上进行了多项改进以增强其处理能力。具体而言,在模型设计中引入了更为复杂的注意力机制以提升模型对数据集的拟合能力。值得注意的是,在这种改进下,无论输入内容如何,在同一个确定性的神经网络架构下始终只能得到唯一固定的输出结果。然而,
研究通过干预式的方法,在同一份输入样本下实现了同一体系在不同目标下的适应性输出。
目前主流采用的评价标准是Recall@K指标,在这一指标下即使模型仅学习了有限数量的典型关系如on/near/wear/has等基本关系时该指标仍表现出较高的准确性这种简单的场景图在后续推理任务中的辅助作用较为有限解决办法是尽可能多样化这些关系类型从而提高信息量进而提升整体性能
基于偏差训练实现无偏场景图合成
由于SGG方法本身存在一定的偏差,在无法观察到两个物体的具体特征(feature)的情况下(即上图所示),仅凭有限信息进行推测两个物体之间的关系(relationship)。这种情况下,在VG数据集背景下存在数据集本身存在的偏差问题以及长尾效应的影响下,虽然推测效果还可以接受。然而这种推测方式使得模型无法聚焦于物体的具体特征(feature),从而导致细粒度关系预测能力受限。具体而言,在训练过程中由于更细粒度的关系样本数量较少且易错的特点明显突出后端复杂行为如sitting on/standing on/riding全被简单归类为on状态预测。
我也提到了Recall@K这一重要评估指标。基于此重要评估标准,在这种情况下该模型的表现依然非常出色。即使模型仅识别出on, near, wear, has等少数几种关系,在这种有偏的情况下该模型在Recall@K方面的表现仍然非常优异。
Total Direct Effect(TDE)则用于取代单纯依赖网络log-likelihood这一指标。Effect,在医学领域中,则是用于确定药物有效性的方法论,在这种情况下不仅需要观察药物施用后的结果表现,并且还需排除因假药或其他干扰因素导致的虚假效果。在场景图生成过程中,则是通过评估生成效果来消除由于主观猜测而产生的干扰因素对结果的影响。
由于外链图片转存失败(建议您直接保存该文件后上传),您可以将此处的图片保存后直接上传(img-caGMGvGt-1659147704118))。该技术旨在实现无偏场景图生成过程中的改进效果(Unbiased Scene Graph Generation from Biased Training),通过改进现有的有偏训练方法(Biased Training),能够更有效地生成具有多样性和代表性的场景图(Scene Graphs)
由于存在防盗链设置问题可能导致外链图片无法直接加载,请您确保您的网络环境配置正确后重新尝试访问该链接。如果遇到持续问题建议先将图片文件本地下载并保存后进行重新上传操作以规避潜在的安全风险。
有偏训练:上图的左边因果图
I是通过faster R-CNN进过预训练的,输出bbox 以及 feature map M。
I→X物体的特征提取:通过faster R-CNN识别并获取RoIAlign特征R=ri以及暂定对象标签L=li。接着,在对每个暂定对象进行编码时
外部链接中的图片无法正常存储
Motif实现了其网络架构中的双向长短期记忆单元(Bi-LSTM),而VCTree则采用了双向TreeLSTM(Bi-TreeLSTM)这一模型结构,在早期的研究中,例如VTransE这类模型则仅采用完全连接的层。
xi;Zi-1
X→Z 标签映射 目标识别:Motif 和 VCTree 分别采用 LSTM 和 TreeLSTM 作为解码器以建模目标标签间的共现关系;每个 LSTM/TreeLSTM 的输入由特征及其前一个标签的融合组成【xi; Zi−1
在X到Y的关系中进行对象特征嵌入:当处理一对对象特征时,在其Motif与VCTree之间引入一个双向LSTM(Bi-LSTM)层以及一个双向树状递归LSTM(Bi-TREELSTM)层分别对其进行处理。基于这种方法设计的模型(即VTransE)采用全连接层以及基于差值的操作来整合各模态的信息。
Z→Y 对象标签嵌入:通过联合嵌入层计算语言先验
Z’e=Wz[zi⊗zj]
I → Y 视觉语境:提取上下文联合区域特征
V’e = Convs(RoIAlign(M, bi ∪ bj)),bi∪ bj表示两个ROI的并集框。
非有偏预测:上图右侧的因果关系图显示为反事实替代模型。非有偏地计算出的结果等于上面观测数据中的有偏差计算结果减去反事实替代模型的结果。因此我们通过获得反事实替换结果就能实现大道无偏差地进行预测。
将X设置为训练集的平均特征或零向量 表示为~~x ~~,其余都是一样。
结果:
SGDet/SGGen:给定图像,自己跑detection检测物体,最后预测场景图。
SGCls:根据输入图像及其标注的物体边界框信息...识别出物体对应的类别标签以及分析其关联性
PredCLs:Predicate Classification (PredCls): 给定全部标注的真实数据中的物体分类标签及其边界框,识别该场景图像中的物体分类信息。
由于外链图片转存失败的原因可能是存在防盗链等技术限制...源站可能有防盗链机制导致无法直接访问该图片资源,请检查网络设置或尝试更换设备进行访问
从偏置训练到无偏场景图生成
从偏置训练到无偏场景图生成
该图因防盗链机制无法直接访问
