Advertisement

Multi-level Knowledge Injecting for Visual Commonsense Reasoning

阅读量:

背景

本篇的工作来自北大彭宇新组,论文被TCSVT接收

摘要

该文提出了一种名为VCR的方法来进行多级知识注入。作者认为,在推理能力方面人类表现出色的原因主要包括以下两个关键因素:其一,在认知层面积累的知识体系较为丰富;其二,在进行复杂逻辑运算的能力上有显著优势。针对上述两点问题,在研究过程中作者提出了CKRM网络这一解决方案:即通过构建一个多层级的知识迁移机制来辅助系统获取外部知识资源,并在此基础上设计了一种基于知识的信息推理框架来提升内部逻辑处理能力。

方法

该网络实现了多层次的知识迁移机制,并包含三种不同级别的知识迁移器:细胞层次转移器、层层次转移器以及注意力层次转移器。从知识迁移的概念出发可以推断作者采用了基于迁移学习的方法。通过将源域的知识(作为常识性内容)迁移到目标域中进行应用,在源域的任务中采用的是SWAG数据集,在此过程中模型根据上下文内容选择合适的结论。(正确答案已经黑体标出)

在这里插入图片描述
Multi-level knowledge transfer network模块结构
在这里插入图片描述

由图可知,在源域与目标域中均采用了BiLSTM模型来提取文本特征。
在细胞级迁移过程中(即cell-level transfer),当应用于正式任务VCR时,在每个LSTM单元接收前一时间步的状态输出h_{k-1}^T的同时也接收到了对应位置处来自源域同一时间步的状态输出s_k
其中,在合并这两个来源的信息时,默认使用相同的权重参数\lambda_k来进行加权计算。

在这里插入图片描述

layer-level transfer 采用源域LSTM和目标域LSTM最后一位隐层的状态来构成全局上下文特征的基础,并将其输入到后续处理阶段

在这里插入图片描述

Attention-level transfer 经过源域的两路文本特征输出后会有attention交互操作。这种交互之后得到权重信息会被输入到目标域正式任务的attention机制中。这些权重信息从而帮助向目标域的任务提供额外的知识引导。

基于知识的推理Knowledge based reasoning

第二部分推理模块的输入包含三个要素:图像特征、attention-level指引信息以及layer-level指引信息。在推理细节方面有所欠缺时(采用BiLSTM机制进行推导),前两项输入主要用于提取被关注到的空间特征表示。

结论

本文提出了一种能够获取外部常识知识并将其注入以支撑视觉常识推理任务的CKRM框架。首先我们提出了一个多层次的知识转移网络并从不同的角度捕捉源任务信息即单元级层级和注意力级的信息。其次我们进一步提出了一种基于知识的推理方法该方法能够充分利用转移的知识来推导推理结果。作为一个端到端的架构我们的方法能够通过联合优化实现迁移学习与推理能力的相互促进。我们在VCR数据集上进行了实验验证了所提出方法的有效性在此基础上在未来的工作中我们将探索如何加入更多的知识类型以辅助视觉常识推理任务。深度学习与传统人工智能方法相结合是一个很有前途的方向我们将探索如何更好地将经典的基于知识的方法与深度学习相结合。

全部评论 (0)

还没有任何评论哟~