Advertisement

Multi-Modal Knowledge Graph(多模态知识图谱)

阅读量:
在这里插入图片描述

本篇博文旨在整理一篇基于知识领域的学术文章,并运用了多种媒介或数据形式构建起多模态的知识图谱系统。源自于复旦大学的研究成果,在内容安排上主要围绕以下几个方面展开:

  • Title:The Multi-Modal Knowledge Graph: Construction, Application, and Comprehensive Analysis
  • Link:A curated research paper resource for academic exploration at arXiv

知识图谱到多模态知识图谱
首先知识图谱是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。这种带有知识的结构也被广泛应用,但是,现有知识图谱都以纯文本的形式出现,却没有真实世界的连接。比如:

  • 掌握抽象概念的本质。为了使"dog"这一符号真正发挥作用,我们需要将其与现实世界中的狗建立联系,从而实现对其本质的理解.作者还提到了一些具体的例子,比如"Hand-in-waistcoat"这种表达方式.
  • 在执行特定任务时能够发挥重要作用.当处理关系提取任务时,额外的信息图层能够通过视觉效果来区分不同属性及其关系.例如,partOf这一术语暗示键盘不仅是笔记本电脑的一部分,屏幕同样如此.而对于颜色属性来说,像香蕉这样的物品通常呈现出黄色或黄绿色调,而不会含有蓝色.
  • 在文本生成任务中,适当的辅助信息能够显著提高生成结果的质量.具体来说,能够在生成实体级别的句子时提供更为具体的描述(例如提及特朗普当前正发表国情咨文),而无需依赖模糊的概念描述(例如简单地指出某位金发高个子男性正在进行演讲).

鉴于此,多模态知识图谱(即Multi-Modal Knowledge Graph、MMKG)逐渐受到学术界的重视。该文章主要聚焦于两大研究方向:

    1. 构建机制(Construction)。MMKG的构建机制主要包括两个方面:一是基于图像到符号的映射(from images to symbols),即通过知识图谱来标注图像中的符号元素;二是基于符号到图像的映射(from symbols to images),即将知识图谱中的符号元素对应到具体的图像内容。
    1. 应用领域(Application)。MMKG的应用可分为两类:一类是针对MMKG自身质量或集成问题的In-MMKG应用;另一类则是Out-of-MM-KG应用,指在一般多模态任务中直接运用MM KG技术。

多模态知识图谱的好处:

  • MMKG具备足够的背景知识以增强实体与概念的表现力;特别对于长尾问题而言;借助辅助性常识信息能够进一步提升图像与文本的表现能力。
  • MMKG具有理解图像中不可见物体的能力;这主要得益于符号知识所提供的视觉上不可见对象的符号表征;或通过构建看不见物体之间的语义关联来实现。
  • MMKG具备多模态推理的支持能力;借助外部知识资源的帮助;能够在视觉问答(VQA)任务中获得更好的推理效果。
  • MMKG一般采用多模态数据作为补充特性来弥补某些NLP任务中的信息缺口;例如,在实体识别场景下;一个图像通常能提供足够的视觉信息来判断"Rocky"是作为狗的名字还是人类的名字。

基于多模态的知识图谱构建
在实现 MM KG 构建的过程中, 需要将传统 KG 中的符号知识(涉及实体、概念及关系等方面)与图像信息建立联系。按照类型划分, MM KG 可分为 A 类和 B 类两大类,其中 A 类对应的是 attribute 多模态属性,它通过将图像或多模态数据作为 entity 或 concept 的重要属性信息;而 B 类则直接以 multimodal 数据作为 entity 信息的基础。如图所示,两类 MM KG 的核心推理关系主要体现在 hasImage 和 sameAs 等典型 predicate 上

在这里插入图片描述

在构建过程中, 上面已经介绍过的内容, 主要分为两类方法. (1) 基于图像到符号的转换, 即通过在图像中标注KG中的特定符号; (2) 基于符号到图像的转换, 即通过将图像进行labeling的方式实现对应关系. 图a展示了基于图像标签化的第一种构建方法, 而图b则展示了基于符号grounding的流行数据集所采用的构建方案.

在这里插入图片描述
  • 从图像到符号:标注图像(labeling images)。可以由人工标注的数据集来监督,让人画出边界框并标注带有给定标签的图像或图像区域。也可搭建一个系统来做,比如分为三个子任务:视觉实体/概念提取、视觉关系提取和视觉事件提取。视觉实体/概念提取的目的是检测和定位图像中的目标视觉对象,然后用KG中的实体/概念符号标记这些对象,目标检测和视觉定位使用较多;视觉关系提取的目的是识别图像中检测到的视觉实体/概念之间的语义关系,然后用KG中的关系对其进行标记,其中基于规则、统计或者更细粒度的方法较多;事件提取任务的目的是预测事件类型。
  • 从符号到图像:符号定位( symbol grounding)。主要寻找合适的图像来表示传统KG中已经存在的符号。与图像标注方式相比,这种方式在MMKG构建中更为广泛,主要分为几个过程:实体定位、概念定位和关系定位。对于找实体图像来说,基于百科或搜索是常见的方式;对于概念来说,该概念是否可以被可视化,和如何从大量图片中选择有代表性、多样性的图片是重要话题;对于关系定位来说,图文匹配或图匹配会是比较好的选择。

研究者对这两方面面临的挑战以及改进的可能性进行了深入分析,并建议感兴趣的话拜读原文。与此同时,在现有基础上如何充分利用这些已较为完善的MMKG同样值得探索。

在这里插入图片描述

多模态知识图谱应用
则主要包含两大类:内生性和外生性。其中,在MM KG内部构建的应用场景,则指那些完全基于MM KG自身的业务需求而开展的任务。具体包括但不限于:链接预测(Link Prediction),即通过分析节点之间的关系强度及分布特征,在已有数据的基础上推导出潜在的连接关系;三元组级别的分类任务(Triple Classification),旨在对已有的三元组进行属性划分;实体级别的分类与识别(Entity Classification);以及实体间的一一对应关系建立(Entity Alignment)。这些均属于知识图谱领域已深入研究的任务;本篇博文则不展开详细讨论相关技术细节。

基于MMKG扩展的下游任务中包含多种应用方向如跨模态实体识别与关联、视觉信息检索、图像语义匹配等多模态内容生成以及跨模态推荐系统

基于MMKG扩展的下游任务中包含多种应用方向如跨模态实体识别与关联、视觉信息检索、图像语义匹配等多模态内容生成以及跨模态推荐系统

  • Multimodal Entity Recognition and Linking:图像为实体识别提供了补充性信息。
    主要基于MMKG中图像知识的两种应用方式:一是为实体识别目标提供链接建议;二是构建多模态数据分布化的表征以度量相关性。
  • Visual Question Answering:MMKG为问题实体及其图像关联的知识提供了关键的基础。
  • Image-Text Matching:通过多模态实体间关系扩展视觉与语义概念。
    此外还能帮助构建场景图并引入视觉概念间的信息关联知识。
  • Multi-modal Generation Tasks:包括图像标签、描述生成及视觉叙事等任务;MMKG的概念知识显著提升了图像表征能力。
    在歧义处理、不可见物体与词汇量等方面表现尤为突出。
  • Multi-modal Recommender System:扩展性地引入MMKG能实现个性化、丰富的表示完全可以通过其 KG 在推荐系统中的应用效果得到提升。
    博主对此已有相关论文整理:
    博文索引

多模态知识图谱开放问题
作者主要提了以下未来的开放性问题:

  • 复杂符号知识定位(Grounding Complex Symbolic Knowledge Grounding)。即除了实体、概念和关系的基础之外,一些下游应用还需要复杂的符号知识的基础,如KG中的一条路径、一个子图等涉及到多重关系。且在许多情况下,多重关系的复合语义是隐式表达的且可能随着时间而改变。
  • 质量控制(Quality Control)。大规模的MMKG可能存在错误、缺少事实或过时的事实,因此精度、完整性、一致性和新鲜度,图像质量等可能都需要被讨论。
  • 效率(Efficiency)。MMKG的构造效率问题较大,如NEIL需要大约350K CPU hours来为2273个对象收集400K的可视化实例,而在一个典型的KG中,这个数量会变成数十亿个实例。而如果继续扩展到视频数据,这个扩展性问题会继续被放大。除了MMKG的构建,MMKG的在线应用的要求也会更高。

全部评论 (0)

还没有任何评论哟~