iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models使用大模型构建知识图谱
Abstract
大多数的知识都是非结构化的,直接访问有价值信息会变得困难,因此自动构建知识图谱对于构建数据并直接访问至关重要。传统的NLP方法例如实体命名识别和关系提取是信息检索的关键,但需要预定义实体类型和监督学习;当前大模型可以使用零样本学习和小样本学习,然而未解决实体和关系的语义重复问题。本文提出方法,包括四个模块:文档蒸馏器、增量实体提取器、增量关系提取器、图集成器和可视化可以实现广泛的知识图谱构建场景。
Introduction
当今大多数数据是非结构化的,不有效理由会导致大量丢失;非结构化数据缺乏预定义的数据格式,对传统数据处理方法有重要挑战。
采用文本理解和信息提取技术来有效地分析数据:
Transform架构和大模型从大量的自然语言文本中提取和构建信息,可以涉及构建知识图谱;知识图谱通过捕获实体之间的关系来构建知识表示,并且分析文本数据集合和从结构化异构数据中推断知识。知识图谱可以合并不同来源的数据,为文本语料库的分析提供可解释性。
用大模型来构建知识图谱(补全,本体细化,知识问答 )提供了广阔的前景,根据大模型小样本学习能力可以实现即插即用的解决方法,无需大量的微调就可以用来提取跨域的知识。
本文提出:iText2KG的技术,使用大模型从原始文本增量构建一致的KG零样本学习方法。包含模型如下:
1)Document Distiller:使用大模型格式化文本变成预定义的语义块,指导模型从每个文档中提取相关的特定文本信息;
2)iEntities Extractor:识别语义块的唯一语义实体并确保实体可以区分;
3)iRelation Extractor :处理已解析的实体以及语义块,以检测语义的唯一关系。
4)Neo4j :以图形化直观表示这些关系和实体。
Related works
介绍了当前大模型构建知识图谱的相关方法:AttacKG+、Text2KGBench、零样本生成数据集再微调。介绍了三种范式进行分类:本体引导、微调和零样本或少样本学习。
Incremental Text2KG
实体关系集合包括语义上的唯一元素,知识图谱上的每个实体和关系必须独立且唯一,没有重复和语义重叠。

iText2KG 模块的整体工作流程
一、Document Distiller
使用大模型将输入文档重写为语义块,考虑预定义模板,该模式不是一个本体论而是一个blueprint,让大模型偏向于定义类型。(类似于预定义json模板,指示大模型从每个文件中提取关键特定文本信息)聚合json语义块使用langchain定义模式和上下文。(1)通过减少可能的冗余信息提高信噪比;(2)使用模式指导图谱构建。
Langchain’s JSON Parserhttps://python.langchain.com/v0.1/docs/modules/model_io/output_parsers/ types/json/
二、Incremental Entities Extractor
迭代所有语义块并提取全局文档实体,有算法介绍。

1、初始化:
从第一个文档中提取实体,初始化全局实体集;
2、实体匹配:
(1)对于文档集的每一个文档都进行进行实体的提取,作为局部实体;
(2)局部实体和全局实体进行匹配;(局部存在全局,直接匹配;局部不在全局,相似度匹配,相似度高成功匹配;未匹配直接添加)
(3)匹配和全局实体进行合并,更新全局实体集。
三、Incremental Relations Extractor
通过关系匹配器提取文档全局关系,有算法介绍。

1、初始化:
从第一个文档中提取关系,并使用匹配的局部实体或全局实体作为上下文,输出全局关系集合。
2、关系匹配(存在直接;相似度匹配,成功匹配;没成功加入)。
3、更新全局关系集。
四、Graph Integrator
将全局文档实体和全局文档关系输入到 Neo4j 中以构建知识图。
Experiments
采用了三种用例:网站到KG、科学文章到KG、简历到KG。定一个两个分数:模式一致性得分:衡量知识图谱模型;信息一致性得分:衡量提取内容与原始文档语义的匹配程度。
Conclusion
优势如下:
1、传统知识图谱构建方法通常依赖于预定义的本体论和广泛的监督训练,而iText2KG 使用了用户定义的蓝图。可以根据具体场景来定制,适应不同类型的数据输入。
2、减少孤立节点和没有匹配的关系和实体的数量。
3、通过使用iText2KG ,实体和关系的提取精度显著提高。
