知识图谱综述笔记
知识图谱
目的
以结构化的方式描述客观世界中概念、实体、事件及其间的关系 ,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
概念
人们理解客观世界的线索,是人们对客观世界中的事物在不同层次上的概念化描述,概念层次是知识图谱的“骨骼”
- 如人、动物、组织机构等
实体
客观世界中的具体事物
- 如篮球运动员姚明、互联网公司腾讯等
事件
客观世界的活动
- 如地震、买卖行为等
关系
述概念实体、事件之间客观存在的关联
- 如毕业院校描述了个人与其所在院校的关系,运动员和篮球运动员之间概念和子概念的关系等
现有知识图谱资源
根据信息来源和获取方式的不同划分:
依靠人工构建的知识资源
- 早期知识资源通过人工添加和合作编辑获得
- 例如
-
WordNet
-
Cyc
- 通用的世界知识库
- 目的
将上百万条知识编码为机器可处理形式,并在此基础上实现知识推理等人工智能相关任务
-
HowNet
-
基于群体智能的知识图谱
- 维基百科是至今利用群体智能建立的互联网上最大的知识资源,因此出现了很多使用维基百科构建知识库的项目
- 例如
-
DBpedia
以构建本体的形式对知识条目进行组织 -
YAGO
融合 Word Net良好的概念层次结构和维基百科中的大量实体数据 -
Freebase
基于维基百科,使用群体智能方法建立的包含6800万实体的结构化数据的知识图谱 -
XLORE
以英文维基百科为桥梁,通过跨语言链接技术,建立融合了四大中英文百科数据的跨语言知识库
-
基于互联网链接数据构建的知识资源
国际万维网组织 W3C 于2007 年发起的开放互联数据项目(Linked Open Data,LOD),为实现网络环境下的知识发布、互联、共享和服务提供了创新技术,为智能搜索、知识问答和语义集成提供了创新源动力
基于机器学习和信息抽取构建的知识图谱
-
从互联网数据自动获取知识是建立可持续发展知识图谱的发展趋势
-
特点
面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取 Web上的信息构建知识库 -
例如
- KonwItAll
- TextRunner
- Never-Ending Language Learner,NELL
知识图谱技术
在建立知识图谱中使用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等技术的交叉研究
意义
- 探索从互联网语言资源中获取知识的理论和方法
- 促进知识驱动的语言理解研究
包括
知识表示
研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算
知识表示技术
符号主义
物理符号系统假设,认为人类认知和思维的基本单元是符号,而认知过程就是在符号表示上的运算
联结主义
人的认知就是相互联系的具有一定活性值的神经单元所形成网络的整体活动,知识信息不存在于特定的点,而是在神经网络的联结或者权重中
表示方法
基于符号逻辑的知识表示
定义
基于符号逻辑进行知识表示和推理。与人类的自然语言比较接近,是最早使用的一种知识表示方法
主要包括
* 逻辑表示法(如一阶逻辑、描述逻辑)
* 产生式表示法
* 框架表示
优缺点
* 虽然可以很好地描述逻辑推理,然而机器生成推理规则的能力很弱,往往需要大量的人力,而且传统方法对数据的质量要求较高。
* 在目前大规模数据时代,基于符号逻辑的方法已经不能很好地解决知识表示的问题
万维网内容的知识表示
定义
在语义网中,网络内容均有确定的意义,而且可以很容易地被计算机理解、获取和集成
互联网信息的描述
包括
* 基于标签的半结构置标语言XML
* 为内容置标,便于数据交换
* 基于万维网资源语义元数据描述框架RDF
* 通过三元组(主体,谓词,客体)描述互联网资源之间的语义关系
* 工业界大规模应用
* 基于描述逻辑的本体描述语言OWL
* 构建在RDF之上,是具有更强表达及解释能力的语言
意义
使我们可以将机器理解和处理的语义信息表示在万维网上
表示学习
目标
通过机器学习或深度学习,将研究对象的语义信息表示为稠密低维的实值向量。对不同粒度知识单元进行隐式的向量化表示,以支持大数据环境下知识的快速计算
包括
* 张量重构
综合整个知识库的信息,但在大数据环境下张量维度很高,重构的计算量较大
* 势能函数
关系是头实体到尾实体一种平移变换
优点
显著提升计算效率,有效缓解数据稀疏性,更容易实现不同来源的异质信息融合。
知识图谱构建
构建解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识
从互联网上分布、异构的海量资源中构建知识图谱的方法根据知识类型分类:
概念层次学习
-
定义
概念层次学习就是通过合理的技术,抽取知识表示中的概念,并确定其上下位关系 -
分类
-
基于启发式规则的方法
根据上下位概念的陈述模式,从大规模资源中找出可能具有上下位关系的概念对,并对上下位关系进行归纳 -
基于统计的概念层次学习方法
假设相同概念出现的上下文也相似,利用词语或实体分布的相似性,通过定义计算特征学习概率模型来得到概念结构
-
事实学习
定义
知识图谱中事实以三元组的形式表示,事实数量决定了知识图谱的丰富程度。
分类
有监督的事实知识获取方法
需要
有已标注文档作为训练集
分类
* 基于规则学习
从带语义标注的语料中自动学习标注规则,利用规则对数据资源进行语义标注
适合比较规范资源上的知识获取
基于分类标注
将知识获取转化为分类问题,根据确定的标注特征从标注语料中学习标注模型
基于序列标注
同时考虑多个语义标注之间的关系,可以提高标注的准确率。
考虑层次关系的语义标注的方法等
半监督的知识获取方法
* 自扩展方法
* 需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取以发现新的实体对
* 主要问题是语义漂移
* 弱监督方法
* 使用知识库中的关系启发式地标注文本
* 主要问题在于训练实例中本身带有大量噪音
无监督的知识获取方法
* 开放信息抽取,使用自然语言处理方法,无须预先给定要抽取的关系类别,自动将自然语言句子转换为命题
* 在处理复杂句子时效果会受到影响
针对已有的结构化异构语义资源进行的异构资源的语义集成:
- 异构
知识库间的异构性阻碍了知识在整个语义网上的共享
语义集成
在异构知识库之间,发现实体间的等价关系,从而实现知识共享
主要环节——本体映射
主要方法
* 基于文本的方法
利用本体中实体的文本信息,例如实体的标签和摘要。通过计算两个实体字符串之间的相似度来确定实体之间是否具有匹配关系
* 基于结构的方法
利用本体的图结构信息对本体进行匹配
* 代表方法——利用本体的图结构,对实体间的相似度进行传播,从而提高对齐的效果
* Sim-Rank
* 相似度传播
* 基于背景知识的方法
一般使用 DBpedia或 WordNet等已有的大规模领域无关知识库作为背景知识来提高匹配效果
* 基于机器学习的方法
将本体匹配问题视为机器学习中的分类或优化问题,从而采取机器学习方法获得匹配结果
* 例如
Niepert等人将本体匹配转换为马尔可夫逻辑网络问题,将本体中的各种信息转化为各种约束条件,并求出最优解
知识图谱应用
主要研究如何利用知识图谱建立基于知识的智能服务系统,更好解决实际应用问题
语义搜索
利用知识图谱所具有的良好定义的结构形式,以有向图的方式提供满足用户需求的结构化语义内容
包括
* RDF和 OWL的语义搜索引擎
* 基于链接数据的搜索
语义搜索利用建立大规模知识库对搜索关键词和文档内容进行语义标注,改善搜索结果,如谷歌、百度和搜狗在搜索结果中嵌入知识图谱,包括实体的结构化信息和相关实体的描述。
知识问答
基于知识库的问答通过对问句的语义分析,将非结构化问句解析成结构化的查询,在已有结构化的知识库上获取答案
不足
基于知识的问答依赖于语义解析器的性能,在面对大规模、开放域知识库时性能较差
基于知识的大数据分析与决策
- 利用知识图谱可以辅助行业和领域的大数据分析和决策
面临挑战
- 研究知识表示和获取的新理论和方法,使知识既具有显式的语义定义,又便于大数据下的知识计算
- 随着信息技术从信息服务向知识服务的转变,研究建立知识图谱构建的平台,以服务不同的行业和应用
- 知识图谱虽然已经在语义搜索和知识问答等应用中展示出一定的威力,但是基于知识图谱的应用研究远不止这些,如何进一步推进知识驱动的智能信息处理应用是十分有价值的研究
