知识图谱研究综述
清华大学李涓子教授“知识图谱研究综述”一文的阅读笔记。
内容:
1. 概念
2. 现有的知识图谱资源
3. 知识表示
4. 知识图谱构建
5. 应用
知识图谱旨在描述客观世界的概念、实体、事件及其间的关系。
概念是指人们认识世界过程中形成的对客观事物的概念化,如人、动物、组织机构等;
实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等;
事件是客观世界的活动,如地震、买卖行为等;
关系描述概念、实体事件之间客观存在的关联,如毕业学院描述了个人及其所在院校的关系,运动员和篮球运动员之间的概念和子概念的关系等。

知识图谱通过构建互联网信息的知识结构,更能反映人类认知世界的本质,为实现对海量信息的系统化管理和深入理解提供了强大的技术支撑。
涵盖的知识技术领域包括认知计算体系、基于知识的推理体系等> 知识图谱技术主要包含三个核心环节:即知识表示构建体系、数据驱动的知识图谱构建方法以及多维度视角的知识应用系统。
- 探索构建模型以反映客观世界中的知识。
 - 将其作为基础来实现专业领域内信息的知识表示与存储。
 - 通过实现其表示、存储及计算过程使专业知识更加易于被机器识别并理解。
 - 研究旨在确定计算机算法如何从...或网络化的数据资源中提取专业知识。
 - 核心任务是系统性地分析不同数据类型及其提取机制。
 - 应用主要关注如何利用这些 extracted knowledge 构建智能服务系统以有效应对实际挑战。
 
现有知识图谱资源
人工构建
WordNet、Cyc项目、中文HowNet
群体智慧构建
维基百科
- DBpedia 以构建本体的形式对知识条目进行组织
 - YAGO 融合WordNet良好的概念层次结构和维基百科中的大量实体数据
 - Freebase 包含6800万实体的结构化数据的知识图谱
 国内 清华大学和上海交通大学利用互动百科、百度百科建立了大规模知识图谱XLORE和Zhishi.me
基于机器学习技术和信息抽取为基础构建的知识体系:通过自动化手段从海量互联网数据中提取知识已成为推动可持续发展的重要方向。其核心特征在于覆盖广度大、来源分散且结构复杂的数据环境,在这一背景下利用机器学习算法和技术手段,在Web大数据中提取有效信息并组织成系统的知识库。
知识表示
1. 基于符号逻辑的表示
- 与人类自然语言具有相似性,并作为最早的知识表示方法出现。
- 机器生成推理规则的能力较弱,在实际应用中往往需要投入大量的人力资源,并对数据质量有较高的要求标准;因此,在大数据时代背景下这种知识表示方法已难以有效地解决相关问题。
2. 网络内容的知识表示 
 - 机器生成推理规则的能力较弱,在实际应用中往往需要投入大量的人力资源,并对数据质量有较高的要求标准;因此,在大数据时代背景下这种知识表示方法已难以有效地解决相关问题。
 
互联网信息的描述主要采用
基于标签的半结构化标记语言(如XML)
基于万维网资源语义框架(RDF)
基于本体论知识表示语言(OWL)
XML通过命名空间声明实现便捷的数据交换;RDF被用来表示三元组(主体、谓词、客体)来描述互联网资源之间的语义关系;OWL建立在RDF基础之上,并支持更为丰富的语义表达能力和强大的语义解释能力的语言。
3. 表示学习
目标 :通过机器学习或深度学习技术,在紧凑低维空间中对研究实体的语义信息进行映射表示;在大规模数据环境下对不同粒度的知识单元进行隐式编码,以实现知识的高效处理和快速计算。
主要方法:
- 张量重构
 - 势能函数
 
融合多种优化策略,在旨在通过提升计算效率与解决数据稀疏性问题的基础上,能够更加容易地整合来自不同来源且性质各异的信息
构建技术
知识的来源:
互联网上分布、异构的海量资源
1.概念层次学习
2. 事实学习等
*已有的结构化异构语义资源
异构资源的语义集成
1. 概念层次学习
对客观世界中的事物在不同层次上的概念化描述
通过科学的技术从知识表示中提取概念并识别出概念间的上下位联系(例如将"水果"与"苹果"、"梨"等具体实例相结合)
- 概念层次学习主要依赖启发式方法。其基本思路在于分析上下位概念之间的陈述模式,并从大量数据中筛选出可能具有上下位关系的概念对(或称为概念组),从而完成对这些关系的归纳总结;
 - 另一种方法则利用统计分析的方式进行研究。该方法假设当某一特定词语或实体在同一语境下频繁出现时,它们之间很可能具有相似的概率分布特征。通过计算这些词语或实体在分布中的相似程度来推导出相应的概率模型。
 
2. 事实学习
采用三元组形态来表示事实(梨、是、水果),其中的事实数量直接影响着知识图谱内容的丰富性。在构建知识图谱的过程中,所采用的机器学习方法主要可分为有监督学习、半监督学习和无监督学习三种类型。
有监督的学习
需要用到带有自己标记的数据进行训练,并将其划分为三种主要的学习方法:基于规则的学习、基于分类的标注以及基于序列模式的方法等。
基于规则的学习:语义标注技术是从经过人工注标的语料库中自动生成标签规则,并利用这些规则对数据资源进行自动化标签应用,在结构化的知识获取场景中表现突出。
基于分类的知识获取方法则是将知识提取过程转化为监督学习问题,在明确的特征指标指导下从带标签的数据集中训练出有效的分类器。
基于序列模式的方法则同时考虑了各维度之间的关联性,在多维度信息综合分析的基础上能够显著提高整体识别精度。
半监督的学习
自扩展
需要初始的种子实体对,种子实体对——>新的语义模板,再对语料进行迭代抽取来发现新的实体对,主要问题是语义漂移
弱监督
由知识库中的关系启发式标注文本,主要问题在于训练实体中本身带有大量噪音
无监督的学习
知识获取的主要方法是信息抽取技术,并通过自然语言处理手段实现这一过程;该方法的优势在于无需预设特定关系即可完成任务,并能将自然语言句子准确地转换为命题结构;然而其局限性在于处理复杂句子时容易出现性能下降的情况。
代表性系统:KnowItAll;该系统具备从互联网信息中提取语义信息的能力(具有动态扩展能力),并能实时评估所抽取的信息质量。
3. 语义集成
在异构知识库之间,发现实体间的等价关系,从而实现知识共享。
由于现有的知识库通常采用本体的形式来描述信息内容,因此在语义集中过程中其核心环节即为建立与本体之间的映射关系。
基于文本的方法
基于实体中的标签或摘要等文本信息内容的评估和测定, 来判断是否存在关联关系。
基于结构的方法
基于实体的拓扑关系对本体进行匹配,在此基础上借助本体的网络结构将实体间的相似度进行传播,并通过上述过程提高了知识对齐的效果。
基于背景知识的方法
基于已有的大规模领域无关知识库作为背景知识来提高匹配结果
基于机器学习的方法
将本体匹配问题视为属于机器学习中的分类任务或优化目标,并采用机器学习方法来实现这一目标
应用
- 语义搜索
 - 知识问答
 - 基于知识的大数据分析与决策等
 
