【知识图谱导论-浙大】第一章:知识图谱概论
背景
从自然语言处理领域的发展来看,在2022年我对知识图谱在问答系统、搜索引擎以及推荐系统中的应用愈发产生了浓厚的兴趣。我也通过阅读书籍、博文以及研究论文等方式加深了对知识图谱的理解,并借助该平台深入了解了中文 knowledge 图谱在全球各领域的拓展情况。可以说,在认知智能这一领域中, 知识 图谱承担着比较重要的角色, 这促使我对这一领域内的相关技术和研究方向(如自然语言处理和神经网络技术)也有了更深入的认识。
若想深入了解某一领域的发展动态,则可以选择权威书籍与课程作为入门首选。这些资源堪称佳作。此外阅读领域内的综述文献同样是一种高效的学习途径。原来知道了浙江大学陈华钧出版了《知识图谱导论》这一著作。该书在中文大学MOOC平台以及相关的配套课程中也有提供:知识图谱导论 。随后对所学内容进行了系统性的回顾与反思。
课程对应的课件可以在我的订阅号中查看:「知识图谱导论-浙大」这个课程资源包获取;另外,在我的订阅号平台内可以看到该课程的配套学习材料
对应讲解视频内容如下:
【知识图谱理论】(浙大2022知识图谱课程)第一讲-知识图谱概览
语言与知识
人的大脑依赖所学的知识进行思考、推理、理解语言。
早期的人工智能包含两个流派:
- 连接主义方面而言,在实现人工智能的过程中需要模仿人类的神经系统运作机制。具体来说就是要利用计算机系统去模仿人脑的神经网络结构体系,在这种模式下所形成的体系就被我们称为深度学习系统;
- 符号主义方面而言,在实现人工智能的过程中需要模仿人类的心理活动机制。具体来说就是要利用计算机系统去记录和处理人类心理活动中的信息片段,并将其转化为可供计算机处理的形式信息片段体系,在这种模式下所形成的体系就被我们称为知识工程体系。
知识图谱也可被视为符号主义学派的一种表现形式。深度学习方法在视觉识别与语音识别等多种感知任务上展现出良好的性能(感知智能水平)。但从本质上说,这些问题本质上属于模式识别与决策判断的范畴,并不具备高级别的推理能力。类比于人类大脑的工作机制,人类的认知过程主要依赖于积累的知识来驱动思考与认知活动。
语言+知识:实现认知智能的双翼
在认知智能中有两个核心的研究:
- 语言理解
- 知识表示
人类通过持续探索世界,在认知过程中不断获取新知,并借助语言系统完成信息的传达与保存。然而,在深入理解语言方面仍需依赖大脑中所积累的知识储备。这便构建起了一座连接两者的关键纽带,在此过程中, 语言始终扮演着最直接的中介角色。
看一下下面的案例:

这个人工智能小秘书应在第一个案例中将其归类为一种食品,在第二个案例中将其识别为一家公司。需了解百胜为其母集团,并知悉蚂蚁金服对其实施投资;马云实际持有蚂蚁金服控股权,则可准确判定其与肯德基的关系。以上所述即构成一个小型的知识图谱。
大脑中的这些"知识图谱"充当了理解语言、判断及推理行为的基础储备
什么是知识
那么问题来了:什么是知识呢?对此问题进行了深入探讨后发现,在西方哲学史上有诸多定义与此相关。例如柏拉图曾提出"Knowledge is justified true belief"这一经典观点。实际上深入思考后发现,在人类的知识体系中存在多种表现形式:从自然语言到艺术创作;从数学符号到物理模型;从化学方程式到工程实践等等。这些看似不同的表达方式共同构成了人类认知世界的基本框架与思维模式。这种能力不仅使人类的心智在众多生物中脱颖而出,并且是人脑智能的核心特征。
传统人工智能的一种实现方式:其中一种实现途径是构建基于专家知识的系统(基于知识工程),并利用推理引擎向非专业知识用户提供支持。
文本:知识的基础
语言作为知识的自然描述方式与表达载体,在人类文明的发展过程中占据着重要地位。人类大脑能够通过文本获取与学习知识,在人工智能领域追求认知智能时,则需要让机器具备从文本中提取知识的能力。然而,在这一目标下所面临的挑战显而易见:首先,机器处理纯文本信息并非易事;其次,在理解文本中所隐含的意义同样充满挑战。由此可见,在现有的问答服务如微软小冰、苹果Siri等产品应用中所能取得的效果仍显不足。为了实现人工智能系统能够更高效地提取有用信息的技术目标,在当前的研究探索中主要围绕以下两个技术路径展开研究:其一是基于深度学习的知识表示方法;其二是基于符号推理的知识工程方法。
抽取技术,从文本中识别出实体、关系以及复杂的逻辑结构;
文本预训练过程旨在通过大量的文本语料进行学习与优化。当前流行的开源AI框架如ChatGPT常用于这一阶段的训练工作。通过参数化向量模型隐式地编码这些知识。而系统则擅长运用向量化表示进行神经网络推理。
知识图谱:知识的基础
知识图谱基于图结构对知识进行构建模型结构以实现对事物间复杂联系的识别与推导,并在多个领域中沉淀积累着丰富的领域知识基础。这一技术体系是支撑认知智能发展的核心架构之一。在搜索引擎、智能问答系统、语言语义分析平台、大数据决策支持系统以及智能物联网等多个前沿领域得到了广泛应用
知识图谱通过图这种组织形式对知识进行结构化呈现。与单纯以纯文本形式存在的数据相比,结构化的数据在便于机器理解和处理方面更具优势。
Embedding:知识的基础
计算机在处理数字化向量方面更为擅长,在各种文本相关任务中取得了显著成果。例如,在词向量模型中采用的方法是将词语映射到高维空间中的点,并通过这些点之间的距离关系反映出词语之间的语义相似性或差异性。知识图谱领域引入了一种称为嵌入技术的方法,在这一过程中通过提取实体及其关联关系的学习过程得到其对应的低维数值表示,并利用这些数值进行进一步的分析与运算过程
知识图谱的价值
掌握了知识图谱的一些基本概念后, 我们可以应用知识图谱来探索哪些具体的应用场景
搜索
于2012年,谷歌发布了一款基于知识图谱的知识引擎。该系统支持事务级别而非文本级别的数据检索操作,并因此显著提升了数据组织的精确性。这一改进使得用户体验水平得到了显著提升。
知识问答
对话语式的信息获取必须具备高精准度和高可靠性;知识图谱在搜索引擎中呈现了更为优质的结果;同样地,在对话系统中也可以将其应用于;智能问答本质上是一种对话式的搜索;当前实现智能问答功能主要有三种形式:
- 问题-答案对(如常见的FAQ),该方法相对简便却难以确保回答的准确性。
- 给定问句在大规模文本中的识别具有较高的挑战性。
- 以知识图谱为基础的知识密集型问答系统。
推荐系统
为了能够构建基于知识图谱的知识推荐系统,分别进行用户知识图谱(user kg)和物品知识图谱(item kg)的设计与实现。将知识图谱成功引入到推荐系统中后,在为用户和物品建立特征表示时会带来显著的信息量提升(增加信息),这不仅有助于深入挖掘用户的兴趣偏好模式,还能通过丰富多样的关系网络进一步促进个性化推荐效果。同时,在这种环境下通过提供多样且详细的知识支持还可以有效强化推荐结果的可解释性

其他
此外,在垂直领域中包括医疗拮抗、金融、电商、出版、农业、政府、电信以及数字图书馆等多个领域都有其应用的身影。
知识图谱的技术内涵
知识图谱是一个典型的交叉领域。

细分的知识图谱技术要素:

知识图谱不是一个单一的技术,做知识图谱需要建立系统工程思维。

