知识图谱基础知识总结
正式于2012年5月17日推出,“知识图谱(Knowledge Graph)”这一技术概念被Google正式推出。该技术旨在通过这一创新进一步提升搜索引擎的质量和用户体验。
知识图谱并非完全新颖的概念,在2006年已有文献首次提出语义网(Semantic Network)的概念,并建议采用本体模型来系统地提取和表达数据中的潜在语义信息。与此同时,RDF模式与OWL技术也在此基础之上被开发出来,以实现对资源描述框架与万维网本体语言的规范性定义。


知识图谱由大量知识点构成,每个知识点则以Subject-Predicate-Object的形式呈现
早期知识图谱应用广泛地采用了自顶向下的构建模式。采用自顶向下的方法时,则需先为知识图谱设定其本体框架及数据模型。这种构建模式通常依赖于预先存在的结构化知识库作为基础支撑。例如,在Freebase项目中就采用了这种方法,在其数据架构中大量使用了来自维基百科的内容作为支撑资源。
然而目前普遍采用的是基于开放链接数据集提取相关实体并形成初步知识架构的自底向上构建模式。这一模式的本质在于通过计算置信度筛选出高置信度的实体进行整合录入至知识库随后并进一步建立各实体间的关联关系。
知识图谱在逻辑结构 上可分为模式层 与数据层 两个层次
基于数据层面的架构设计,在这一层次上主要依赖本体库来进行对数据层面事实表达的规范与约束。作为构建结构化知识体系的核心模板,本体不仅提供了系统的概念框架,并因此形成了层次分明且冗余度较低的知识存储结构。
数据层主要由一系列事实构成;而知识则按事实进行存储。为了表示事实的方式,则采用三元组形式:(实体1、关系、实体2)以及(实体及其属性与属性值)。可选用图数据库作为存储介质;例如开源的 Neo4j、Twitter 的 FlockDB 和 JanusGraph 等等。

知识提取 是主要针对开放获取的链接数据的一种自动化技术手段,在此过程中我们能够系统性地提取出可利用的知识单元体。这些知识单元体主要包括实体体(概念的具体范围)、其关联关系及属性特征等三个核心要素,并据此构建一系列高质量的事实表达形式为其上层模式层提供坚实的基础框架。具体而言,在这一过程中我们主要围绕以下三点开展工作:
- 实体提取:在技术领域里我们通常称之为NER(全称是命名实体识别),其本质就是从原始文本中自动识别出这些命名实体。值得注意的是,在知识图谱构建过程中这些指标直接决定了知识库的质量水平。由此可见,在这一环节投入大量资源进行优化将是事半功倍之选;
- 关系挖掘:这一任务主要致力于解决对象间语义关联的问题,在早期的研究中多是以人工构建语义规则和模板的方式进行对象关联分析。随着研究的发展逐渐演变为基于对象间语义关联关系模型的研究范式;
- 属性刻画:这一过程主要是针对特定对象进行描述和刻画工作,在具体实施时往往需要围绕核心概念展开深入分析。值得注意的是这类属性提取过程可视为对象与其属性值之间的一种名称性关联问题进而将其转化为关系抽取问题。
知识表示方面,在人工智能领域中以深度学习为代表的表示学习技术展现出了显著成果。该技术能够将实体所包含的信息内容转化为高精度的数据表达形式,并通过数学模型对这些数据进行降维处理后进行数值运算,在经过降维处理后进行数值运算的同时还能够揭示深层次的关系网络结构特征。这种基于向量空间的知识表征方法不仅有助于提升知识库的整体构建效率和推理能力,并且能够促进数据间的融合与多模态分析
多层次的知识整合 作为高级别的知识组织体系,在同一规范化架构下实现异构数据的整合与预处理,并有效消除歧义,在此基础上进行逻辑推理与验证,并通过持续迭代优化的过程实现多维度的知识融合从而形成高质量的知识库
知识图谱应用, 智能搜索,深度问答,社交网络,垂直领域应用
具体应用。例如:
- 信息检索: 搜索引擎中对实体信息进行精确整合与匹配、对关键词进行解析以及对搜索意图进行语义解析;此外还包括基于大数据分析的技术手段用于提升检索效率与准确性
- 语义解析: 基于知识图谱的知识体系为解析自然语言文本中的实体与关系提供语义支持;
- 问答系统: 匹配问答模式和知识图谱中知识子图之间的映射;
- 推荐系统: 采用知识图谱作为辅助信息整合到推荐系统中以实现更精确的推荐效果;
电子商务:通过搭建商品知识图谱来精确地对应用户的购买意向与商品推荐池;
- 金融风控: 基于实体间的关系进行分析以识别潜在的金融活动风险,并通过建立完善的风险预警机制,在发生风险事件时能够迅速采取应对措施(如联系相关责任人等)。
- 公安刑侦: 分析实体和实体之间的关系以获得线索等;
- 司法辅助: 法律条文的结构化表示和查询来辅助案件的判决等;
- 教育医疗: 提供可视化的知识表示,用于药物分析、疾病诊断等;
构建知识图谱的主要涉及的NLP技术
a. 实体命名识别 (Name Entity Recognition)
b. 关系抽取 (Relation Extraction)
c. 实体统一 (Entity Resolution)
d. 指代消解 (Coreference Resolution)


实体识别技术 即从文本中提取并分类/标注实体信息。具体而言,在上述案例中我们能够识别出实体-「NYC」并将其归类为「地理地点」类别;同时也能识别出「Virgil's BBQ」并将其归类为「餐馆」类型。此外我们还可以通过该技术识别出其他复杂的关系网络例如通过分析发现「酒店」与「海顿大饭店」的位置关系是「位于附近」;而「酒店」与「时代广场」的空间关联则是「临近」等信息。这些技术在实际应用中具有重要价值
在进行实体命名识别和关系抽取任务时,会遇到两个主要挑战:其一是实现实体统一(Entity Unification),即解决不同表征方式指向同一实体的问题。例如,“NYC”与替代表示法如“New York”表面上不同但指向同一个城市,在这种情况下需要通过某种机制将其归一化处理;其二是指代消解(Coreference Resolution),即确定文本中代词如“it”, “he”, “she”等所指代的具体实体。例如,在本文中被标记出来的两个“it”都指向同一个酒店实体。“实现 entities unification 以及 coreference resolution 相对于前面的问题更具挑战性。”
知识图谱主要有两种存储方式 :其中一种采用基于RDF的数据储存方法;另一种则采用基于图形数据库的数据储存策略。
RDF 指资源描述框架(Resource Description Framework)
图形数据库 作为一种特殊的NoSQL数据模型,在数据组织形式上具有显著特色。基于图论的方法记录实体间的关系数据是一种非传统的数据存储方式。其核心优势在于能够高效地表示复杂的对象联系及其属性特征。最典型的应用领域莫过于社交网络平台中的用户关联问题。相比之下传统的关系型数据库在处理这类复杂问题时往往显得力不从心:其查询操作往往耗时较长且效率低下,并且难以应对日益复杂的业务需求。而图形数据库的独特设计使得它特别适合处理这类复杂问题
Reference
https://zhuanlan.zhihu.com/p/71128505
