Advertisement

知识图谱的经典知识库总结

阅读量:

文章目录

  • 1 早期的知识库项目
    • 1、Cyc
    • 2、WordNet
    • 3、ConceptNet

知识图谱在互联网时代的演变历程中占据重要地位。
其中较为知名的系统包括:
- Freebase系统
- DBpedia项目
- Schema组织
- Wikidata数据库
- BabeINet网络
- NELL(Never-Ending Language Camer)
- Yago数据库
- Microsoft概念图数据库
- LOD语料库

  • 3 中文开放知识图谱
  • 4 垂直领域的知识图谱

基于自人工智能概念的提出以来

1 早期的知识库项目

1、Cyc

Cyc represents a project with the longest duration, broad influence, and significant controversy. Originally, Cyc aimed to create the world's largest commons knowledge base.

Cyc 知识库的主要组成部分是术语(Term)和断言(Assertion)。这些术语涉及概念、关联以及实体的定义。而断言则用于构建术语之间的联系,并涵盖事实(Fact)描述以及规则(Rule)描述。值得注意的是,在最新版本中,该系统已收录了500,000 个术语及 7,000,000 条断言。其显著特点在于采用形式化的方法来表征知识。尽管形式化的优点在于支持复杂的推理功能,但它过度的形式化可能会削弱知识库的扩展能力和应用灵活性。

2、WordNet

wordnet是国际上广为人知的词典数据库,由普林斯顿大学认知科学实验室于1985年正式推出.该数据库不仅系统地记录了单词的意义信息,还特别强调了不同语言类别词汇之间的语义关联.具体而言,它涵盖了名词、动词、形容词和副词之间的语义关联.例如,在名词层次上,存在上位与下位的关系:如"猫科动物"作为"猫"这一概念的上位词汇;在动词层次上,则隐含着一系列的行为意义:"打鼾"这一行为隐含着"睡眠"这一状态等.

3、ConceptNet

起源于麻省理工学院媒体实验室的开放思维共同感知(OMCS)项目。相较于 Cyc , ConceptNet 更倾向于采用非形式化的表达方式,并更贴近自然语言的特点而非像 Cyc 使用基于谓词逻辑的形式化方法。相对于链接数据集和 Google 知识图谱等系统而言...概念网相对于单词间的关系更为注重这一点但所包含的关系类型却远超单词间关系网络的数量级

2 互联网时代的知识图谱

就一定意义上而言,互联网的出现帮助传统知工程突破了在知识获取方面的瓶颈.自1998年Tim Berners Lee提出语义网以来,发展出很多新一代基于Internet资源的知识系统.此类知识库的构建方法主要包含三种类型:基于Internet众包的知识服务、基于专家协作的知识平台以及基于Internet挖掘的知识系统.

1 Freebase

该系统是一个开放共享平台,并由多个参与者共同构建的大规模链接数据库。该系统于2005年由MetaWeb发起作为一个语义网项目,在2010年被谷歌收购。该系统基于RDF三元组模型,在底层采用了图数据库进行存储。到2016年时,由于谷歌发现Freebase的数据API服务将迁移到Wikidata,因此关闭了freebase项目

2 DBpedia

DBpedia 被认为是数据库版本的维基百科,并被视为一个早期开发的重要项目。它基于从维基百科抽取的数据构建而成,并采用了相对严格且全面的知识体系。此外,DBpedia 还与多个知名数据库建立了知识关联,并通过RDF语义数据模型存储了高达30亿个RDF三元组的信息。

3 Schema.org

自2011年起,在Bing、Google、Yahoo和Yandex等知名搜索引擎的共同努力下启动的语义网络项目。Schema.org这一平台则致力于推动网站通过元数据标签(Semantic Metadata)的形式将语义化链接整合进网页内容中。各搜索引擎负责收集并整合相关的语义化链接信息,并最终能够高效提取和分析网页中的语义化信息。

该平台开发了某种词汇本体,旨在标记与这些语义相关的术语。目前这一词汇本体已涵盖约600个类别以及900多个关联。其应用范围涵盖个人及类似实体、各类组织机构、各地点位置以及不同时间段等多方面内容,并涉及医疗相关领域以及商品种类等具体情况。

2015年,谷歌推出了定制型知识图谱系统,在其网页上帮助个人和企业添加企业联系信息、个人社交资料等多种语义标签,并通过这种方式高效地收集优质的知识图谱数据库。一项调查数据显示,约31%的网站已开始采用Schema.org发布语义化链接数据,并已有大量网站采用Schema.org功能。此外,其他采用部分Schema.org功能的企业还包括Cortana、Yandex、Pinterest以及Siri等。Schema.org的本质是通过互联网众包模式生成并收集高质量的知识图谱数据。

4 Wikidata

Wikidata旨在构建一个免费开放且多语言的大型链接数据库,默认情况下任何人或任何机器都可以参与编辑和修改。该计划于2012年由Wikipedia发起,并获得了微软联合创始人Rafael Leal博士及其合作伙伴Gordon Betty Moore基金会以及谷歌的资金支持。wikidata继承了Wikipedia的协作模式,并非如维基百科那样采用文章形式的知识条目(item),而是基于三元组的知识条目可以自由地进行编辑,并且每个三元组都代表一条关于对象的事实陈述。

例如,在“执球”的条目上可将其扩展为包含“<地球、地表面积是、五亿平方公里>”这一三元组陈述。截至2018年底统计显示,Wikidata已收录超过5,000万个知识条目。

5 BabeINet

BabelNet 类似于 WordNet 的多语言词典知识库。

6 NELL(Never-Ending Language Lcamer)

该知识库由卡内基梅隆大学开发。基于互联网数据挖掘的方法,NELL能够自动生成并收集Web中的三元组知识。其核心理念在于:基于少量类与关系定义及初始样本构建的基础之上,使计算机系统能够通过主动学习机制持续地在Web上获取新知识。目前,该系统已经成功抽取了300多万条三元组知识。

7 Yago

由德国马普研究所研制的链接数据库是Yago系统。主要整合了Wikipedia、WordNet以及GeoNames等三个数据库的数据资源。通过将WordNet的词汇定义与Wikipedia的分类体系进行有机融合集成处理,从而构建起了更为丰富完善的实体分类体系框架。同时考虑了时空相关知识特征,并赋予这些条目相应的时空维度属性描述信息,使系统的时空信息表达更加精准完整。目前系统内已存储着多达1.2亿条三元组数据,在IBM Watson生态系统中也占据重要地位的知识库之一

8 Microsoft ConceptGraph

Microsoft ConceptGraph 是基于概念层次体系的知识图谱。与 Freebase 等知识图谱不同的是其主要构建依据是概念定义及概念间的 IsA 关系。举例而言给定一个核心术语如"Microsoft"ConceptGraph 将返回一组与其具有 IsA 关系的概念集合如"Company"""Software Company"""Largest OS Vendor"等这些被称作概念化(Conceptualization)。该系统可应用于短文本理解和语义消歧方面。例如当输入短文本"the engineer is eating the apple"时ConceptGraph 将准确识别其中"apple"指代的是食用苹果而非苹果公司(微软推出的第一个版本包含超过 540 万个概念、12,550 万个实体以及 8.76 亿个关系)。**ConceptGraph 主要通过从互联网及网络日志中采集数据来进行构建工作。

9 LOD

Lod(链接开放数据)旨在以一种系统化的方式实现Tim Berners-Lee于2006年提出的将链接数据作为语义网基础设想。基于Tim所提出的四条核心原则,Lod遵循以下指导原则:通过URI标识万物,利用HTTP URI使用户能够如同访问网页般查看事物描述,采用RDF与SPARQL标准构建数据模型,并为事物创建与其他事物之间的URI关联以建立数据联系。经过十年的发展,Lod已发展出包含1143个数据集的丰富生态系统,其中社交媒体类、政府类、出版类及生命科学类领域合计占比达90%以上

3 中文开放知识图谱

OpenKG涵盖了16种类型的Knowledge Graphs,并提供了56个与之相关的工具。此外持续更新与Knowledge Graphs相关的论文解析内容。OpenKG的官方网站地址为:http://www.openkg.cn

OpenKG是由中华中文信息学会语言与知识计算专业委员会致力于发展的开放平台,汇聚众多学术机构的知识图谱研究力量.

OpenKG目前主要包含三个子项目,由OpenKG工作组总体协调开展工作:

4 垂直领域的知识图谱

领域知识图谱基于DBPedia、Yago、Wikidata、百度和谷歌等搜索引擎而存在,并被视为专注于特定领域的 知识库,如电商、金融和医疗等领域所应用的那样。

  • 知识来源更加丰富
    • 在规模化扩展方面的要求更为严格
    • 知识体系更加复杂
    • 对知识质量的要求更为严格
    • 知识的应用形式更为多样化

如图 1-1 所示, 从多维度对比分析了通用知识图谱与域内知识架构间的差异. 随后选取电商. 医疗及金融领域的实例, 展述其主要特征及其面临的挑战.

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~