知识图谱-知识抽取-实体抽取(命名实体)
文章目录
知识图谱(Knowledge Graph)
知识抽取(Knowledge Extraction)
实体抽取(NER)- 这里的NER指代通常是Named Entity Recognition
基于Rule-Based and Lexicon-Driven Methods
基于Statistical Machine Learning-Based Methods
面向Open-Domain Entity Extraction Methods
知识图谱
知识图谱是一种系统性表征实体间的关系的语义网络体系,在对现实世界的事物及其相互联系进行形式化刻画的同时能够实现跨领域、多维度的知识关联与整合。当前的知识图谱概念已发展到涵盖各种大型专门性知识库的各种应用场景中。
三元组作为知识图谱的通用表示形式,在其结构中包含三个主要组成部分:一是实体1与实体2通过关系连接;二是概念作为核心节点;三是属性及其对应的属性值构成了节点间的关联信息。在这样的组织架构下形成的知识网络模型能够有效反映现实世界的复杂联系特征。
知识抽取
基于开放链接数据的知识抽取主要致力于从大量可访问的数据中提取有用的知识片段。借助自动化技术提取出可利用的知识单元,并将其划分为包括实体(即概念的具体表现)、关系部分涉及不同实体之间的关联以及属性部分则描述了实体的特征三个基本要素。这些核心要素共同构成了一个完整的知识框架,并以此构建一系列高质量的事实表达为其高层模式结构提供坚实的基础。
实体抽取(NER)
早期的实体抽取也可称为命名实体学习(named entity learning)或命名为实体识别(named entity recognition),旨在从原始语料中自动识别出命名实体。由于实体作为知识图谱中最基本的要素之一,在其抽取过程中的完整性、准确率以及召回率等因素都将直接影响知识库的质量。因而,在知识抽取的过程中,实现对命名实体抽取这一环节做到最为基础且关键的一个步骤就显得尤为重要。
实体抽取方法主要包含三种类型:第一类是基于规则的策略,这种策略一般会为每个目标实体设计特定的模板,并将在这些模板指导下,在原始语料库中进行匹配操作;第二类是基于统计机器学习的技术体系,在这一类方法中主要依赖于机器学习算法从大量原始数据中提取模式;第三类则侧重于处理开放领域的情形,在这种情况下,则需处理海量Web数据
基于规则与词典的方法
早期实体抽取活动通常在特定领域文本中进行,在限定语义单元类型下展开。主要依赖于基于词典与固定规则的方法完成这一过程:如通过预先定义的一系列规则,在文本中识别出人名、地点名称以及组织机构名称等关键实体信息,并提取特定时间段相关的数据。然而,在编写大量适用性广泛的规则模板方面存在较大挑战:一方面需要大量的人力资源来维护现有知识库;另一方面这种方法难以应对数据分布模式的变化。
基于统计机器学习的方法
随后, 研究者试图将监督学习算法应用于命名实体识别任务中. 然而, 单纯依赖监督学习的算法在性能上受到了诸多制约, 并未能显著提升识别精度. 为此, 相关研究者开始探索将规则辅助技术与监督学习相结合的方式, 并取得了一定成效.
面向开放域的抽取方法
针对如何在有限的实体实例基础上自主提取具有鉴别力的模式,并将其扩展至大规模文本资源以实现对实体进行分类与聚类的问题提出了一种迭代式扩充语料库的方法论。该方法的核心思路在于通过少量实证例建立特征模型,并利用该模型对新数据集进行分析以生成命名实体。在无监督学习框架下开展的大规模开放域 entity discovery 任务中,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式,默认假设已有标注数据仅包含真实存在的 entity names或其变体形式
