《知识图谱——概念与技术》笔记:构建篇
文章目录
-
- 词项提取与实体识别
-
- 1.1 概述
-
1.2 领域术语识别
- 研究背景
- 识别策略
- 评估标准
- 1.3 同义词挖掘
-
- 1.3.1 概述
-
1.3.2 典型方法
- 1.4 缩略词抽取
-
- 1.4.1 缩略词的概念与形式
-
1.4.2 缩略词的检测与抽取
-
1.4.3 缩略词的预测
- 1.5 实体识别
-
- 1.5.1 概述
-
1.5.2 传统的 NER 方法
-
1.5.3 基于深度学习的 NER 方法
-
1.5.4 近期的一些方法
-
- 1.1 概述
-
2 关系提取技术
-
- 2.1 综述
-
- 2.1.1 问题与分类方法分析
- 2.1.2 典型数据集介绍
- 2.1.3 基于性能评估指标的关系抽取模型比较研究
-
-
2.2 不同模式下的数据提取技术
-
- 2.2.1 字符级别的特征识别
-
-
语法层次的信息解析
-
语义层面的意义提取
-
自动化的数据处理策略:自助采样技术
-
多种模型下的质量评估标准
-
2.3 基于学习的技术抽取
-
- 2.3.1 基于有监督的学习关系抽取
-
-
2.3.2 基于弱监督的学习关系抽取
-
2.3.3 深度学习模型的关系抽取
* 2.4 开放关系抽取 * * 2.4.1 TextRunner- 2.4.2 ReVerb
- 2.4.3 Ollie
1 词汇挖掘与实体识别
1.1 概述
对领域内概念的解析与认知是实现机器理解某一领域的重要前提要素。基于图模型的方法论框架下,构建知识图谱的第一要务是提取存在于知识体系中的实体信息。在这一过程中,首先需要系统性地从文本语料库中提取尽可能丰富且高质量的概念符号;随后在此基础上进一步精炼筛选出该特定知识体系所需的核心实体信息。
1.2 领域短语挖掘
1.2.1 问题描述
邻域短语挖掘的过程是将相关领域的语料库作为输入,并通过分析生成的关键术语集合作为输出
在给定文档中发现一个高质量短语时,则表示发现了连续出现的一组有意义词汇。即由符号 w_1, w_2, \dots, w_n 组成的一个序列。其本质上就是所谓的 N-Gram 结构。中文短语挖掘任务中,每个符号 w_i 既可以代表一个词也可以代表单个字符。一般来说,在自然语言处理领域认为一个高质量的短语能够完整地表达特定的意义而不受外部因素干扰。
1.2.2 领域短语挖掘方法
近几载以来,在分析短语统计指标特征的基础上挖掘词汇被视为主流的方法之一。主要采用无 supervision 学习与 监督 学习两种方式对词汇进行分类。在 标注 数据不足的情况下采用 无 监督 学习作为主要的学习方式;在 有 标注 数据的情形下则采用 监督 学习作为主要的学习策略。
非监督学习方法主要依据候选短语的统计特征来提取领域术语。

(1)关键短语产生:这里的关键词短语就是高频率的 N-Gram。首先确定 N-Gram 发生的最低阈值,然后通过频繁模式挖掘得到出现次数不低于阈值的所有 N-Gram 作为关键短语。
(2)统计特征计算:从语料中评估候选短语的统计特性。这些统计指标特征被评价为包括 TF-IDF 值(基于频率与文档频率的比例)、PMI 得分、左边连续字符熵以及右边连续字符熵等各项数值参数。
质量评分:通过对这些特征的数值进行融合(例如加权求和等方法)计算出候选短语的综合得分,并依据此得分来评价候选短语的质量。
(4)排序机制:为所有候选短语按照得分从高到低进行排列,并通常选取得分最高的K个候选短语作为最终结果;或者选择得分超过设定阈值的候选短语作为最终结果
基于监督学习的方法在领域短语挖掘中相较于无监督方法增加了样本标注信息并完成了分类器的学习过程

样本标注技术:其实现方式包括人工标注以及基于远程监督的标注方法(借助现有在线知识库)等
(2)分类器学习:基于正负类样本数据集训练一个二分类模型。该模型可以选择决策树模型、随机森林模型或支持向量机模型。为每个样本构建特征向量时,采用TF-IDF值、C-value、NC-value指标以及PMI等统计方法。
上述方法基于原始词频的数据特征进行评估候选短语的质量,在这种情况下会使得子短语普遍具有高于其父级短语的频率水平。为此必须采取相应的改进措施。鉴于我们成功构建了一个高效的质量判断模型后,在这种情况下可以通过该模型能够识别出具有较高质量的关键字,并将这些高质量的关键字作为分段依据进行文本分割。在此基础上重新计算各关键词在整个文本中的频率,在这种情况下会进一步提高整个频率统计工作的准确性。
基于监督学习的领域短语挖掘方法经过优化后, 采用迭代计算架构, 在每次迭代中依次完成语料切分和统计指标更新工作。通过相互促进的方式实现精炼短语识别效果提升。经过多轮迭代运算后, 候选项特征得分为稳定状态。最终系统将依据各候选项特征得分值确定最优领域的领域术语集合

1.2.3 统计指标特征
评估一个短语在特定语料库中的重要程度通常采用TF-IDF方法进行量化分析。尽管某些常见词汇虽然广泛使用但不适合准确描述特定领域的语言特征其普遍程度依然较高。值得注意的是由于这些常见词汇通常也会频繁出现在外部文档中因此当某个术语在特定领域语料库中频繁出现却很少见于外部文档时则该术语可被视为领域内的高质量术语。
对于某个特定的术语 u,其 TF 值即为语料中该术语出现次数(f(u))与语料内所有术语总次数之比:
\text{tf}(u)=\frac{f(u)}{\sum_{u'}f(u')}
而 IDF 则是基于包含该术语的所有外部文档数量计算得出:
\text{idf}(u)=\log \frac{\vert D \vert+\delta}{\vert \{ j:u \in d_j \} \vert+\delta}
其中,d_j 表示第 j 篇外部文档,\vert D \vert 代表所有外部文档的数量,并且在公式中对分子和分母都增加了平滑因子 \delta 以避免数值计算中的异常情况。
TF-IDF 用公式表示为 TF 乘以 IDF。具体而言,在信息检索领域中,
一个词的重要性与其在其所处语料库中的出现频率(TF值)
呈正相关关系;同时与在同一外部文档库中出现频率
(DF值)呈反相关关系(即与逆向指数加权值
IDF 呈正相关)。
- C-value
在词频基础上不仅考虑到短语的长度,并对父子短语对词频统计的影响也加以考量:
\text{C-value}(u)=\begin{cases} \log_2 \vert u \vert \cdot f(u),&u没有父短语 \\ \log_2 \vert u \vert\left(f(u)-\frac{1}{\vert T_u \vert} \sum_{b \in T_u}f(b)\right),&u有父短语 \end{cases}
其中 T_u 是 u 的全部父短语。
从候选short长度出发分析其质量特征。通常情况下,在各个专业领域中较长的术语往往具有特定的专业意义。这里使用的公式\log_2 |u|被设计用于对较长术语给予更高的评价分数。此外,在计算候选术语频率时,C-value方法特别关注于避免因父术语重复计数而导致的估计偏差。当父术语属于高质量术语时,则其所有子术语不应再被单独计算。在公式中的第二个部分,则通过减去节点u所在路径上的平均出现次数来抵消由于路径共享而产生的估计偏差。
- NC-value
NC-value 是基于C-value 的一种延伸,在考虑候选短语 u 与其相关联的上下文单词 b \in C_u 的过程中实现功能定位与意义抽取。这些选择对最终结果产生了重要影响,在实际应用中通常会限制在名词、形容词和动词这三个类别中。
为了排除潜在噪声干扰,在候选短语筛选过程中
- PMI
PMI(Pointwise Mutual Information, 点互信息)衡量了短语组成部分之间的一致性程度(Concordance)。假设一个短语 u 由 u_l 和 u_r 两部分构成,则 u_l 和 u_r 的 PMI 值越大表明它们形成一个有意义的组合。其定义为:
\text{PMI}(u_l, u_r) = \log \frac{p(u)}{p(u_l)p(u_r)}
当同一候选短语采用不同拆分方式时,在计算得到的所有 PMI 值中通常会存在差异(差异源于不同拆分数目及其对应的 PMI 值大小)。因此,在计算某个候选短语的最佳拆分时(即最能反映其意义的拆分),应选择其最小的 PMI 值作为该短语的最终 PMI 值表示。
高质量的短语通常具备多样且丰富左右搭配的能力;相反,如果某一特定词汇在其左右位置总是固定出现,则意味着其本身并非一个优质的短语。在计算短语的质量时,我们会分别采用左邻字熵和右邻字熵来评估其左右邻字集合的随机性。通常来说,在计算短语的质量时,我们会分别采用左邻字熵和右邻字熵来评估其左右邻字集合的随机性.其中,左(右)邻字熵用于衡量该词前(后)面可能接续出现的不同词汇数量.左(右)邻字熵越大,则表明该词前(后)面可与其搭配使用的词汇越多越丰富多样.因此,这样的短语往往具有较高的质量标准.
定义某个候选短语 u 的左右相邻字符熵如下:
H(u)=-\sum_{x \in \chi}p(x) \log p(x)
其中p(x) 表示与之相邻的左(右)字符x出现的概率。设 \chi_u^{left} 和 \chi_u^{right} 分别表示候选短语 u 的所有左右相邻字符集合。通常情况下,在选择高质量的候选短体时应使其左右相邻字符熵尽可能大。为了量化评估该候选短体的质量度量指标,则取左右相邻字符香农信息度中较小的那个作为最终评估依据。
1.3 同义词挖掘
1.3.1 概述
同义词被称为意义相符或近似的术语。
这些术语的基本特征在于它们在意义上具有一致性或相似性。
具体而言,
包括但不限于以下几类情况:
不同国家之间的语言互译实例,
具有同等意义的文字,
如人名、动物学名称、药物别名等,
以及缩略语或其他简略形式。
1.3.2 典型方法
基于同义词资源的方法
采用基于模式匹配的技术,在文本中识别并提取出同义词时所遵循的特定结构。随后系统会根据预先设定的模板库对这些结构进行分类和分析。具体而言,在进行同义词抽取时需先设定一个匹配模板(Pattern),常见的模板类型包括「又称为」、「亦称」以及「括号内引用」等。
该方法(Bootstrapping)是对基于模式匹配的技术的一种改进方案,在少量初始样本或预设模板的基础上通过不断从语料中学习同义词在文本中的新表达方式来显著提升信息检索的召回率。该方法作为一种循环迭代的学习机制,在每轮循环中识别新的模式结构并更新相应的同义词映射关系;持续更新直至满足特定终止条件。

在模式发现步骤中,在每个新增的同义词完成索引构建后会自动触发候选抽取机制。具体而言,在构建完成后会自动执行一次全局候选抽取扫描操作。例如,在构建完成后立即执行一次全局候选抽取扫描操作。
自助学习法能够提取新模版并获取更多同义词配对关系从而提升了整体召回率。然而由于自动学习带来的新模版质量准确性受到影响导致提取出的同义词配对在准确性上出现了一定程度的降低。一种直接有效的改进措施是建立模版质量评估机制。
- 其他方法
(1)借助序列标注模型自动化地提取同义词的文本描述模式
例如,在ENT表标识实体的情况下,S_B表标识模式开始的位置,S_I表标识模式继续的位置,O表标识其他成分。基于高质量的文本数据,通过序列标注模型训练出新的识别规则,随后能够根据这些规则识别并提取更多的同义词对。
(2)利用图模型进行同义词提取
通过分析词汇间的相似性关系可构建一个词汇连接网络。观察发现 同一主题下的词语在该网络中往往会聚集在一起 这种现象被形象地称为"集群效应" 因此 我们可以通过将词语间的语义关联建模为一个网络 来识别这些集群中的关键词组 每个集群都代表一组具有共同语义意义的词语
该方法的第一阶段是构建一个基于词语的语义关联网络。常用的方法包括通过计算任意两个词语对应的词向量之间的余弦相似度来确定它们之间是否相关。当两词语的余弦相似度超过设定阈值,则在图中添加一条连接这两词的边。在获得了完整的网络架构之后,在后续步骤中需要对网络进行划分以识别隐藏的社会结构特征:这一步的核心目标就是通过最大化模块度(Modularity)来实现最优划分:
Q=\frac{1}{2m} \sum_{i,j} [ A_{i,j}-\frac{k_i k_j}{2m} ] \delta(c_i,c_j), \; \delta(c_i,c_j)=\begin{cases} 1,&c_i=c_j \\ 0,&c_i \ne c_j \end{cases}
其中A_{i,j}表示节点i与节点j之间的边权重关系;k_i=Σ_j A_{i,j}代表节点i的总连接强度;c_i标记节点i所属的社会团体类别;而m=1/2 Σ_{i,j} A_{i,j}则表示整个网络中的总边数。在这里,
A_{i,j}-\frac{k_i k_j}{2m}这一项具体衡量了节点i与节点j之间是否存在一条显著意义存在的边。
其中Louvain算法正是基于模块度最大化的思想实现的一种高效的社团发现方法,在本研究中被用来完成同义词挖掘的任务。
基于不同平台(例如搜索引擎等)提取同义表达
基于远程监督的自动标注机制通过已有数据集构建同义词挖掘模型,并结合现有资源(如知识图谱、专业术语库和百科信息)进行精准配对。从在线公开资源中获取丰富且高质量的同义词配对实例后,在线知识库能够为该模型提供充足的训练数据支持。掌握相关技术后即可运用该模型进行预测任务。
1.4 缩略词抽取
1.4.1 缩略词的概念与形式
缩略形式通常指代一个完整的词语或短语其来源往往来源于该术语中的特定部分同时能够传达出原始概念的核心意义。其识别和提取过程本质上遵循着相似的原则但具体操作往往较为直接。
在不同的语言中, 缩略词形式各有特色。表音文字在这些形式上往往存在共性。例如,在拉丁语系中常见的简短形式有两种类型:简写和元音融合两种类型。其中acronyms和initialisms都是首字母缩写形式。它们的主要区别在于前者允许形成具有新发音的简短形式。

表意文字(如汉字)的缩略形式具有较高的复杂性,在其形成过程中通常没有明确的词语界限,在自然语言处理领域中,则需要借助分词算法来确定具体的词语边界。此外,在汉语语境下,缩略词汇及其相关术语往往是由多个汉字共同构成的整体概念,并非单一词汇所能表达。通常情况下,缩略词汇是通过从各个汉字中选取一到若干个字组合而成的

1.4.2 缩略词的检测与抽取
该系统采用基于模式匹配的策略实现缩略词识别及提取功能。然而,在实际应用中所得出的结果往往伴随较多噪声数据的存在,因此有部分学者通过整合统计分析与多种机器学习算法来优化和精炼这些提取结果
基于文本模式的操作
由于缩略词本质上是同义词的一种表现形式,因此在缩略语抽取过程中所采用的规则与识别同义词语的方式极为相近。在实践中,常见的基于文本模式的缩略语提取方式主要包括以下几种格式:如'X(Y)'、'X.Y.'等格式,'Y is the abbreviation of X'、'X, also known as Y'以及'X and Y are synonyms'等方式,其中符号X代表原始词汇,Y代表对应的简写形式。
结果清洗与筛选的主要方式主要包括两类:一类是基于数据集中的缩写统计特征进行识别的方法(如频率、卡方检验、互信息以及最大熵等),另一类是通过训练二元分类器来评估候选缩略词准确性的方法。这两类算法通常需要预先构建足够规模的人工标注样本来训练模型,并依赖人工设计的一系列特征维度来辅助识别过程。
枚举并剪枝是一种专门针对中文缩略词处理的有效策略。这种策略的关键在于生成所有可能的子序列,并进一步去除未在语料中出现过或者出现频率较低的候选缩略词。由于中文缩略词往往与原文字面意义相近且位置固定,在处理这类问题时可以通过分析候选缩略词与常见词语之间的共现关系来评估其潜在的可能性。具体而言,可以通过构建候选缩略词与高频词语的共现图来对候选进行打分,并利用随机游走算法对候选进行排序
1.4.3 缩略词的预测
尽管能够收集大量()的()对(),受制于语料规模较小的问题,在面对新增词汇时其表现欠佳。()抽取方法虽然在获取大量()对方面具优势但在新词汇识别方面仍显不足. 当前相关领域的一些研究致力于探索和总结()形成规律 并通过自动化学习的方式归纳总结这些简写形式 并用于推测和预测其意义及用法.
基于一定规则的方法
缩略词生成的规律大致可分为两类。一类是依据特定字符和词语形式而制定的局部性规律,具体包括以下几项:依据词性、依据位置以及根据词汇间的相互关联性。另一类则是根据语言环境而变化的全局性规律。例如,在预测涉及「南大」时需注意避免出现「南开大学」(Southwestern University)。通过系统地总结这些规律后,我们可以运用马尔可夫逻辑网等方法来整合特征从而实现高效的缩略词预测。
- 条件随机场(CRF)
大部分缩略词都由全称中的字符构成,并且这些字符之间的顺序通常得以保留。这种特性使得基于序列标注模型的应用变得可行。全称中的每一个字符都被赋予1或0的标签值,分别表示该字符是否包含在结果缩略词中。CRF在处理序列标注问题时具有显著优势:每次标注都会充分考虑已有标注结果的影响信息。对于输入字符序列 C=c_1c_2\cdots c_T 和其对应的输出标签序列为 L=l_1l_2\cdots l_T 的计算过程如下:
P(L|C) = \frac{1}{Z(C)} \exp \left( \sum_{t=1}^T \sum_k \lambda_k f_k(l_t, l_{t-1}, C, t) \right)
其中f_k表示定义在观测序列两个相邻标签位置上的状态转移函数,在刻画相邻标签变量间的相关关系以及输入序列对它们的影响方面发挥着重要作用;\lambda_k是第k个特征对应的权重参数;而规范化因子Z(C)则用于归一化概率分布。
该模型在CRF框架下通常会采用以下几种形式的特征(其中 f_k 表示特定的特征函数):首先包括基于字符级别的特征,这些特征能够捕捉到单词内部的模式信息;其次涉及基于词语级别的关键属性;此外还考虑了与词语在文本中的位置相关的属性;最后还包括考虑词语之间关联关系的特性。
针对各种序列标注任务,在经过对比实验后发现
1.5 实体识别
1.5.1 概述
命名实体通常由一个词或短语组成,在一组具有相似属性的事物中能够明确区分并标示出特定的事物。
命名实体识别(NER)是一种技术手段,在文本中定位并标注出不同类型的命名实体。
它不仅能够准确识别这些标记的位置信息,
还能将它们分类到预设的标准类别系统之中。
NER 接收的对象是具体的一连串单词组成的序列 s=
粗粒度名称识别(Coarse-grained Entity Typing)是一种技术:它涵盖的人物有演员和医生等类别,并涉及机构如医院和公司;小类名称识别(Fine-grained Entity Typing)作为子任务:通常会预先设定一个较大的类别系统(例如演员分为歌手和演员),这样单个名称可能属于多个类别标签。
1.5.2 传统的 NER 方法
- 以规则、专业术语库及网络数据库为基础的方法
这类技术手段属于早期较为流行的NER技术体系。这些方法主要依靠语言学专家的手工构建机制,在实际应用中通常会赋予每条规则相应的权重系数。当出现多条候选方案时,则依据其权值大小选择最优方案进行命名实体识别。
具有较高知名度的基于规则的NER系统主要包括LTG类系统
基于WordNet的语义分析模型:通过计算输入单词或实体与其在WordNet中所对应的范畴或实例之间的语义相似度,并将目标单词被归类到其对应范畴或实例的父级类别中以实现对输入实体类型的识别和归类。
- 监督学习方法
运用监督学习方法时,NER任务通常通过序列标注技术来建模。其中,B标签表示实体的起始位置,I标签表示实体的中间或结束位置,O标签表示相应字符不属于实体范围。基于序列标注的技术,语言模型接收经过预处理的语言文本信息,并通过序列标注技术生成标准化的情感、角色、地点等信息标记。在自然语言处理领域中广泛使用的序列标注问题通常采用HMM(隐马尔科夫模型)和CRF(条件随机场)等算法进行建模。

HMM 是一种生成型模型,在研究输入文本 X 与其对应的输出标签序列 Y 之间的联合概率分布问题上具有重要意义。该方法将待预测的标签序列视为隐变量,并假设输入文本是通过这些隐变量按照马尔可夫随机过程共同作用而产生的结果。基于这一假设推导出最优标签序列的过程,则表现为 \hat{Y}=\argmax_Y P(Y,X) 的求解方式。这种方法依赖于一个关键假设:即所研究的标签序列之间具有较强的马尔可夫特性,在某种程度上限制了其在复杂场景下的适用效果。
CRF 属于判别式模型类型,在实际应用中旨在通过建立模型来选择使得概率 P(Y|X) 达到最大值的 Y 值。在序列预测任务中,每一个 y_i 的取值不仅受到其前一位置 y_{i-1} 的影响,并且同时也考虑了整个输入序列 X 的信息。
构建高质量的特征工程对于提升基于监督学习的NER系统的性能至关重要。NER系统通常会涉及以下几种典型的特征类型:单级别的词法和词性标注特征(如单词、名词),以及通过维基百科和DBpedia等资源进行的地名及实体识别列表查找特征。此外,在文档内部还会提取语法结构及语料中的共现关系等复杂信息作为辅助识别依据。
半监督学习方法
该方法是以协同训练(Co-training)为基础设计的NER技术。该技术的核心在于建立两个相互关联的分类策略,在这一过程中每一类识别机制通过相互协作的方式向另一类机制传递弱监督信息。分类策略则包含基于拼写的特定模式识别和基于上下文的信息提取两种类型。过程如图所示。

1.5.3 基于深度学习的 NER 方法
相较于基于传统机器学习技术实现的命名实体识别模型而言,在深度学习方法中无需人工制定规则或繁琐的特征提取过程,在输入数据中能够自动生成语义信息,并且这种机制既灵活又便于跨任务迁移。在NER任务中广泛使用的深度神经网络包括RNN和CNN;其中卷积神经网络(CNN)主要用于向量特征的学习;而 recurrent神经网络(RNN)则不仅支持向量特征的学习,还可以处理序列标注任务。
一种经典的深度学习架构如图所示,在该系统中主要包括输入端的分布式向量表示、用于提取上下文信息的上下文信息提取模块以及负责标签预测的标签预测子网络三个关键组件;该系统采用了经典的编码器-解码器架构进行整体设计

在现有技术中应用最为广泛的 NER 模型是 BiLSTM-CRF 架构。该模型主要由分布式表示层级、双向 LSTM 层级以及条件随机场层级构成。
1.5.4 近期的一些方法
注意力机制
NER 模型将输入句子转换为统一维度的一个固定长度向量表示,在处理过长的文本时这一特性会导致模型学习变得困难。然而,在实际应用场景中那些对结果具有显著影响的关键信息往往集中在有限数量的数据点上 因此研究者们开发出了一种称为注意力机制(Attention Mechanism)的技术 该技术允许神经网络能够聚焦于具体感兴趣的部分信息 通过引入一个隐藏层结构和Softmax函数来评估每个位置的重要性 通常以概率的形式进行评估
基于迁移学习的方法(Transfer Learning Methodology),可将源自源领域(Typically rich in samples)所获得的知识转移到目标领域(Typically characterized by limited samples)上执行机器学习任务。在实际应用中,默认情况下,默认情况下,默认情况下,在实际应用中,默认情况下,默认情况下,默认情况下,在实际应用中,默认情况下,默认情况下,默认情况下,在实际应用中,默认情况下 getDefault() getDefault() getDefault() getDefault() getDefault() getDefault() getDefault() 在实际应用中, 默认的情况下, 默认的情况下, 在实际应用中, 默认的情况下, 在实际应用中, 在实际应用中, 在实际应用中, 在实际应用中, 在实际应用中, 在实际应用中
2 关系抽取
2.1 概述
2.1.1 关系抽取的问题和方法分类
问题在于将一个句子分解为包含在内的所有三元组<主语, 谓语, 宾语>。这一过程本质上是从该句子中提取所有的三元组<主语, 谓语, 宾语>。而具体到子任务层面,则可分为两大类基本任务:第一类为基于特定主题的关系实例识别;第二类则是在已知实体间推导隐含的关系关联性。其中一类是规范化的明确分类任务;另一类则是更为自由开放的知识发现过程。
-
关系实例抽取
给定目标关系,从语料中抽取相应的实例。 -
关系分类(Relation Classification)
基于对象对的文本描述, 将对象对的关系进行分类(通常需要预先设定关系类型). 针对无法归入已知类别的情况, 通常会设置未知(U nknown)类别. 在建立关系分类模型时会列举语料中提及的所有可能对象对. -
开放关系抽取
有时也被称作开放信息抽取法(Open Information Extraction, OpenIE),其主要目标是从开放域(Open Domain)文本中提取三元组实例。该方法侧重于从文本中提取关系描述,并且这些关系可以是非预先定义的或可进一步映射到已定义的关系。
除了上述基础任务外,在实际应用中还会衍生出一些相关的拓展性任务。例如,在给定的一份实体列表中,通常需要为这些对象获取大量的三元组数据。为了实现这一目标,在第一步骤中需要识别该对象类别所涉及的属性或关系信息。以书籍为例,在这种情况下配偶关系就不适用于描述其特征。接下来,在针对该对象类别及其相关的属性或关系信息的基础上,在语料库中提取相应的对象实例或属性值是完成这一过程的关键步骤之一。在实际场景中处理这类问题时往往需要结合上述方法论框架进行系统性的处理和求解工作。
针对上述关系抽取问题,研究人员提出了各种方法。
遵循某种模式或规则提取的方法
- 利用序列标注技术的监督学习方法
利用序列标注技术构建的关系抽取模型能够接收一段文本作为输入,并对其中每个词进行标记。这类方法通常采用监督学习的方法来进行训练与推理操作。例如,在自然语言处理领域中应用广泛的深层神经网络技术即是此类方法的一种典型代表。
采用基于文本分类的监督学习方案进行研究
2.1.2 关系抽取常用数据集
英文关系抽取任务在自然语言处理领域已广泛采用的多种评估基准库中具有重要地位。其中ACE 2005 数据库和SemEval-2010 Task 8数据库是两个最具代表性的重要基准库。研究者们通过深入分析发现,在大规模标注数据难以获取的情况下,可有效利用远程监督机制自动构建高质量的关系抽取数据集,并在此基础上开发出一系列创新方法。如纽约时报(NYT)和知识库解析(KBP)等典型实例表明该方法在实际应用中取得了显著成效
2.1.3 关系抽取评估方法
自动评估主要通过「留出法」进行评估(Held-out Evaluation)。具体而言,在测试集上抽取出来的实体对与其真实标注之间的对比关系能够有效地反映模型性能的关键指标。
在关系抽取评估中涉及的主要评估指标包括Precision、Accuracy、Recall以及F1 Score等。其中,在这四个主要评估指标中: Accuracy衡量了模型预测结果与标注数据集的一致性程度; Precision则评估了模型在将样本标记为正类时的准确性水平; Recall则量化了模型捕捉到所有真实正类的比例。
通常情况下,在信息检索或机器学习模型中,“精确值”与“召回率”之间存在矛盾关系;单独研究其中任何一个指标往往无法全面反映模型的整体性能。“F1 值”则是通过综合考量这两个关键指标而形成的综合评价标准。“此外,在评估模型性能时”,还可以采用绘制 Precision-Recall 曲线的方法;这种方法能够直观展示不同阈值下系统的Precision与Recall的变化情况。
- 人工评测
基于自动生成的测试集执行自动评测时往往会出现质量不达标的情况,并可能导致系统性偏差, 因此通常需要配合人工评测来弥补这一缺陷. 人工评测即由人类对模型生成的内容进行评分. 为了提高评测结果的可信度, 人们常常会采用多维度评分并综合考量的方法来提升准确性. 最常见的集成方法便是多数投票法(Majority Voting), 另外还有许多评测流程都会将评测任务指定为通过 crowdsourcing 平台分配给不同的人群来进行综合判断.
2.2 基于模式的抽取
2.2.1 基于字符模式的抽取
最直观的方法在于将自然语言视为由字符组成的序列,并构建相应的模式以完成抽取。这些用于表示特定关系的字符模式的一组标准是正则表达式。通过进一步分析与输入相关的内容后即可完成关系抽取过程。例如,在分析过程中,《$arg1》作为《现代文学家》中的一位作家的作品会被标记为‘作品-作者’的关系类型。
这种类型的方法不仅需要处理较高水平的相似性判断,在处理文本与模板之间的相似性方面有着较高的标准。这种方法通常被应用于那些具有固定描述格式的内容以及通过固定模板生成的网页内容。当应用于实际场景中时,这类方法耗时较长且复杂度较高,并导致其难以适应各种多样的应用场景。
2.2.2 基于语法模式的抽取
基于文本中所蕴含的语法结构(包括词法和句法等方面)来定义抽取模式的方法将有助于提升其表达能力。这种方法不仅能够明确指定匹配的具体文本实例,并且还能够进一步规范或限定抽取规则以提高其准确性与完整性。如‘NP 著有 (NP、)*’这类结构则可被用于提取‘作品-作者’相关的信息作为具体应用案例进行探讨分析。
从能力角度来看,语法模型在表达上显著超越了单一字符模式,并仍能可靠地维持匹配精度。构建这类模式时主要依赖的是人类掌握的语法知识体系;由此可知,在学习这类机制方面对于普通人的门槛并不高。
2.2.3 基于语义模式的抽取
语法规则借助词性标注等技术手段显著提升了其表达效果。然而这种表达方式仍显简略不够完善。一种有效的优化策略便是融入语义成分(例如概念)来增强其描述精度与完整性。近年来大量完善的知识图谱与知识库系统不断丰富了现有领域中的基本概念及其具体实例集合。这一背景使得将这些基本概念作为核心要素并基于其约束条件构建更为精确的语法规则成为可能。
通过概念的引入可以更加精准地描述模式适配的具体领域。例如,在定义「国家 战胜 国家」时,则需要确保前后短语不仅匹配「战胜」这一动作词,并且前后内容都限定为「国家」这一实体类别。因此,在这种情况下像「小明战胜了自己」这样不符合条件的例子会被过滤掉,并且这将确保不会出现无效的数据抽取情况。
2.2.4 自动化模式获取:自举法
为了减少人工定义模式所需的成本并提高召回效果,在实际应用中通常采用自动化手段生成和筛选高质量的模式集合。自举法作为一种核心算法框架,在这一自动化流程中发挥关键作用。具体而言,在特定类型的关系实例获取过程中,自举法的基本逻辑如下:首先通过为该关系类型标注少量初始实例对来启动系统;接着定位这些实体对在语料库中出现的所有相关句子;随后基于这些句子提取描述关系的模板;最后并利用提取出的新模板在语料中识别新的实例。这一模版提取与实例识别相结合的过程会不断重复——先进行模版提取再进行实例识别——直到没有新的实例被发现为止。
自举法的核心挑战在于质量管控方面。一方面,在线学习平台中的智能推荐系统或机器学习模型可能会出现语义偏移的问题,这可能导致推荐结果与预期不符;另一方面,在实际应用中为了提高信息检索的效率往往依赖于互联网大规模爬取的海量数据集作为训练资料来源;此外,在这一过程中还需要依赖于复杂的自然语言处理技术来辅助分析与提取关键信息;最终这种技术路径可能导致来自工具引入误差的各种问题在后续的知识提取环节中扩散开来。
2.2.5 基于模式抽取的质量评估
在评估实例与模板间的配对程度时
- 模式本身的置信度
常用该模式在抽取中的匹配精度作为置信度的衡量标准:
\text{Conf}(p_i)=\frac{\#正确匹配的实例}{\#匹配的全部实例}
对于某一条特定的关系实例而言,其置信度可通过与之匹配的所有模式来进行统计评估:
\text{Conf}(r)=1-\prod_{p_i \in P}(1-\text{Match}(r,p_i) \cdot \text{Conf}(p_i))
此公式表明:当模式的质量越高、匹配程度越佳,则抽取实例的置信度也会相应提高。在迭代计算的过程中,在每一步骤中只会保留置信度达到一定阈值以上的实例和模式进入后续运算步骤以避免低质量模式带来的语义漂移问题。
2.3 基于学习的抽取
当给定实体的位置时,在这种情况下一般会采用分类模型来进行建模。因此,在接下来的部分中我们将详细介绍基于分类的方法来提取关系。
2.3.1 基于监督学习的关系抽取
采用监督式学习的策略进行关系提取任务,并利用标注数据集对抽取模型进行训练。传统的分类方法主要分为以下几种类型:根据不同所采用的分类技术可将传统方法划分为以下几类:核方法、逻辑回归型方法、语法分析辅助型方法以及条件随机场相关技术。
传统基于监督学习的关系抽取流程:基于提供的训练样本集合(其中包括含有实体对的句子及其对应的关系类型),首先在文本预处理阶段完成了语法解析和词性标注工作;随后将这些预处理后的特征信息作为输入数据 fed into 分类器,并结合核函数方法或逻辑回归模型等技术构建关系分类器。
监督学习框架下的关系抽取任务主要关注点在于通过标注数据集提取具有代表性的特征指标。下面将介绍该模型中常见的重要特征指标。
词汇特征指的是实体间或周边所涉及的具体术语和专有名词,在语义上它们有助于确定实体之间的关系类别。
在描述两个实体之间的关系时
(2)上述词袋的词性标注。上例的词性标注为 {CONJ,NP,NP,NP}。
(3)实体对在句子中出现的顺序信息。
(4)以左实体为中心建立一个大小设为k的窗口,在其中包含了被提取出并带有相应词性的词语信息。在示例中可以看到,在这种情况下该项特征为空。
(5)类似于(4),但将左侧实体替换为右侧实体。例如,在前述例子中,在右侧实例中,“亚里士多德”这一右侧实体对应的window size of 3 for the word bag and its syntactic annotations are: student as NP, Aristotle as NP, and collectively as Verb.
在实际应用场景中,在接受过句法解析处理后得到的实体间最短的语法依赖路径得到了广泛应用。利用现有的依存分析工具如MINIPAR或Stanford Parser等方法即可获取句子的句法结构信息。这种分析的结果主要包含词汇集合以及这些词汇之间存在的有向语法联系。

语义特征
关系两边的类型通常用于定义候选实体对的匹配条件。例如,在「出生于」这一关系中,主语必定是「人」类实体,而宾语必然是「地点」类实体。
2.3.2 基于远程监督学习的关系抽取
远程监督学习被认为是一种弱监督学习类型,在这种框架下,基于外部知识的获取机制能够以间接方式指导目标任务的完成。
远程监督学习的核心理论基础是:基于一个三元组 <s, r, o> 的存在性推导出任何包含实体对 (s, o) 的语义都能反映出该实体间的关系特性。因此能够将包含有实体对 (s, o) 的语义视为正样本类别。通过对比大规模知识库中的三元组与海量文本数据,则可实现为目标关系建立大规模标注数据集。远程监督学习支持某类关系样本自动标注的具体流程如下所述。
步骤 1:从知识库(如 Freebase)中为目标关系识别尽可能多的实体对。
步骤 2:对于每一个特定的实体配对,在海量文本数据中筛选出包含该配对信息的所有语句,并对该语句进行关联关系标识。
步骤 3:包含了实体对的文本集合以及对应的关系标签构成了关系抽取的数据集;其中将实体对作为训练数据的基础是这些相关联的文本;其分类归属到预设的知识库中的特定关系类型。
- 远程监督学习中的噪音问题
基于远程监督学习构造自动训练集会引入很多噪声,即很多没有表达目标关系的句子会被错误地标注为该关系。解决这一问题的基本思路是,对标注数据进行甄别与筛选。在基于深度学习的模型框架下,常使用注意力机制对标注样本进行选择。此外,还可以采用额外的模型对样本进行质量评估,从而挑选出高质量的样本并用于构建关系抽取模型。例如,可以采用强化学习的思路来训练一个策略选择器去选择高质量的样本。
2.3.3 基于深度学习的关系抽取
基于深度学习的关系抽取的核心在于有效的文本表示方法与特征提取。本节将着重阐述基于 RNN 和 CNN 的输入文本特征提取方法。此外,在实际应用中尽管深度神经网络模型拥有众多参数配置需求,并且对大规模标注数据有较高需求;而远程监督学习能够提供大规模标注数据,并且常将其与深度神经网络模型结合应用。然而远程监督学习所标记的数据样本可能存在质量参差不齐的问题,并且需要一种有效的筛选标准来确保样本质量;因此下面也将详细探讨基于注意力机制的样本筛选策略。
基于循环神经网络的关系提取系统架构设计如下图所示:该系统主要包括输入编码器、双向循环结构以及多级池化模块等核心组件。其中,输入编码器负责接收并处理原始数据序列;双向循环结构通过反馈机制增强了模型的表达能力;而多级池化模块则有助于提取不同层次的空间特征信息。

(1)输入层。旨在将输入句子的每个词变换为词向量。
(2)双向循环层。对句子中的每个单词生成其对应的向量表示,并通过一个双向递归神经网络模型来处理整个句子以捕捉语义信息。对于每个时间步t而言,在前馈方向上(FW),我们计算当前时刻t上各节点的状态;而在反馈方向上(BW),我们同样计算当前时刻t上各节点的状态。随后我们将前馈方向和反馈方向的结果相加得到最终状态h_t = h_t^{FW} + h_t^{BW}。其中h_t^{FW}代表前馈方向上的状态h_t^{BW}代表反馈方向上的状态;这里的符号定义与之前一致;通过这种方式我们可以有效地捕捉到词语在其前后位置的不同语义信息并将其整合起来
借助于这种方法\{\boldsymbol{h}_t\}_{t=1,2,\cdots,T}被成功地生成了;其中T代表了输入句子序列的时间步数
(3)池化层。对于关系抽取任务而言,并非所有特征 \{\boldsymbol{h}_t\} 都能发挥正面作用。因此我们希望采用池化操作从 \{\boldsymbol{h}_1,\cdots,\boldsymbol{h}_T\} 中筛选出最具价值的特征。为此定义矩阵 \boldsymbol{H}=[\boldsymbol{h}_1,\cdots,\boldsymbol{h}_T] \in \mathbb{R}^{M \times T}, 则池化操作通过计算每行的最大值实现:
m_i = \max \{\boldsymbol{h}_i\}, \quad \forall i=1,\cdots,M
由此获得的池化结果为 \boldsymbol{m}=[m_1,\cdots,m_M]^\top \in \mathbb{R}^M 。对于每个训练样本句子,则通过双向 RNN 生成其对应的特征向量 \boldsymbol{m} ,随后通过设置一个全连接层并附上 Softmax 激活函数来完成关系的概率预测:
P(r_i | s;\boldsymbol{W}_0,\boldsymbol{b}_0)=\frac{\exp((\boldsymbol{W}_0\boldsymbol{m}+\boldsymbol{b}_0)_i)}{\sum_{k=1}^{n_r} \exp((\boldsymbol{W}_0\boldsymbol{m}+\boldsymbol{b}_0)_k)}
其中 n_r 表示训练集中的关系总数目;\boldsymbol{W}_0 和 \boldsymbol{b}_0 是该分类器待学习的参数集合;基于前述设计的分类器模型;其目标是最小化如下定义的目标函数:
L(\theta)=\sum_{n \in N} -\log P(r^{(n)} | s^{(n)},\theta)
其中 s^{(n)} 表示第 n 个样本句子;r^{(n)} 是其对应的关系标签;\theta=\{\boldsymbol{W},\boldsymbol b, W_c,b_c\} 代表模型的所有待学习参数集合
- 基于卷积神经网络的关系抽取
其核心思路在于通过卷积神经网络对输入语句进行编码处理,并利用全连接层结合激活函数来识别实体对之间的关系。模型架构如图所示

除了传统的词向量方法外,在关系抽取任务中占据重要地位的是位置编码机制。这种机制旨在捕捉句子内部各单词与其实体对之间的相对时间间隔。其核心理念在于:距离实体越近的词语往往携带了更多有助于分类的信息。每个单词与句首、句尾实体之间的间距则分别被编码为长度为 d_p 的向量序列。这些位置编码在训练初期会被随机赋值,并在模型优化过程中逐步调整以适应任务需求。将词向量与上述位置编码进行融合处理后,可以得到每个词语完整的表示形式 \boldsymbol{w}_i \in \mathbb{R}^d(其中 d = d_w + 2d_p)。基于此方法构建的整体表示空间能够有效提取和表征复杂的关系信息。最终整个句子 X 的语义表达则表示为 \boldsymbol{X} = \{\boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_m\}
CNN 的输入是矩阵 \boldsymbol{X},采用标准的一维卷积网络结构。假定卷积核的维度为 l \times d,第 i 个窗口可以表示为:\boldsymbol{q}_i=\boldsymbol{w}_{i:i+l-1} \in \mathbb{R}^{l \times d}, \; 1 \le i \le m-l+1,则第 k 个卷积核 \boldsymbol{W}_k 对第 i 个窗口作用的结果为:
p_{k,i}=f(\boldsymbol{W}_k\boldsymbol{q}_i+b) \in \mathbb{R}
其中,f 为激活函数。对所有的窗口进行计算,第 k 个卷积核输出的结果为 \boldsymbol{p}_k=[p_{k,1},\cdots,p_{k,m-l+1}]^\top \in \mathbb{R}^{m-l+1}。对所有卷积核的输出结果分别做最大池化操作 p_{k,\max}=\max(\boldsymbol{p}_k),并将输出结果拼接起来,经过非线性变换,得到句子的表示为 \boldsymbol{x} \in \mathbb{R}^{d_c}。给定实体对的句子,预测实体对的关系的概率可以建模为:
\boldsymbol{O}=\boldsymbol{M}\boldsymbol{x}+\boldsymbol{d}, \; P(r \vert \boldsymbol{x},\theta)=\frac{\exp(o_r)}{\sum_{k=1}^{n_r} \exp(o_k)}
其中 o_k 为 \boldsymbol{O} 中的第 k 个元素,n_r 为关系类别的数量,其余为待学习的参数。使用交叉熵作为损失函数,则训练模型的目标函数为:
\text{loss}=-\sum_{n=1}^N \log P(r^{(n)} \vert \boldsymbol{x}^{(n)},\theta)
其中,N 为训练集的样本数,\boldsymbol{x}^{(n)} 为第 n 个样本的句子表示,r^{(n)} 为第 n 个样本的关系标签。
基于远程监督学习构建的数据集中存在较高的噪声水平。因此必须采取特别措施来去除或减少这些噪声。基于句子级别的注意力机制(Attention)的抽取方法的核心理念在于:给每个实体对分配一个权重值,并根据其与目标关系的相关程度进行调整。其中权重数值越大则表明该句子在描述目标关系方面的作用越显著;而数值较小则可能属于冗余或无关的信息。具体而言,在这种模型架构中(如图所示),通过多层感知机来建模实体间的关系强度并完成最终的关系抽取任务

以卷积神经网络(CNN)为基础对每条句子进行编码处理后得到各独立句子的特征向量集合{x₁,x₂,…,xₙ}。随后通过构建关系抽取的重要性评估模型来确定各子句对整体语义的影响程度:首先计算每条子句x_i相对于关系抽取任务的相关度分数e_i= x_i A r;接着根据指数变换后归一化的策略获得各子句的重要性权重α_i=exp(e_i)/Σ_k exp(e_k);最后通过加权求和的方式综合各子句的信息生成全局语义表征s=Σ_αi xi
2.4 开放关系抽取
在现实中,关系类别繁杂多样,千变万化,以至于难以穷尽地列举,鉴于此,研究人员开发出开放关系抽取技术,亦即开放信息抽取法(OpenIE)。该技术以基于自然语言处理的文本数据作为输入,能够自动生成包含三个实体信息的三元组结构:分别是作为主语的关系实体(arg1),作为谓语的关系短语(re1),以及作为宾语的关系实体(arg2),形式上表现为<arg1(re1)arg2>。具有代表性的抽取系统包括TextRunner、ReVerb以及Ollie等。该方法需要具备以下关键特性:强大的自动化能力,支持多样的语料类型以及高效的处理速度
2.4.1 TextRunner
TextRunner系统采用了自监督学习框架进行运作,并主要由三个关键模块构成:实现了对文本数据的自动标注和分类器训练、内容提取以及三元组关系打分计算。
- 自动化语料标注与分类器学习

采用依存路径分析方法从启动数据中提取所有可能作为实体存在的名词短语
第2步:首先对文本进行预处理以获取完整的词汇表;接着从文本中提取并识别出所有的名词短语;然后利用依存句法树的路径信息确定潜在的关系候选者。
步骤 3:识别潜在三元组。
第4步:遵循启发式规则进行正反例标注。例如,在命名实体识别过程中, 单一的代词不宜充当实体角色, 实体之间的依存关系不宜过于冗长, 实体间的关系不应跨越子句结构等
首先采用较为轻量化的语法分析手段,在文本中识别出与主语和宾语相关联的名词短语,并将出现在两个名词短语之间的其他短语作为候选关系进行考察。在此基础上利用上一模块训练所得的分类器对这些三元组进行初步筛选,在此基础上得到大量候选三元组。

该模块首先会对候选三元组中的语义等价项进行整合。接着统计每个三元组在不同上下文中出现的频率。基于此方法计算各三元组的可信度分数,并最终选择得分较高的三元组作为最终抽取的目标。
2.4.2 ReVerb
TextRunner 系统虽能有效执行开放关系抽取任务,但仍存在一些不足之处:在提取过程中丢失了一些细节信息;所得出的关系表述不够准确或缺乏连贯性。针对这些问题,该系统通过引入基于词性规则的方法来优化生成的质量,并对低质量关系短语进行了筛选处理以提高整体效果。

上图体现了ReVerb系统中对关系短语实施的句法约束。
ReVerb系统是通过多种句法分析手段提取可能的关系短语。
随后该系统遵循上图所设定的规则进行限制。
最终系统会将满足所有条件且长度最长的关系候选作为三元组中的主述对象。
为了防止提取过于特定的关系描述者
该方法要求被选中的主述对象具备足够的代表性
即其实例数量需超过预设阈值k(通常取20)。
2.4.3 Ollie
ReVerb 系统在提升关系短语质量方面表现出色。然而,在带来显著提升的同时也不可忽视其局限性:它难以处理不含动词的关系短语;也无法识别需满足先决条件的关系。因此,在这一挑战下研究人员开发出了 Ollie 方法。该方法的本质在于利用依存解析路径(Dependency Parse Paths)实现自我强化学习机制。
Ollie 系统通过分析依存树信息来识别三元组的前提条件,并进而筛选出需要前提条件的三元组实例。该系统采用自举方法从 ReVerb 系统生成的高质量种子三元组出发,在语料库中进行迭代优化,并最终提取出不包含动词的关系模式。这一过程实现了对仅由名词构成的关系短语的有效抽取和识别。
基于上述思路, Ollie 系统引入了一种新型包含依存路径的模式, 即 \{ \text{arg1} \} \uparrow \text{nsubj} \uparrow \{ \text{rel:postag=VBD} \} \downarrow \text{dobj} \downarrow \{ \text{arg2} \}, 其中 arg1 表示该关系名词短语的主语 (nsubj), 而 rel:postag=VBD 的动词处于被动形式, dobj 则是直接宾语. 此类模式不仅扩展了关系短语的句法范围, 还通过支持不包含动词的关系短语(如 be co-founder of)来增强其适用性.
