论文浅尝 | Distant Supervision for Relation Extraction
Reference: Ji, G., Liu, K., He, S., & Zhao, J. (2017). Cross-Sentence Learning for Relation Extraction with Sentence-Level Context Awareness and Entity Descriptions. AI, pages 3060–3066.
_
_
动机
远程监督的方法基于知识库与非结构化文本处理方式实现了自动化数据标注。然而,在现有技术中存在两个主要缺陷:其一是在识别目标关系时缺乏有效的筛选机制;具体而言,在面对多个候选候选句(即所谓的 bag 中)时(即所谓的 bag 中),模型难以准确判断哪些是与目标关系直接相关联;其二是系统在构建语义理解能力方面存在明显不足:例如,在下述案例中如果没有明确了解 Nevada 和 Las Vegas 的具体含义,则很难确定它们之间的关联性是否属于地理位置范畴。
本文旨在收集更加丰富的信息来源
贡献
文章的贡献有:
采用句子级别的注意力机制来识别一个 bag 中的所有多个有用的信息片段,并且以便充分挖掘bag中的有用信息。
(2)使用实体描述来为关系预测和实体表达提供背景信息;
(3)实验效果表面,本文提出的方法是 state-of-the-art 的。
方法
本文的方法包括三个部分:(1)句子特征提取;(2)实体表示;(3)bag特征提取;
- 句子特征提取
模型结构如下图(a)所示,模型流程是:
通过将词向量与位置编码进行融合来生成每个单词的表征;而整个句子的词序列会被模型采用作为输入。
基于卷积神经网络提取输入层特征后,接着执行piecewise最大池化操作以生成句子的特征向量。

- 实体表示
基于词向量模型的实体表征,在经过结合实体特性和相关上下文信息后对原有的词向量空间进行优化处理以实现更好的表达效果
模型的核心理念在于通过深度学习模型中的卷积神经网络(CNN)对实体属性进行详细描述,并从中提取出关键特征向量作为实体的表征形式。在这一过程中,模型旨在使该实体的标准词向量表征与基于属性描述生成的特征向量表征之间的差异达到最小化。
- Bag 特征提取
构建 Bag 模型的核心在于对句子权重的学习过程。在获得袋中每个句子对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应的权重后,在获得袋中每个子句对应
Bag 特征提取模型如上图(b)所示:
采用bag中的全部句子的特征向量表示,并通过e2-e1方法生成的关系矩阵作为模型的基础数据。
(2)利用权重学习矩阵,得到每个句子的权重;
(3) 对句子进行加权求和,得到 bag 的最终表示;
实验
基于(Rediel 2010)这一常用的远程监督数据集

通过 Manual 实验对知识库中原本不存在的关系实例进行预测后, 随后通过人工标注的方式验证了预测结果的准确性. 其中, 以 top-K 作为评估标准的结果如表 1 所示, 而本文所提出的这种方法同样表现优异.

此外, 实验还通过案例研究探讨了本模型在处理包中每个句子时的关注度分配效果, 验证了本模型能够有效地区分有用与无用的句子。同时, 本文所提出的引入实体描述能帮助模型实现更为合理的注意力分配。
论文笔记整理:刘兵,东南大学博士,研究方向为自然语言处理、机器学习。
中文开放知识图谱(简称OpenKG.CN)致力于推动中文知识图谱数据的开放共享与互联互通,并被广泛应用于促进知识图谱技术和语义开发的进步。

转载须知:应注明出处为'OpenKG.CN'、署名及原文链接。若要更改标题,请标明
点击阅读原文 ,进入 OpenKG 博客。
