Bootstrapping Entity Alignment with Knowledge Graph Embedding理解
该论文提出了一种基于Bootstrap的实体对齐技术,用于整合异构知识图谱。实体对齐的目标是通过分类任务将不同知识图谱中的实体进行匹配,定义了目标函数并提出了损失函数来优化嵌入参数。论文还设计了两阶段的损失函数,分别处理标签样本和未标签样本,并提出了综合目标函数以平衡对齐效果和语义建模。实验结果表明,该方法在对齐性能和语义建模上均优于现有方法。
Zequn Sun et al. IJCAI 2018.
相关知识介绍
实体对齐任务也被称为实体匹配任务,其主要目的是消除异构数据中的实体冲突和指向不明问题。通过构建一个涵盖多种数据源的统一知识库,以便机器能够更深入地理解异构数据,从而生成高质量的知识。实体对齐任务在自然语言处理和信息抽取领域具有广泛的应用。
Bootstrap方法在统计学领域是一种重要的估计技术,其理论基础来源于Stanford大学的统计学者Bradley Efron的创新性研究。作为一类非参数Monte Carlo方法,Bootstrap的核心在于通过对观察数据进行再抽样,从而揭示数据生成机制的内在规律,进而实现对总体参数的准确估计。该方法通过模拟数据生成过程,为研究者提供了一种更为可靠的数据分析工具,显著提升了统计推断的精度和效率。
个人想法:Bootstrap主要通过多次重抽样最大限度地利用了现有样本,并未进行额外的样本增加。由于样本数量有限,在足够大的抽样次数下,Bootstrap方法可以最大限度地估计出当前样本的统计特性。
论文背景
知识图谱(Knowledge Graph,KG)在多个AI领域中得到广泛应用,包括问答、语义搜索以及知识推理等多个方面。在知识图谱中,知识通常以三元组(h,r,t)的形式进行表示,其中,h表示头实体,r表示关系,t表示尾实体。为了更好地挖掘知识图谱中的潜在语义信息,通常会将知识图谱中的元素(如实体、关系等)采用低维向量进行表示。
单一的知识图谱难以满足多元知识的需求,通过实体对齐技术将多种知识图谱的异构知识集成起来,是一种有效的方式。然而,有限的训练数据量会导致embedding不够准确,实体对齐的精确度较低。基于Bootstrap方法,本文提出了一种实体对齐技术。
问题定义
目标是实现集合A = \{(x,y) \in X \times Y | X \sim_R Y\}的确定,其中,X和Y分别表示KG1和KG2的实体集合,X'与Y'则分别来自训练集。在这一框架下,等价关系X \sim_R Y被系统性地建立,确保了实体间的对应关系。
本文将实体对齐问题转化为分类任务,具体表现为通过将Y实体作为标签对X实体进行标记,其概率计算公式定义为\pi(y|x;\theta) = \sigma(sim(\vec{v}(x), \vec{v}(y))),其中\sigma(\cdot)被定义为sigmoid函数,sim(\cdot)采用余弦相似度度量,\theta则代表来自KG_1和KG_2的嵌入参数。在优化过程中,本文采用最大似然估计方法,其目标函数为\hat{\theta} = {\arg \max}_{\theta}\sum_{x\in X}\log \pi(L_x|x;\theta) = {\arg \max}_{\theta}\sum_{x\in X}\sum_{y\in Y} \mathbf{1}_{[y=L_x]}\log \pi(y|x;\theta),其中L_x表示实体x的真实标签,\mathbf{1}_{[\cdot]}依旧为示性函数。
主要方法
首先,基于正负样本的训练问题,我们采用了基于限制损失的嵌入目标函数:O_e = \sum_{\tau \in T^+}[f(\tau) - \gamma_1]_+ + \mu_1\sum_{\tau^{'} \in T^-}[\gamma_2 - f(\tau^{'})]_+.其中,O_e表示基于限制损失的嵌入目标函数,由正样本部分\sum_{\tau \in T^+}[f(\tau) - \gamma_1]_+和负样本部分\mu_1\sum_{\tau^{'} \in T^-}[\gamma_2 - f(\tau^{'})]_+组成。正样本部分旨在通过最大化正样本的相似性来提升模型性能,而负样本部分则通过最小化负样本的相似性来增强模型的区分能力。为了提高模型的鲁棒性,我们采用\epsilon策略来去除负样本,具体方法是从当前样本的最近s=\lceil(1-\epsilon)N\rceil个样本中选择负样本,其中\epsilon \in [0,1]表示负样本选取的比例,N是知识图谱中样本的总数目,\lceil\cdot\rceil是向上取整函数。通过这种方法,我们能够更有效地区分正负样本,提升模型的整体性能。
针对样本不足这一问题,我们同时考虑了实体与标签之间的一一对应关系。在第t轮迭代中,标签的对应关系被采用,具体采用的损失函数如下:
在最后部分,不仅需要捕获对齐似然,还需要对知识图谱的语义进行建模,从而得到综合目标函数:O = O_e + \mu_2 \cdot O_a,其中\mu_2是一个平衡的超参数。
