Raki的读paper小记:Neighborhood Matching Network for Entity Alignment
Abstract & Introduction & Related Work
如果不是知识图谱选手,请先阅读实体对齐的科普:实体对齐介绍
研究任务
实体对齐
已有方法和相关工作
1. embedding-based methods
面临挑战
1. 实体对齐是不容易的,因为现实生活中的知识图谱通常是不完整的,而且不同的知识图谱通常有异质的模式。因此,来自于两个知识图谱的同等实体可能有不同的表面形式或不同的邻接结构。
2. 相等实体之间的相邻关系不同的问题是无处不在的
3. 邻域大小和拓扑结构的差异给实体对齐方法带来了巨大挑战
创新思路
1. 图谱抽样方法为每个实体提炼出一个有辨识度的邻域
2. 采用跨图邻域匹配模块,对给定实体对的邻域差异进行联合编码
实验结论
sota

Our Approach
两个图基于一个预对齐的对等实体集合,目标是找到两个图中的对等实体对

Overview of NMN
- NMN首先利用GCNs对邻域拓扑信息进行建模
- 采用邻域采样来选择信息量更大的邻居
- 它利用一个交叉图谱匹配模块来捕捉邻居的差异

KG Structure Embedding
首先用GCN来聚合更高阶的实体邻居结构信息,使用预训练词嵌入来初始化GCN
将两个图作为一个大的图输入到GCN里面,每个GCN层将一组节点特征作为输入,并将节点表示更新为:

h_i^{l} 是第L层的节点输出特征

为了控制累计的噪声,在GCN层间使用一个高速网络来有效的控制噪声传播

Neighborhood Sampling
一个实体的一跳邻居是决定该实体是否应与其他实体对齐的关键,但是不是所有的一跳邻居都对实体对齐有正面的贡献,所以这里使用一个下采样处理来挑选出一个中心实体信息量最大的邻居
GCN学习到的实体嵌入有丰富的上下文信息,for邻居结构和实体语义,与中心实体越上下文相关的实体就越容易被采样

本质上是为每个实体构建一个判别性的邻域子图,这可以通过邻域匹配实现更准确的对齐

Neighborhood Matching
由采样过程产生的邻域子图决定了目标实体的哪些邻域应该在后期阶段被考虑。换句话说,NMN处理pipeline的后期阶段将只对子图内的邻居进行操作。在邻域匹配阶段,我们希望为对应的KG中的每个候选实体找出该实体的哪些邻域与目标实体的子图中的某个邻域节点密切相关。这些信息对于决定两个实体(来自两个KG)是否应该被对齐是至关重要的

Candidate selection
为了减少计算开销,NMN首先为 E_1 中的 e_i 采样一个对齐候选集 C_i = \{c_{i1}, c_{i2}, ..., c_{it} |c_{ik}∈E_2\},然后计算 e_i 和这些候选集的子图相似度。这是基于 E_2 中在嵌入空间中离 e_i更近的实体更有可能与 e_i 对齐的观察。因此,对于 E_2 中的一个实体 e_j,它被抽样作为 e_i 的候选者的概率可以计算为

Cross-graph neighborhood matching
p和q分别是给定E1和E2中图的节点的邻居,计算一个注意力

然后拼接起来

对于邻域子图中的每个目标邻居,匹配模块中的注意机制可以准确地检测出另一个KG的子图中的哪个邻居最有可能与目标邻居相匹配。直观地说,匹配向量mp捕获了两个最接近的邻居之间的差异。当两个邻居的表征相似时,匹配向量趋向于零向量,因此它们的表征保持相似。当邻居的表征不同时,匹配向量将通过传播而被放大
Neighborhood Aggregation

我想问的是,能把每个参数说清楚吗???W_{gate}你说了是干嘛的了?

Experimental Setup


Experimental Results




Conclusion
NMN解决了KG中无处不在的邻域异质性问题。我们通过使用一种新的基于抽样的方法来为每个实体选择信息量最大的邻居来实现这一目标
NMN通过考虑拓扑结构和邻域相似性,同时估计两个实体的相似性。我们在真实世界的数据集上进行了广泛的实验,并将NMN与最近的12种基于嵌入的方法进行比较。实验结果表明,NMN取得了最好的、更稳健的性能,在不同的数据集和评价指标上都持续优于竞争方法
Remark
符号能不能说清楚一点啊?trainable参数也至少说一下吧

读着有点无语的一篇paper
