【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches
文章目录
-
0.总结
-
1.Introduction
-
2.Preliminaries
-
- 2.2 Scope and Related work
-
- 2.2.1 Entity Linking=entity disambiguation
- 2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 2.2.3 Entity resolution on KGs
- 2.2.4 EA
-
3 整体架构
-
3.1 嵌入学习模块
- 3.2 对齐模块
- 3.3 预测模块
- 3.4 额外信息模块
-
4 实验分析
-
-
4.1分类
-
4.2数据集
-
- 4.2.1 Metric
-
- 4.2.2 比较的方法
-
4.3 DBP15K
-
4.4 SRPRS
-
4.5 DWY100k
-
-
4.6 速度分析
-
- 4.7 无监督方法比较
- 4.8 Module-Level Evaluation
- 4.9总结
- 4.10 指导和建议
-
-
5. 新的数据集及其未来实验
-
- 数据集构建过程基于DBP-FB框架
- 实验设计采用标准化方法
- 针对无法匹配的实体展开研究
-
0.总结
Empirical Evaluation of Current Best-Effort Entity Matching Methods.
-
研究结果表明:
-
通过深入的数据验证全面考察了系统的各项性能指标
-
对系统各组成部分的功能特性进行了全面解析,并探讨了不同技术组合对整体性能的影响
-
包含独特实体的数据集:DBP-FR
-
基于实验结果和理论分析得出了模型优化方案
-
短评
- 优点:实验分析好
- 缺点:模型架构分类不清晰(不知道他指的是什么)
-
类别:
- 实体对齐
- 基于embedding的实体对齐
- 综述
- DBP-FR
-
数据集:
- 自己提出的:DBP-FR
- DWY100k:稠密,单语言,大
- DBP15k:稠密,跨语言
- SRPRS:稀疏
-
图谱
- wikidata/DBpedia/yago3/Freebase
- 规模:15K/100K–候选实体也差不多这么多
-
底层模型:
-
监督、半监督、无监督
-
关系嵌入
- transE系列
- GCN系列
-
额外信息:属性嵌入(文本嵌入)/entity name
-
bootstrapping
-
ER用作EA
-
-
速度
- GCN可扩展性好:不会在大数据集上变得特别慢
-
开源软件情况:无
-
评估质量:-
- P/R/F1
- Hits@1,Hits@10,MRR
-
1.Introduction
动机
-
比较:
- 不公平
- 经验估计
- 设置不同
- 只 用KG/用额外信息
- 一次对齐/迭代训练
- 不公平
-
datasets
* 全面的性能评估:未在广泛的数据集范围内进行系统性测试的方法可能会影响评估结果的准确性-
使用场景
- 双语环境下的处理方案:支持双语翻译功能
- 多种语言支持:适用于不同语言环境
- 数据样本稀缺:适用于稀疏语料库
- 样本丰富:适用于稠密语料库
- 大量数据资源:适用于大规模数据集
- 适量资源:适用于中等规模的数据集
-
与真实世界数据存在差异
- 1v1:
-
dataset:1v1
-
实际:1v0占大多数
- 单语言名字歧义
-
dataset:同名同实体
-
实际:同名不同实体/同实体不同名
-
贡献
- 一种通用的EA框架
- 将方法按类别分组,并对类内和类间的方法进行评估。
- 在多样的应用场景中进行验证。
- 新增数据集包含三种类型的数据:
- 仅包含单语言信息的数据集
- 无法匹配实体的数据集
- 存在模糊实体的数据集
2.Preliminaries
2.2 Scope and Related work
- 实体对准
- 实体分辨率
- 实体匹配
- 记录联结
- 去重
- 实例/本体匹配
- 链接发现
- 实体链接和实体消歧义(Entity Linking and Entity Disambiguation)
2.2.1 Entity Linking=entity disambiguation
-
将mention映射到KG中的实体 * 所用信息 * 周围的words * 目标实体的概率值 * 已经消融的提及其 * 来自维基百科的知识库
-
实体嵌入表示(我们已实现)
- 我们对特定提及实现了实体嵌入表示
- 针对实体链接任务的相关先验知识分布
2.2.2 Entity resolution=entity matching=deduplication=record linkage
-
输入:relational data
- 每个data有许多属性(文本信息) (我们也有)
-
Similarity
-
Objects between
-
Utilizing distance and similarity metrics, we can analyze data relationships.
- Namewise, the Jaro-Winkler distance is particularly effective for name comparisons.
- Temporal numerical distances are crucial for evaluating temporal relationships.
策略
准则
机器学习
分类任务:精确匹配或不精确匹配
具体
特征配准
评估各属性值间的相似程度
将各属性间的相似程度进行汇总处理后得到记录间的相似程度。
2.2.3 Entity resolution on KGs
-
ER
-
知识图谱(Knowledge Graph, KG)中的二元关系以graph-shaped数据形式体现
- 同时适用于实例与本体匹配方法
-
graph-shaped数据的表现形式包括节点和边结构
-
面临的主要困难:
- 文本描述中通常仅有实体名称出现,缺乏具体的属性信息
- Open World Assumption下,在KG中可能出现不存在对应属性的情况(数据不完备)
-
预定义的语义扩展:
- 最基本的形式通常包含简单的分类系统。
- 高级形式则涉及遵循逻辑公理构建本体论。
2.2.4 EA
分类:
-
领域范围:
- 实体对齐(本研究仅专注于该领域)
- 关系建模
- 类别对齐:涉及两个知识图谱类别的分类问题
- 方法:该方法能够同时完成三个主要任务(实体对齐、关系建模及类别对齐)
-
知识基础
-
OAEI:以T-box形式的ontology为背景信息
-
本文:采用非基于ontology的方式
- Training
- 无监督:PARIS,SIGMa
- 有监督:基于pre-defined mappings的
- 半监督
- Training
-
EA with deep leaning:
- 利用graph-based representation learning的方法
- 构建知识图谱的架构
- 输出实体的向量表示
比较
* 无监督
* PARIS
* Agreement-MakerLight(AML):使用背景信息
* ER方法
* goal相同:EA=ER–因为相同所以比较ER方法
Bechmarks:
- 语言-Internal DBPedia
- DBP15K
- DWY15
- 问题:现有的 Benchmarks 仅基于 Schema 和 Instance 的基础构建。对于那些不依赖于本体的 EA 方法而言 – 所以本文不涉及本体?
PS:
* OAEI:推广了KG track
* 不公平
3.general框架

- Embedding
- transE
- GCN
对齐机制用于实现两个向量的映射关系,在同一空间中形成统一表示体系。通过使用相同的向量进行训练以提升模型性能,在状态转移过程中优化系统的动态行为表现。语料融合技术结合多源信息以增强数据处理能力,在边距优化方法的基础上改进分类器的判别能力。图匹配技术基于网络结构特征实现异构数据的有效关联,在特征归一化策略下提升模型的稳定性和泛化性能力。
- Prediction:
- 相似度计算:
- cosine
- euclidean
- Manhattan distance
- 相似度计算:
The Extra Information Module, designed to enhance the effectiveness of EA (Evolutionary Algorithm). Method: This approach combines bootstrapping or self-learning techniques, utilizing high-confidence aligned data pairs during the next iteration to improve training efficiency and accuracy.
* multi-type literal information
* 属性
* 实体描述
* 实体名
* 完善KG的结构
- 模块级别的比较
- 在个模块下介绍各方法如何实现该模块

3.1 Embedding Learning Module
-
TransE
- 包含实体间的结构信息
- 其相似邻居之间的实体距离更近
- 改变:
-
MTransE:
-
训练时排除负样本三元组,
-
容易陷入过拟合问题
-
BootEA,NAEA
-
- loss:margin-based loss->a limit-based objective function
-
GCN
-
基于图结构的操作
-
节点级别的嵌入表示包含了邻居信息
-
能够捕获多跳关系的实体信息
-
!!:GCN模型忽视了异构关系
-
MuGNN:logistic loss
-
注意力机制增强的GCN模型
-
通过赋予不同邻居节点不同的权重系数来优化性能
-
KECG:
- Graph attention network(GAT)+TransE获得图内结构和图内对齐信息
-
RDGCN:使用DPGCNN
-
-
-
损失函数:
-
BootEA,NAEA:基于极限的损失函数
-
MuGNN:逻辑斯谛损失函数
-
JAPE:设计新的损失函数?
-
构建新型嵌入模型:
-
RSNs:基于RNN的机制进行长期关系建模,并促进不同实体间的语义交互
- 结合残差学习机制与循环神经网络架构
-
Trans Edge
- novel energy metric:
- 目标:评估实体嵌入间边的信息传递误差(在embedding学习领域中)
- 边的嵌入采用基于context compression技术与projection建模方法进行计算。
3.2 Alignment Module
- 同一多个KG的embeddings
- 方法
margin-based function
- pos:positive seed entity pairs
- neg用于替代正样本中的实体对
- 目标是使两个知识图谱(KG)的嵌入合并到同一个向量空间中
- 特例:
-
GM-Align:通过最大化种子节点之间的匹配概率来构建一种框架
- 使用:GNN的方法
-
corpus fusion
- 通过 seed 构建语料间的桥梁
- eg
- BootEA 和 NAEA: 交换 seed entity pairs 的实体生成新的三元组,并将其嵌入到同一个空间中。
- Others: 将 seed entity pairs 的实体视为同一实体,并在此基础上构建 overlay 网络图以连接两个知识图谱。
transition functions:
* 设计一种transition,将KG1=M KG2,map
* 使用额外的信息:
* 实体的属性
* ->同一个空间
3.3 Prediction Module
-
相似度计算:
- 欧几里得
- Manh
- cos
-
GM-Align:
- 对齐到原实体的目标实体具有更高的匹配概率
-
CEA:
-
问题:在不同类型的EA决策中存在额外的相互影响因素,造成对齐上的偏差
-
解决:构建集体信号模型,并将其形式化为稳定匹配问题(采用距离度量机制)
3.4 Extra Information Module
-
bootstrapping
-
(基于自学习和迭代训练的方法)
-
上一步的预测结果用于下一步的训练中
-
可信实体对的选择策略有两种:
-
ITransE:
- 基于阈值的方法(ITransE)
- 基于迭代优化的方式
-
可以支持多对多的关系建模
- BootEA ,NAEA,TransEdge
- a maxmum likelihood matching
- 约束:1vs 1
-
-
多元化的数据信息
- 各属性名称的统计特性分析主要涉及三个关键指标:JAPE、GCN-Align和HMAN。
- 通过生成属性嵌入(AttrE和MultiKE),我们能够...
-
entity names
-
被用作学习实体嵌入的输入特征项:GM-Align, RDGCN, HGCN
-
CEA:通过利用实体名在语义层面和文字层面的信息(等信息),被用作个别特征项
-
KDCoE:HMAN+增强描述:通过编码关于实体描述的信息(等信息),用于实现实体对齐的过程
- 问题:
- 数据集缺乏textual information,对KDCoE,MultiKE,AttrE不利
- 问题:
4 实验分析
4.1分类
- 组1:仅用KG结构
- 组2:+bootstrapping
- 组3:+额外信息
4.2数据集
Embedding数据集
* FBK15
* FBK15-237
* WN18
* WN18RR
传统实体对齐数据集:
* OAEI(since 2004)
embedding实体对齐数据集
DBP15K:
- 跨语言:
- zh-en,
- zh方面:关系三元组的数量为70,414个;所拥有的关系数量为1,701条;属性三元组的数量为248,035个
- en方面:所拥有的关系三元组的数量为95,142个;所拥有的关系数量为1,323条;所拥有的属性三元组的数量为343,218个
- zh-en,
Language pair ja-en,
其中,在ja语言对中涉及的关系三元组数量为77,214个,
该语言对中的关系数目为1,299,
而属性三元组数目则达到了248,991个。
在en语言对中,
其包含的关系三元组数量为93,484个,
该语言对中的关系数目则降为1,153,
同时对应的属性三元组数目也增加至320,616个。
-
fr-en
- fr:该数量为105,998个关系三元组;共有903个独立的关系;属性的总数量为273,825个。
- en:该数量达到了115,722个关系三元组;共有1,208个独立的关系;属性的总数量达到了351,094个。
-
实体对齐连接数目:15k(每一种语言之间)
- 度分布情况:大部分位于1附近,在2至10之间的范围内变化。随着度值增加,实体数量呈现下降趋势。
- DBPedia
WK3L
DWY100K:
-
每个KG中的实体数量为10万
- 单语言领域:
-
DBP-WD,
- 在DBP数据集中,
- 关系(Relation)总数为 463,294条,
- 包含 330种不同的 Relation 类型,
- 属性(Attribute)总数达 341,770条
- 在WD数据集中,
- 关系总数为 458,855条,
- 包含 218种不同的 Attribute 类型,
- 属性总数总计 865,656条
- 在DBP数据集中,
-
DBP-YG *
-
DBP:关系三元组规模达4.29×105条(即428,952),其属性数目达约3.84×105条(即383,757);
-
YG:该系统的关系总数仅为约1.6×101条(即16),其属性数目约为约1.6×101条(即9.8千)。
-
(DBP:DBPedia,YG:Yago3,WD:wikidata)
- 每对有100k个实体对齐连接
- 度的分布:没有度为1or2的,峰值在4,之后递减
-
-
SRPRS
* 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
* 跨语言:
* EN-FR,
* EN:关系三元组数:36508,关系数221,属性三元组数:60800
* FR:关系三元组数:33532,关系数177,属性三元组数:53045
-
EN-DE
- EN:关联三元组数量为...(即关系数目为...),属性项数量达到...。
- DE:关联三元组的数量共计为...(其中的关系数目仅为...),属性项数量则达到了...。
-
单语言:
-
DBP与WD的对比分析,
- 在DBP中,涉及的关系三元组数量为...,
- 关系总数达...,
- 属性总数则为...
- 而WD中的数据表明,
- 关系总数达...,
- 属性总数则为...
- 在DBP中,涉及的关系三元组数量为...,
以DBP-YG为特征的分析
* 每种有15k个实体对齐连接
* 度的分布:很现实
* 度小的实体多(精心取样)
DBP-FB(一项实验研究探讨了现有最先进水平的实体对齐方法)
- DBP项包括关系三元组数量为96,414、共有关系数目为407及属性三元组数目达到127,614。
- FB涉及的关系三元组数量是111,974、共有关系数目达882及属性数目达78,740。
度的分布


EN-FR的统计

4.2.1 Metric
-
对齐效果:精确度与完整性
- matching rate(MR)和matching recall rate(MRR)
- Hits@m:m=1即为precision
- 精确率/召回率/F-1分数
- 传统方案的采用情况
-
对齐效果:分区索引技术在候选匹配对筛选与准确性方面的表现能力
-
压缩比率
-
匹配配对的全面性
-
匹配配对的质量度
4.2.2 比较的方法
JAPE -> JAPE-Stru
GCN-Align -> GCN
- ER方法
- Lev: Levenshtein距离
- Embeddings: name嵌入的余弦相似度
- embeddings: 使用预训练的fasttext进行嵌入
- 多语言支持:MUSE单词嵌入
4.3 DBP15K

- CEA
- 输出实体对,而非排名
仅依赖于KG架构进行知识表示。
RSNs表现出卓越性能:通过有效整合长距离关系路径的信息来提升对结构化信息处理的效果显著。
MuGNN与KECG相融合:
它们共同的目标在于完成KG构建。
在协调差异性处理方面具有独特优势。
完成过程的实现采用了创新性的方法论。
MuGNN基于AMIE+框架设计规则集成机制,
以实现复杂知识图谱的有效构建。
* KECG:
* harnesses transE
-
其他三种表现不佳:
- MTransE和JAPE-Stru:主要依赖于TransE模型
-
JAPE-Stru相对更好:因为它能够有效建模不同空间中的知识图谱结构,并且在转移过程中避免了信息丢失
* GCN好于上面两个 -
+bootstrapping
-
在现有方法中表现最差的:
- ITransE:
- 原因1:两个嵌入之间的映射导致了信息损失
- 原因2:传统的 bootstrapping 方法过于简单,并未能有效抑制错误的积累过程
- ITransE:
-
NAEA<BootEA<TransEdge
- 采用相同的初始化策略
- NAEA<BootEA:采用了注意力机制以获取邻居信息,在理论上具有优势,但并未带来实质性的提升
- 相较于TransEdge而言,则表现更为优秀
-
edge-centric embedding:从边中心视角出发进行结构建模
- 通过引入实体嵌入生成更加精确的表示,并在对齐过程中实现了更高的准确性
此外,在仅依赖结构信息的基础上,在仅依赖结构信息的基础上,在仅依赖结构信息的基础上
-
entity name information:相较于使用属性而言,在效果上表现更好。
- RDGCN约等于HGCN>GM-Align:
-
前两种方法通过利用关系来优化 entity embedding 的学习过程——然而,在 GNN 模型中这一问题却被忽视了。
* CEA:最好,有效利用和融合了可用的特征 -
基于名称的启发式规则:ER
-
Embed:支持跨语言的能力(虽然不如结构化方法那样完美)
-
Lev:涵盖近似语言以及单一语言类型
类别间的对比分析表明:
CEA方法在Hits@1指标上表现出最优的性能。
其他现有方法在多个关键指标上均表现优异:
目前最佳的是TransEdge,
RDGCN,
HGCN,
以及通过整合外部信息(如bootstraping和textual information)能够显著提升性能。
-
ER:
- Embed:相比大多数不使用实体名称的方法,在precision方面显著优于Embed
-
ER在实现EA方面具有显著效果
-
尽管不如某些采用实体名称方法的技术在实现效果上略逊一筹
- 其优势在于通过巧妙的设计实现了较高的准确性
-
语言障碍
- 第一组(1/2):具备跨语言能力, egTransEdge
- 在跨语言支持方面依赖实体名称的方式较为有限
-
支持相似或单一领域的情况
- 示例:Level, HGCN
4.4 SRPRS
稀疏的数据集

仅KG结构
- RSNs表现出色
- 在K-KEGG排名中位列第二的算法与其表现非常接近
- 与DBP15k相比:其性能略逊于该方法;由于其无法建立有效的对齐关系(即SRPRS未能实现精确匹配),导致规则转移机制失效
+bootstrapping:TransEdge依然最好
+额外
- 属性:
-
GCN-Align被认为是最优的:因为它们整合了属性数据。
-
GCN和JAPE:
- 这两项方法专注于特定领域
-
对于JAPE而言, 整合属性信息并未带来显著的帮助
-
SRPRS的一个显著问题是其拥有的属性数量有限
- entity name:效果更好
- CEA:100%,
- entity name:效果更好
-
ER:在单语言中entity name相同,所以效果都很好
* Embed:单语言、跨语言都可
* Lev :单语言/相近语言
单语言KG间:共享名称的实体其表现相当不错—这种现象同样适用于其他相似的语言环境
* 不一定,但大多
* 电影电视剧之类的第几季还是有区别的
类间
- 除了DBP15k之外:该方法主要基于实体名称而非传统的知识图谱结构。
- 原因
- KG 结构在此数据集上的效果不佳。
- 实体名称在单语言数据集以及与其相关的多语言数据集中具有重要意义。
4.5 DWY100k

-
RDGCN,NAEA:占用内存较大
-
实验环境下无法运行:配置良好(拥有 Intel Core i7-4790 CPU、NVIDIA GeForce GTX TITAN X GPU 和 128 GB 内存)
-
DWY100k:
-
更加丰富的KG结构信息:基于MuGNN和KECG的实验表明其表现更为出色。
-
Bootstrapping:
-
在现有研究的基础上进一步优化了实验结果。
-
其中BootEA和TransEdge算法的表现稍逊于相关领域的研究论文。
-
+其他信息
- CEA:100%ground-truth
-
ER
- 类似SRPRS:LEv,Embed:ground-truth–100%
-
-
4.6 速度分析

-
DBP15k, SRPRS-GCN
- Efficient GCN consistently yields comparable outcomes across different versions.
- ITransE-JAPE-Stru
- Others: 1–1e4 s
- NAEA-GM Alignment): > 1e4 s
-
DWY100k:
- 受限于GPU内存的限制,在实际应用中难以直接采用MuGNN、KECG和HMAN等模型
- 在GCN-Align、GCN以及ITransE等模型中
- GM-Align算法耗时5天完成开发
- 该算法在可扩展性方面存在不足,并且难以与NAEA、RDGCN以及GM-Align等模型兼容
4.7 无监督方法比较

无监督的方法
* PARIS:literal sim
* AML:ontology+KG背景信息
指标F1
PARIS/AML<CEA
- CEA:表现优异但受限于训练数据
- 无监督尽管不依赖训练数据但在一定程度上表现出色
- AML>PARIS:通过引入ontology information显著提升了概念对齐的质量
- AML依赖本体知识库通过提取本体信息实现了其功能然而目前仅在SRPRSEN-FR和SRPRSEN-DE两个领域实现了应用
4.8 Module-Level Evaluation

组合不同的模块
embedding:
* TransE
* GCN
alignment:
* margin-based loss(mgn)
* corpus fusion strategy(cps)?(swap? )
相似度
* cos
* manh
* Euc
额外的信息
* ItransE的bootstrapping
* 多种信息Mul
* 语义
* 实体名称
组合
* GCN+mgn
* TransE+cps
效果
-
self-supervised learning:促进性能提升
-
Embedding:GCN+MAG > TransE+CPS
余弦相似度在TransE模型中表现优异,在GCN架构中则表现不佳。加入实体名称信息后,余弦相似度的表现得到显著提升- 所有都用上,得到最好的效果
4.9总结
-
实体属性模型与关系实体模型对比
-
EA:基于知识图谱(Knowledge Graph, KG)的结构图形表示
- 仅依赖于知识图谱架构的技术
-
不擅长处理的实体类型:
-
难以有效处理的小类实体类型——长尾分布类
-
具有相似属性但非同一实体的节点之间存在关联关系
- 解决:
- +文本信息—可以用ER的方法
- 解决:
-
-
ER被应用于EA时主要基于文本相似性。
-
ER仅仅基于...的形式。
-
通过从文字相似性推导出实体等价性这一关系实现,在这种情况下它可用于EA中。
-
受不同数据集影响的程度
-
EA在各个数据集上的表现差异显著
-
密集型数据通常表现优异
-
语言类型方面:单语场景优于跨语言场景
- 在单语场景中,CEA、Lev和Embed方法表现最优
-
数据覆盖率达到100%
-
等价实体定义为名称一致的情况

4.10 指导和建议
模型选择指南
输入信息:
仅基于结构信息时,则需在第一、二组间进行选择;
当存在较多额外信息时,则建议采用第三种方法。
-
数据量
-
几种高效的方法,在扩展能力上有所欠缺(适用于处理少量样本)
-
大数据场景:一种高效的解决方案:GCN-Align
-
对齐的目标
-
仅专注于实现...:
- GNN模型具备鲁棒性好且良好的扩展性能力(能够有效地扩展至大规模数据集)
-
此外,在处理其他任务时需关注关系的对齐问题
- KG表示方法中使用TransE这一模型时,其核心机制在于能够学习实体与关系的表征
- 这种机制不仅有助于实现实体间的对应配准
-
bootstrapping的考量
-
具有提升数据集效果的能力
-
问题在于错误积累与时间消耗
-
是否采用bootstrapping取决于数据集情况
-
数据集较为简单:具备丰富文字信息与较高密度
- 很难的话就算了,错误会不断积累的
-
-
未来研究方向的建议
-
长尾分布:
- 存在相关研究利用额外的数据
- [66] W. Zeng, X. Zhao, W. Wang, J. Tang, and Z. Tan. Degree-aware alignment for entities in long-tail distribution. In SIGIR, 2020.
-
多模态EA
- 一个实体能够建立多样形式的信息联系
- [39] Y. Liu, H. Li, A. Garc´ıa-Dur´an, M. Niepert, D. O˜noro-Rubio, and D. S.
Rosenblum. Multi-Modality Enhanced Knowledge Graphs: MMKG in action. In P. Hitzler,
M. Fern´andez, K. Janowicz, A. Zaveri, A. J. G. Gray, V. L´opez, A. Haller,
and K. Hammar, editors, ESWC 2019: Workshops and Demos., volume 11503 of Lecture Notes in
Computer Science, pages 459–474.
-
开放世界场景
- 大多数现代知识图谱系统假设:在源知识图谱中存在实体总能在目标知识图谱中找到对应的实体
- 需要预先构建高质量的标注数据集
5. 新的数据集和未来的实验?
- 新的数据集
- 目的不同:
- 在单语言数据集中,在同一名称下通常对应同一实例;然而,在实际应用场景中却可能存在歧义的情况。
- 同一个id可能会被映射到多个提及项,并且这些提及项之间会一一对应关系以确保信息的一致性与准确性。
- 现实情况:尽管名称相同:
-
在YAGO3知识库中约有34%的数据集存在这样的情况:同一个名称被不同类型的实例所共享使用。
-
现有的数据集中没有这种情况(不然也做不到100%)
- 一定会有对齐的实体
-
实际不一定啊
- 总之,数据集都太简单了
-
-
5.1 数据集的构建DBP-FB
-
实体名称的id标识–实体名称面临的挑战。
-
该目标字段将使用Freebase标识符,并确保与同名实体关联。
-
数据来源来自DBPedia,并提供指向Freebase外部链接的信息(该信息具有唯一性)。此处括号中的内容已经足够详细。
- 构建
- 包含参与三元组但不参与对齐
- 构建
5.2 实验

-
具有实体对齐能力的性能特征
-
包含无实体对齐机制的端到端模型性能
-
当前所有模型的表现均低于SRPRS标准:其主要原因在于它们在结构异构性方面表现不足
-
实体的空间分布情况差异显著,并未形成统一的有效结构特征
-
实体名称的呈现效果仍然优于单语言数据集。
- 实体名称的模糊性会带来识别困难。
5.3 unmatchable entities

- Combining Evolutionary Algorithm (CEA)
- 在这种情况下,检索效果显著(覆盖范围广),但精确度较低(匹配质量不高):由于每个源实体都被精确地与一个目标实体一一对应
- 现在的进化算法仍然面临这一挑战
问题d的明确答案的方法:NIL阈值θ;若距离超过θ则丢弃该配对。
