论文浅尝 | Triple Trustworthiness Measurement for Knowledge Graph

笔记记录:南开学子姚凯同学,在知识图谱及多模态大语言模型领域展开了深入研究。
1. 动机
知识图谱(KG)基于三元组表示方法描述现实世界的事实,在智能分析与应用领域被广泛应用。然而,在工程实践中不可避免地引入了潜在的干扰因素与成本支出。由于 KG 的任务或应用往往基于假设所构建的知识图谱是理论上的完美体现这一前提条件,在实际运用中不可避免地会导致潜在偏差的存在。为了实现 KG 可信度评估的可解释性目标以及从更为全面的角度审视知识图谱的质量问题,本研究则提出了 KGTtm 模型。该模型通过整合三元组内部语义信息与 KG 的全局推理信息,在三个层面综合衡量 KG 的可信度:具体来说包括实体层面(实体对之间的相关性强度)、关系层面(关系向量的平移不变性)以及全局层面(三元组相关可达路径的推理证明能力)。
2. 贡献
本文的主要贡献:
(1)构建了一个综合运用三元组语义信息与全局推断信息的知识图谱可信度评估体系。该模型能够分别在实体层面、关系层面以及整体知识图谱层面实现信心程度的量化测定。
通过基于Freebase构建的真实世界大型知识图谱上的基准数据集验证了三元组可信度的有效性
3. 方法
该论文提出了一种用于衡量三元组置信程度的知识图谱信任worthiness测量模型(KGTtm)。该方法综合考量实体层、关系层以及知识图谱全局层面上的信任程度,并通过三层评估机制对每个三元组进行整体信任评分:上层采用Estimator模块进行单个三元组的信任评估;中间设置Fusioner模块负责信息融合;下层则输出每个三元组的整体信任评分。

图1 基于KGTtm模型的框架图
该估计器旨在解决实体对(h, t)之间是否存在关系的问题。通过测量给定实体对(h,t)之间的关联程度,则可评估实体对间未确定关系的可能性。
首先使用改进的ResourceRank算法,计算头尾实体之间的资源强度。

其中,
V_{\text{out}}(t)代表了所有向前连接的节点集合,
O(t)表示该节点的出度,
C(t,t')代表了从该到目标t的传输带宽。
考虑到存在孤立的节点,
假设每个端点的能量以θ的概率流向其他一个端点,
其流量为...
引入了头尾实体的相关资源强度信息后,Estimator1综合考虑了三元组实体层面的关键六个特征:节点间关系的表示方式、头节点的入度值ID(h)、头节点的出度OD(h)、尾节点的入度值ID(t)、尾节点的出度OD(t),以及头节点到尾节点路径的整体复杂性指标。将这些特征进行编码整合形成向量V,并通过非线性变换得到概率值RR(h,t):

其中, 是非线性激活函数, 表示需要训练的参数矩阵。
Estimator2旨在计算度量实体对(h,t)之间存在关系r的可能性。该系统基于平移的能量函数算法模型(Translation-based energy function model, TEFM),通过将关系向量r表示为头部实体嵌入h与尾部实体嵌入t之间的平移运算来实现这一目标。
定义能量函数E(h,r,t):

使用修改的sigmoid函数计算将E(h,r,t)转化为实体对(h,t)构成关系r的概率:

其中 δ , λ 是超参。
主要目标是识别KG中其他关联的三元组是否能推断出当前三元组具有可信度。在有向图结构中,当一个头实体通过单步或多步路径可到达尾实体时,则显示这两个实体之间具有语义关联性,并且这些三元组所隐含的信息包含了复杂的推理模式。采用可达路径推理算法(RPI),首先利用一种基于语义距离的标准来筛选和选择合适的路径。随后将每个选中的路径转化为低维空间中的向量以支持后续分析过程。
对于所有从起始实体到结束实体的关系链中的每一个链条而言,请评估涉及的各类关系间的语义差异程度。

对于每一条路径,在完成头尾实体关系向量的融合操作后,在循环神经网络RNNs中进行编码运算以获取每条路径对应的语义特征向量。在此过程中,在计算得到各条路径特征向量后需要选择最相似的前k个实体元组进行融合,并通过非线性变换模块生成最终表示RP(h,r,t)。
最终的融合器Fusioner由三个Estimator的输出连接形成向量f(s);随后将该向量输入至融合器,并通过多层隐含单元进行处理。其输出端构建成一个二元分类模型;其中所生成的结果变量p代表三元组的信任程度。

其中 表示第i个隐藏层, 是需训练的参数矩阵。
4. 实验
本研究在FB15K数据集上展开实验任务。该数据集包含了共计1345条关系、1496个实例以及相应的约60万条三元组。为了提升模型鲁棒性,在实验过程中,在原始数据集基础上补充了数量相等的负样本三元组。具体而言,在生成负样本时,我们采用了随机替换头实例、尾实例或关系的方式。
模型在三元组错误检测的场景中运用准确率precision和F1分数作为评估标准来检验性能。
表1与其他模型性能比较

根据表1的数据可以看出,在两个评估指标方面KGTtm网络相较于MLP网络和双线性架构均展现出显著优势,在准确率与召回率两项指标上均有明显超越。相比于传统翻译模型也取得了不错的成绩得益于本文所采用的方法充分挖掘了三元组内部语义关联以及全局知识图推理机制 整体稳定性有所提高
最后作者实施了消融实验,并对各个Estimator所发挥的作用逐一进行了分析;具体数据可见于表2
表2 单一评估器错误检测结果

通过实验分析可知,在各测试集上运行该算法所得结果表明:各模型所得分类精度均超过0.8。主要采用可达路径推理(RPI)方法进行数据推断后发现,在测试集上运行该算法所得结果表明:各估计器的有效性均得到显著验证。基于可达路径推理(RPI)的方法在测试集上运行该算法所得结果表明:全局模型(KGTtm)所得分类精度得到了显著提升。通过实验分析可知,在测试集上运行该算法所得结果表明:KGTtm模型在各维度上表现优异且具有良好的扩展性。
5. 总结
本研究聚焦于知识图谱的可信度评估问题,并提出了一种名为KGTtm的知识图谱可信评估模型。该模型通过三个维度进行评估:实体层面(基于实体对的相关性强度)、关系层面(关系向量的平移不变特性)以及KG全局层面(基于三元组相关可达路径的推理证明)。针对这三个层次的问题特征,本研究采用三种不同的估计器分别进行求解,并全面考虑了其在实际应用中的可行性与扩展性问题。实验研究表明,在三元组错误检测任务中与现有典型方法相比,本模型展现出显著的性能提升
OpenKG
该系统致力于推动基于中文的知识图谱数据实现开放化、互连化以及大规模共享,并且还旨在促进基于知识图谱的算法开发与应用研究。
该系统致力于推动基于中文的知识图谱数据实现开放化、互连化以及大规模共享,并且还旨在促进基于知识图谱的算法开发与应用研究。

点击阅读原文 ,进入 OpenKG 网站。
