A Re-evaluation of Knowledge Graph Completion Methods
研究问题
研究表明,在过去几年中的一些前沿模型在性能上的提升部分得益于评估机制中的偏差。研究发现,在过去几年中的一些前沿模型在性能上的提升部分得益于评估机制中的偏差。研究发现,在过去几年中的一些前沿模型在性能上的提升部分得益于评估机制中的偏差。
论文里的一些观察
- 最近的研究表明多种方法均在某一特定数据集上显示出了显著的进步;然而,在另一个测试集合上的改进则较为有限。如图所示,默认采用 convE 作为基准进行比较实验时发现:非神经网络架构在网络规模较小(如 WN-18)的数据集中表现相对较好;而在 FB-2017(FB)的数据集中表现优异;但回到 WN-18(WN)的数据集中,则出现了性能下降的情况。

论文对近期提出的几种神经网络模型的三元组 scoring 函数分布进行了考察,在深入分析后发现了一些有趣的现象:即在某些负采样 triple 中其 scoring 值与对应的正类 triple 的 scoring 值完全相同。以图中的例子为例,值得注意的是,在这些 triple 中数值越小越好,在该图表中用红色虚线标注了正类 triple 的 scoring 值。结果表明,在这些负类 triple 中 majority 与正类 triple 具有相同的 scoring 值

研究者对现有多种模型进行了全面对比分析,并发现ConvKB和CapsE在多个三元组上表现优异

原因分析
如图所示,在论文中绘制了不同三元组经过ReLU激活函数作用后变为零的比例情况。经观察发现,在基于神经网络的模型中存在大量神经元被激活函数置零的情况。这使得许多三元组获得了相似的表现并最终获得了相同的评分结果。值得注意的是,在论文中这里讨论的内容就结束了。我认为这可能源于FB和WN数据集特性的差异性——即在这种情况下尽管模型学到了相近的分数值但FB性能显著提升而WN性能却明显下降

实验部分
- 对候选三元组进行排序
论文对比了三种不同的对候选三元组进行排序的方式,在这一研究中提出了三种排序策略:一种是将正确识别的三元组排列在最前位置(记为TOP),另一种是将正确识别的三元组安排到最后(记为BOTTOM),第三种则是采用随机排序的方法(记为RANDOM)。随后针对不同模型采用了上述不同排序策略并进行了实验验证,在两个典型数据集上展开了评估分析。


基于实证研究发现,在ConvKB、CapsE以及KBAT等模型的基础架构中主要采用了TOP排序方法;而其他几种模型则采用了随机排序方法。研究表明,在引入新的统一排序策略后,在神经网络模型中能够明显地呈现出来,并且其性能显著下降。
