论文阅读笔记-Content-Based Citation Recommendation
论文链接:http://aclweb.org/anthology/N18-1022
该论文发表在2018年ACL。
摘要:我们提出了一种基于内容的学术论文推荐方法。我们将给定的查询文档嵌入到向量空间中,然后使用其最近的邻居作为候选文档,并使用经过训练的判别模型对候选文档进行重新排序,以区分观察到的和未观察到的引用。与以前的工作不同,我们的方法不需要元数据,比如可能会丢失的作者名,例如在同行评审过程中。在不使用元数据的情况下,我们的方法优于PubMed和DBLP数据集的最佳报告结果,在F1@20中相对改进了18%以上,在MRR中相对改进了22%以上。我们的经验表明,虽然添加元数据提高了标准指标的性能,但它有利于自引,而自引在引文推荐设置中用处不大。基于我们的方法,我们发布了一个引文推荐的在线门户网站1,并发布了一个包含700万篇研究文章的新数据opencorpuss,以促进未来在这一任务上的研究。
方法:
如下图所示为引文推荐系统概述。在阶段1 (NNSelect)中,将语料库中的所有文档(在这个简单的例子中是7个)以及查询文档dq投射到向量空间中,并使用它的(K=4)最近邻:d2、d6、d3和d4作为候选文档。我们还添加了d7作为候选,因为它在d3中被引用。在阶段2 (NNRank)中,我们对每一对(dq, d2),(dq, d6),(dq, d3),(dq, d4)和(dq, d7)分别打分,以重新排序候选文档,并返回前3名候选文档:d7,d6和d2。

Phase 1: 候选文档选择(NNSelect)
文档嵌入模型,使用一个有监督的神经模型将任何文档d投射到基于其文本内容的密集嵌入。使用一个词袋来表示每个文本域,例如,d[title] = {' content-based ', ' citation 'recommendation '},计算特征向量:
其中wdirt是稠密方向嵌入,wmag t是单词类型t的标量大小。
然后我们对每个字段的表示进行规范化,并计算字段的加权平均值,从而得到文档的嵌入ed。在我们的实验中,我们使用文档d的title和abstract字段:

其中λtitle和λ abstract为标量模型参数。
训练:我们使用一个三元组<dq,d+,d->的训练集T来学习文档嵌入模型的参数(即λ∗,wmag∗,wdir∗),其中dq是一个查询文档,d+是dq引用的文档,d-是dq没有引用的文档。训练模型预测一对(dq, d+)的高余弦相似度和一对(dq, d−)的低余弦相似度使用每实例三重损失(Wang et al., 2014):

Phase 2: Reranking Candidates(NNRank)重排候选文档
在此阶段,我们训练另一个模型,以一对文档(dq,di)作为输入,并估计di在dq中被引用的概率。

NNRank架构。对于每一个文本域和类别域,我们计算dq的嵌入与di对应的嵌入之间的余弦相似度。然后,我们将余弦相似度分数、数值特征和交集词的加权和串联起来,然后是两个具有ELU非线性的稠密层。输出层是一个具有s型非线性的稠密层,用来估计dq引用di的概率。
结论:在本文中,我们提出了一种基于内容的引文推荐方法,该方法在查询文档缺少元数据时仍然具有健壮性,使研究人员能够在研究周期的早期或同行评审过程中进行有效的文献搜索,以及其他场景。我们表明,我们的方法获得了两个引文推荐数据集的最新结果,即使没有使用可用于基线方法的元数据。我们让公众可以在线访问我们的系统。我们还介绍了一个由700万篇科学文章组成的新数据集,以促进对这个问题的未来研究。
