Advertisement

论文阅读-HybridCite: A Hybrid Model for Context-Aware Citation Recommendation

阅读量:

论文链接:https://arxiv.org/pdf/2002.06406v2.pdf

代码链接:https://github.com/ashwath92/HybridCite

摘要:引文推荐系统旨在为一篇完整的论文或一小部分被称为引文上下文的文本推荐引文。为引文上下文推荐引文的过程被称为局部引文推荐,这是本文的重点。首先,我们开发了基于嵌入、主题建模和信息检索技术的引文推荐方法。就我们所知,我们第一次将表现最好的算法结合到一个半遗传混合的引文推荐系统中。我们基于Microsoft Academic Graph (MAG)和MAG结合arXiv和ACL等数据集,离线评估了单一方法和混合方法。我们进一步开展用户研究,以评估我们的在线方法。我们的评估结果表明,包含嵌入和基于信息检索组件的混合模型比其单个组件和进一步的算法有很大的优势。

关键词:推荐系统;机器学习;数字图书馆

1 引言

引文是学术研究论文的命脉。它们提供了一种可信度的衡量方法,既可以用来支持作者先前的研究,也可以用来改进现有的方法,甚至可以用来批评以前的研究。

然而,近年来,由于新科学出版物的数量呈陡峭的上升曲线(详细统计见[24]),研究人员寻找合适的论文参考和引用的任务比以往任何时候都更具挑战性。因此,越来越多的研究现在被投入到引文中——基于文本中的一篇文章发现和推荐之前的工作的过程。这个文本段落,通常被称为引文上下文,可以有不同的长度,从一个短语或句子到整个文档。

关于全局推荐的工作,即对整个论文的引用,已经由[30],[38]和[34]进行,最近由[1],[40]和[6]进行。然而,本文侧重于局部引文推荐,使用1-3句或50-100个单词的相对较小的引文上下文作为推荐输入。这种类型的细粒度推荐,有时也被称为当代研究论文中的上下文感知引用推荐,首次在[16]和[15]中探索。

以前的作品还包括个性化的方法,如[9]和[40],它们使用作者和地点元数据作为输入,通常在评估中获得更好的分数。然而,正如[1]中解释的那样,这是由于指标通常倾向于预测明显的引用,从而获得更好的分数,例如同一作者的引用。因此,本文不考虑这种个性化的方法。

在本文中,我们首先将现有的基于深度学习的嵌入方法应用于引文推荐(Hyperdoc2vec by Han et al.[14])。此外,我们开发了基于主题建模和经典信息检索的几种基线,如基于bm25的方法,基于Latent Dirichlet Allocation (LDA)的方法[3],以及基于段落向量[28]的方法。其次,更重要的是,我们将前面步骤中表现最好的推荐方法组合成一个加权混合推荐系统来完成引文推荐任务。

虽然现有的引文推荐方法可以分为两个步骤(参见,例如,[1]),据我们所知,没有一种方法在本质上是真正的混合,即结合了来自两种不同推荐算法的结果。尽管混合推荐方法已经在其他领域被提出,例如论文推荐[25],但其任务与局部引文推荐有很大的不同,因为论文推荐不考虑引文上下文,导致不同的系统设置和评估设置[16]。

为了进行我们的实验,我们首次在(局部)引文推荐领域使用了丰富的微软学术图(MAG)作为我们的数据源之一。我们还准备了两个基于MAG的辅助数据集,并对语言和学科(分别是英语和计算机科学)进行了限制——arXiv数据集[36]和ACL-ARC数据集[2]。这些被映射回MAG并公开。总的来说,我们创建了5个大规模的评估数据集。

然后,我们在不同的数据集上评估所有我们提出的基线和方法。

总的来说,我们做出了以下贡献:

•我们提出了一种混合的引文推荐方法,它随机地结合了单个引文推荐方法。1

•我们准备了两个概念上不同的数据集(基于引用和被引用的论文),将在一个高级混合推荐系统中一起使用。因此,我们先进的混合推荐系统结合了多种算法和多个数据集。2

•我们基于5个数据集对所开发的方法进行广泛的离线评估。在其他数据集中,我们为此准备了MAG(超过160万篇计算机科学论文),并在网上提供。此外,我们还进行了用户研究。在所有的评估中,我们都可以看到所提出的混合推荐算法相对于其单个组件的优越性。

本文的其余部分结构如下:在第2节概述了引文推荐的相关工作之后,我们在第3节介绍了我们的引文推荐新方法。第4节概述了评价设置和评价结果。我们在第5节中给出结论和展望。

2 相关工作

McNee[30]于2002年和Strohman et al.[38]于2007年发表了第一篇全局引文推荐论文。此后,陆续发表了多篇全局和局部引文推荐论文。

局部引文推荐 这个术语是由He等人在2010年引入的,这是第一篇涉及局部推荐的论文。作者在[15]中扩展了他们的模型。Huang等人通过将上下文(源语言)中的特定关键字翻译为被引文献(目标语言),从而创建了一个事实上的引文推荐机器翻译系统。

Huang等人的论文[19]是Huang等人的后续论文之一。在这里,他们继续他们的翻译模型的工作,但增加了分布式词表示的词和引用的文献在引文上下文(见[31])。

基于嵌入的方法 [39]等人将基于嵌入的方法引入到引文推荐领域,使用TF-IDF向量构建跨语言嵌入用于局部引文推荐。Jiang等人的两篇论文[22,23]也在跨语言全局引文推荐的背景下使用了嵌入。Cai et al.[6]和Zhang et al.[43]在2018年进行了类似的工作。

最近由Han等人发表的一篇关于嵌入式神经网络的论文强调了内容感知、上下文感知、新来者友好性和上下文意图感知。由于这些特点,我们在本文中采用了他们的方法。

主题建模和信息检索 主题建模,特别是Latent Dirichlet Allocation (LDA)[3]已经被用于多篇引文推荐论文[21,26,29,34]。本文使用LDA作为基线。

基于tf - idf的文本比较或BM25等信息检索技术已经得到研究。Duma等人的两篇论文[7,8]将引文推荐作为一项信息检索任务,而Ebesu等人的[9]将BM25作为一个简单的基线。我们在混合推荐系统中使用BM25。

混合推荐系统 混合推荐系统从两个或多个不同的推荐系统中获取预测,并以某种方式将它们组合起来。

Burke[4,5]对混合推荐系统进行了很好的介绍和调查。在引文推荐背景下,Hsiao等人[17]使用了混合推荐系统,将两个不同系统的结果结合在一起。作者从一种算法中寻找推荐,并只选择另一种算法的推荐作为最后的手段。然而,在我们的论文中,我们创建了一个随机(半遗传)混合推荐系统,它结合了来自多个来源的结果。

有几篇论文探讨了两步过程(候选生成、排名)到引文推荐,包括Zarrinkalam[42]、Bhagavatula等人[1]和McNee[30],但它们本身不是混合系统,因为它们只是使用两种不同的算法生成候选和排名。Kanakia等人提出了一个混合论文推荐系统,其中他们结合了基于共同引用的算法和基于内容的算法。最后,Rokach等人提出了一个基于多种机器学习算法的混合引文推荐系统,这些算法的结果通过简单的平均组合在一起。在本文中,我们使用半遗传算法随机组合不同类别的算法结果,同时使用多个数据集(涉及被引和被引论文)。由于这种不兼容性,与这些方法直接比较是不可能的。

3 方法

在本节中,我们概述了作为组件使用的单一方法以及混合推荐算法本身。

3.1 单个方法

3.1.1 BM25。Okapi BM25是一个词袋算法,已被用于引文推荐方法中,既作为一个预过滤器,也作为一个简单的基线[9]。BM25根据每个文档中出现的查询词对返回的文档进行排名。然而,查询词的具体位置对排名算法没有影响。

3.1.2 Latent Dirichlet Allocation (LDA)。使用LDA[3]进行引文推荐的主要思想是为相同的主题推荐相同的引文(由引文上下文给出)。使用余弦相似度将引文上下文通过LDA生成的主题与所有主题进行比较。相似度按降序排序,并推荐相似度最高的论文。

3.1.3 Doc2Vec。文献中有很多深度学习方法用于引文推荐,如RNNs[27,40]和CNNs [9,41]。相反,基于嵌入的方法需要更少的时间和资源来训练,同时仍然在推荐任务中达到合理的结果。一种嵌入方法是doc2vec[28],它是word2vec的扩展。我们使用各自的数据集训练我们自己的嵌入,并生成doc2vec向量(段落向量)作为候选论文和引文上下文的隐含知识表示。然后,我们可以使用余弦相似度为给定的doc2vec引文上下文嵌入找到最近的doc2vec论文嵌入。

3.1.4 Paper2Vec。Paper2Vec[13]是另一种生成文档向量(段落向量)的嵌入方法。通过将论文的文本信息和引文信息分两个不同的步骤进行嵌入训练。其基本思想是,内容语义相似的论文被紧密地放置在一起。这将用于获得类似论文的推荐排名。注意,Paper2Vec在评估中被用作基线,但在本节中没有进一步描述,因为在[13]中对该方法进行了充分的描述。

3.1.5 HyperDoc2Vec。Hyperdoc2Vec方法[14]是超文档的一般推荐方法。因此,它可以应用于引文推荐。该算法为每篇论文生成两个向量:一个IN向量和一个OUT向量。使用双词嵌入的想法源于Nalisnick等人的[33],他声称在各种任务中,两个向量比一个向量更好。具体来说,对于论文P, IN文档向量(dI)表示P扮演源(引用)文档的角色。OUT文档向量(dO)表示P扮演目标(被引用)文档的角色。从本质上说,这意味着算法既可以感知内容,也可以感知上下文。P的内容(在我们的例子中,论文的全文或,如果没有全文,组成的伪全文标题、摘要,和引文上下文,它引用其他论文)和文件的上下文引用嵌入P扮演一个角色。然后,通过相似度函数(例如余弦相似度)比较训练过的论文嵌入,以找到最适合给定引文上下文的论文。

3.2 半遗传混合引文推荐

在这一小节中,我们描述了一种利用带替换的随机画的概念来概率集成不同算法的结果的方法。

来自不同推荐系统的推荐可以通过几种方式组合在一起。一种可能性是使用穆勒[32]所描述的随机加权混合算法。这种算法被称为“半遗传”算法,因为它跳过了遗传算法的交叉和变异步骤。此外,半遗传算法只有一次迭代,不像大多数遗传算法。在接下来的研究中,我们将这种混合算法用于引文推荐,因为与简单加权方法相比,它增加了一层随机性。

我们的混合算法的结构如图1所示,使用1个数据集和2个推荐系统作为组件。因此,我们称之为Hybrid12,或简单的hybrid。请注意,该算法适用于任意数量的单一推荐方法(下面的最小值)和数据集。工作流程如下:

(1)初始化种群:从所有可能的“染色体”中选择一组项目,即从两个组件算法的推荐列表中选择。在这一步中,我们从每个算法中获得topk推荐值(例如k=500),并将它们连接起来。

(2)评估适应度分数:将各算法的推荐值的倒数等级分配为适应度分数。如果一篇论文同时被两种算法推荐,那么它将包含两个相关的分数。

(3)将得分转换为概率:这是通过将每个得分除以所有得分之和来完成的。如果是多个分数,首先将分数相加。

(4)选择:随机抽取(如:,n= 100万个)从数组l(l=mk;例如,l=1000)推荐,基于步骤3中计算的概率。

(5)计算每篇论文被抽出的次数。

(6)将推荐按频率降序排序。

(7)解集:返回已排序的推荐数组中排名前k的推荐。

Hybrid23 由于论文的全文通常无法获得,我们引入了所谓的伪全文,由论文的标题、摘要和经常可用的引文上下文组成(见4.1节)。然而,可以想象,引文上下文描述的是他们链接到的被引用论文的各个方面,而不是他们出现在哪个论文中(这里称为引用论文)。例如,在图3中,论文a、b和c的引文上下文比论文i本身的引文上下文更好地描述论文i。Huang等人也提出了这一假设[18,19]。

因此,我们现在考虑的情况是,除了标题和摘要之外,正在引用论文的引用上下文(链接到将要建模的论文)被使用(即,图3中论文a、b和c的引用上下文)。对于Hybrid,初步结果表明,组合BM25和Hyperdoc2vec文档向量(hd2vOUT)组件的混合推荐系统导致最好的结果(见第4节)。我们也选择这些方法的具体设置引用论文的引文上下文和引用论文。将hd2vOUT直接应用于拟建模的论文(被引用的论文)而不是被引用的论文是有意义的。因此,我们最终有以下三个推荐系统作为我们先进混合方法的组成部分:

全部评论 (0)

还没有任何评论哟~