论文阅读笔记-A Context-Aware Citation Recommendation Model with BERT and Graph Convolutional Networks
论文链接:[1903.06464] 具有 BERT 和图形旋转网络的上下文感知引文建议模型 (arxiv.org)
发表在2020年的Scientometrics期刊,期刊概述如下图。

摘要:随着发表的科学论文数量的巨大增长,在撰写科学论文时搜索参考文献是一个耗时的过程。一种可以在句子中适当的位置添加参考引文的技术将是有益的。在这一视角下,上下文感知的引文推荐研究已经进行了近20年。许多研究者利用引文标签周围的文本数据——上下文句子和目标论文的元数据来寻找合适的被引研究。然而,缺乏组织良好的基准数据和可以获得高性能的模型,使研究困难。
在本文中,我们提出了一个基于深度学习的论文引文推荐模型和组织良好的数据集。我们的模型包括一个文档编码器和一个上下文编码器,其中使用了图卷积网络(GCN)层和来自transformer的双向编码器表示(BERT),后者是文本数据的预先训练模型。通过修改相关的PeerRead数据集,我们提出了一个名为FullTextPeerRead的新数据集,该数据集包含被引用的上下文句子和论文元数据。据我们所知,该数据集是第一个组织良好的上下文感知论文推荐数据集。结果表明,该模型与所提出的数据集的性能达到了最高水平,平均平均精度(MAP)和recall@k提高了28%以上。
方法:
1 提供一个适合引文推荐的数据集FullTextPeerRead(http://bit.ly/2Srkdht)
2 提出一种基于BERT-GCN的上下文感知的引文推荐模型
2.1 方法概述
如下图所示为模型总体架构图,使用预训练模型BERT从上下文句子中学习上下文嵌入表示,使用GCN从引文网络中学习论文节点表示,将上下文表示与论文表示拼接送给前馈神经网络,输出层使用softmax得到引用该篇论文概率值。

结论:本文提出的基于上下文感知的引文推荐模型在MAP、MRR和Recall@K方面较现有模型有显著改进。这一突破性的性能改进的基础是BERT模型,它在最近的NLP任务中表现良好,适用于我们的上下文感知框架。通过BERT的上下文编码,我们的框架改善了上下文侧的表示学习。此外,我们应用了VGAE,它根据图数据组成GCN层,以缓解单独应用BERT时对局部环境的过拟合。该框架引文编码器采用VGAE将论文引文网络图数据处理成近似的表示形式。编码论文网络和编码上下文的组合是正则化的,导致性能比基于bert的模型提高。
对于上下文感知的引文推荐研究,现有的数据集不是最新数据,没有明确的上下文检测。为了解决这个问题,我们设计并发布了FullTextPeerRead数据集。该数据集包含了2017年以前的最新论文,提供了一种方便、准确地提取上下文元数据的方法,并具有良好的组织视角。
