Advertisement

DKN: Deep Knowledge-Aware Network for News Recommendation

阅读量:

ABSTRACT

在线新闻推荐系统旨在解决新闻的信息爆炸问题,并为用户提供个性化推荐。
一般来说,新闻语言高度浓缩,充满知识实体和常识。然而,现有方法没有意识到这种外部知识,无法充分发现新闻之间潜在的知识层面联系。因此,对用户的推荐结果局限于简单模式,无法合理扩展。
为解决上述问题,本文提出了一种深度知识感知网络(DKN),它将知识图谱表示融入新闻推荐中。DKN是一个基于内容的深度推荐框架,用于点击率预测。DKN的关键组件是一个多通道且词 - 实体对齐的知识感知卷积神经网络(KCNN),它融合了新闻的语义层面和知识层面表示。KCNN将单词和实体视为多个通道,并在卷积过程中明确保持它们的对齐关系。
此外,为了满足用户多样化的兴趣,我们还在DKN中设计了一个注意力模块,以根据当前候选新闻动态聚合用户的历史记录。通过在一个真实在线新闻平台上进行的大量实验,我们证明了DKN相比最先进的深度推荐模型取得了显著的提升。
KEYWORDS :News recommendation; knowledge graph representation; deep neural networks; attention model

1 INTRODUCTION

在这里插入图片描述

图 1:通过知识实体连接的两条新闻的示意图

1. 研究背景
在线新闻平台的兴起:随着互联网的发展,人们的新闻阅读习惯从传统媒体转向在线新闻平台。然而,在线新闻平台面临着信息过载的问题,用户很难从海量文章中找到自己感兴趣的新闻。
新闻推荐的挑战
时间敏感性 :新闻具有高度的时间敏感性,其相关性在短时间内会迅速下降,这使得传统的基于 ID 的推荐方法(如协同过滤)效果不佳。
主题敏感性 :用户通常对多个特定的新闻类别感兴趣,如何动态地衡量*用户基于多样化阅读历史的兴趣是新闻推荐系统的关键。
知识实体和常识的存在 :新闻语言通常高度浓缩,包含大量的知识实体和常识。传统的语义模型或主题模型难以发现新闻之间潜在的知识层面联系。
2. 深度知识感知网络(DKN)
知识图谱的引入 :为了提取新闻之间的深层逻辑联系,论文提出将知识图谱引入新闻推荐。知识图谱是一种有向异构图,其中节点对应实体,边对应关系。
知识感知卷积神经网络(KCNN
多通道:KCNN 将单词嵌入、实体嵌入和上下文实体嵌入视为多个通道,就像彩色图像的不同颜色通道一样。
词 - 实体对齐:KCNN 在多个通道中对齐单词及其相关实体,并应用转换函数来消除单词嵌入和实体嵌入空间的异质性。
注意力模块 :使用注意力模块自动将候选新闻与用户点击过的新闻进行匹配,并以不同权重聚合用户的历史记录。用户嵌入和候选新闻嵌入最终通过深度神经网络(DNN)进行处理,以预测点击率(CTR)。
3. 实验结果
数据集 :在来自 Bing News 的真实数据集上进行了广泛的实验。
性能提升 :DKN 在 F1 和 AUC 指标上显著优于现有的基于深度学习的推荐方法,F1 指标提升了 2.8% - 17.0%,AUC 指标提升了 2.6% - 16.1%(显著性水平为 0.1)。
知识图谱和注意力模块的作用 :实验结果证明了知识图谱的使用和注意力模块分别能带来 3.5% 和 1.4% 的性能提升。
这篇论文提出了一种创新的新闻推荐方法,通过引入知识图谱和设计知识感此外,我们在第5.5节中给出了注意力值的可视化结果,以直观地展示知识图谱的使用效果。

2 PRELIMINARIES

在本节中,我们将向大家介绍与这项研究相关的几个概念和模型,其中包括知识图谱嵌入(knowledge graph embedding)以及特别适用于句子表示学习的卷积神经网络(convolutional neural networks for sentence representation learning)。

2.1 Knowledge Graph Embedding

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 CNN for Sentence Representation Learning

在这里插入图片描述
在这里插入图片描述

图2展示了Kim CNN的架构。

在这里插入图片描述

3 PROBLEM FORMULATION

目标

4 DEEP KNOWLEDGE-AWARE NETWORK

本节将详细阐述提出的方法——DKN模型。具体而言:1. 首先将阐述DKN模型的整体架构;2. 接着探讨从知识图谱中提取知识的过程(称为知识蒸馏)。这一步骤涉及利用现有知识构建新的模型结构;3. 最后介绍一种结合了知识感知机制的卷积神经网络设计;4. 详细阐述基于注意力机制的方法用于提取用户的兴趣。

4.1 DKN Framework

在这里插入图片描述

如图3所示展示了DKN框架的架构设计。下面我们将从上至下详细阐述DKN的整体架构

4.2 Knowledge Distillation

在这里插入图片描述
在这里插入图片描述

我们在实验部分实证了情境嵌入的有效性。
2. 上下文示例(图 5)
文中提到为了说明上下文的作用,以 “Fight Club” 为例。在表示 “Fight Club” 这个实体时,除了使用其自身的嵌入外,还包括其上下文,如 “Suspense”(悬疑类型)、“Brad Pitt”(演员)、“United States”(国家)和 “Oscars”(奖项)作为其标识符。上下文实体通常在语义和逻辑上与当前实体密切相关,使用上下文可以提供更多的补充信息,有助于提高实体的可识别性。

在这里插入图片描述

4.3 Knowledge-aware CNN

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.4 Attention-based User Interest Extraction

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
加粗样式
在这里插入图片描述
在这里插入图片描述

5 EXPERIMENTS

在本节中, 我们将展示我们的实验及其相关结果, 包括数据集分析与模型比较. 此外, 我们还将探讨一个与用户阅读兴趣相关的案例, 并讨论超参数优化.

5.1 Dataset Description

在这里插入图片描述
在这里插入图片描述

1. 数据集来源和划分
来源 :数据集来自必应新闻(Bing News)的服务器日志。每条日志主要包含时间戳、用户 ID、新闻网址、新闻标题和点击计数(0 表示未点击,1 表示点击)。
划分 :收集了从 2016 年 10 月 16 日到 2017 年 6 月 11 日随机采样且平衡的数据集作为训练集,从 2017 年 6 月 12 日到 2017 年 8 月 11 日的数据作为测试集。
2. 知识图谱的构建
在微软 Satori 知识图谱中搜索数据集中出现的所有实体及其一跳范围内的实体,并提取置信度大于 0.8 的所有边(三元组)。
3. 数据统计和分布
新闻数据集的基本统计 :在表 1 中展示。
提取的知识图谱的分布 :在图 6 中展示。
图 6a:展示了新闻生命周期长度的分布。这里将新闻的生命周期定义为从新闻发布日期到最后一次收到点击的时间段。观察到大约 90% 的新闻在两天内被点击,这表明在线新闻具有极强的时间敏感性,新的新闻会迅速取代旧的新闻。
图 6b:展示了用户点击新闻数量的分布。77.9% 的用户点击的新闻数量不超过五条,这表明在新闻推荐场景中数据存在稀疏性。
图 6c 和 6d:分别展示了新闻标题中单词(无停用词)数量和实体数量的分布。每个标题中单词的平均数量为 7.9,实体的平均数量为 3.7,这表明平均每两个单词中就有一个实体。新闻标题中实体出现的高密度从经验上证明了 KCNN 设计的合理性。
图 6e 和 6f:分别展示了实体在新闻数据集中出现的次数分布和实体在提取的知识图谱中上下文实体数量的分布。可以得出结论,在线新闻中实体的出现模式是稀疏的且具有长尾特征(80.4% 的实体出现次数不超过十次),但实体在知识图谱中通常有丰富的上下文:每个实体的上下文实体平均数量为 42.5,最大值为 140,737。因此,上下文实体可以极大地丰富新闻推荐中单个实体的表示

5.2 Baselines

1. LibFM
简介:LibFM 是一种基于特征的高级分解模型,在点击率(CTR)场景中得到了广泛应用。
输入特征:本文中采用 LibFM 对每条新闻的信息进行建模时,默认将其分为两组:TF-IDF 特征与平均实体嵌入。通过将用户行为信息与候选新闻的相关特征进行整合后作为 LibFM 的输入。
2. KPCNN
简介:KPCNN(Knowledge - aware Piece - wise Convolutional Neural Network)通过将新闻标题中的实体信息作为单词序列的一部分,并利用 Kim 等级卷积神经网络提取新闻表示信息。
3. DSSM
简介:DSSM(Deep Structured Semantic Model)是一种用于文档排序的深层语义模型,在本文中被应用于推荐系统中。
4. DeepWide
简介:DeepWide 是一种融合宽线性和深非线性的通用推荐模型,在结构设计上借鉴了 LibFM 的思路。
5. DeepFM
简介:DeepFM 采用分解机组件与深度神经网络组件相结合的方式构建推荐系统架构。
6. YouTubeNet
简介:YouTubeNet 采用深度候选生成网络与排序网络协同工作的方式实现大规模视频推荐功能。
7. DMF
简介:DMF(Deep Matrix Factorization)是一种基于矩阵分解的知识化推荐模型,在本文中仅考虑用户的隐式反馈信息以构建推荐系统框架。
总结
除了 LibFM 外, 其他基准方法均建立在深度学习框架之上, 本研究旨在对比提出方法与其他前沿深度学习技术的效果差异. 在推荐系统领域, 除了基于协同过滤的 DMF 外, 其他基准方法主要依赖于内容相似度计算或混合方法.

5.3 Experiment Setup

该段文字主要介绍了实验中的模型参数设置和评估方法

5.4 Results

5.4.1 各模型性能对比

在这里插入图片描述

1. 实验设置与结果展示
文中在表 2 中展示了不同模型比较的结果。对于输入包含实体嵌入(entity embedding)的基准模型(baselines),还进行了去除实体嵌入的实验,观察其性能变化(用 “(-)” 表示)。并且列出了基准模型与 DKN 相比的改进情况,并通过 t - 检验计算统计显著性的 p - 值。
2. 实验结果分析
实体嵌入对基准模型的影响
实体嵌入可以提升大多数基准模型的性能。例如,KPCNN、DeepWide 和 YouTubeNet 的 AUC 分别提升了 1.1%、1.8% 和 1.1%。然而,对于 DeepFM 的提升不太明显。通过尝试不同的参数设置发现,如果 AUC 降到 0.6 左右,知识的使用带来的提升可以达到 0.5%。结果表明基于 FM(Factorization Machine)的方法在新闻推荐中不能稳定地利用实体嵌入。
DMF 的性能最差
DMF 在所有方法中表现最差,因为 DMF 是基于协同过滤(CF - based)的方法,而新闻通常具有高度时间敏感性和短生命周期。这证明了之前提到的协同过滤方法在新闻推荐场景中效果不佳的观点。
深度学习基准模型与 LibFM 的比较
除了 DMF,其他基于深度学习的基准模型在 F1 值上比 LibFM 高 2.0% - 5.2%,在 AUC 上高 1.5% - 4.5%,这表明深度模型在捕捉新闻数据中的非线性关系和依赖关系方面是有效的。
不同深度学习模型之间的比较
DeepWide 和 YouTubeNet 在新闻推荐场景中的架构相似,因此性能相当。DSSM 优于 DeepWide 和 YouTubeNet,可能是因为 DSSM 直接用单词哈希对原始文本进行建模。
KPCNN 在所有基准模型中表现最好,因为 KPCNN 使用卷积神经网络(CNN)处理输入文本,能更好地提取句子中的局部模式。
与 KPCNN 相比,DKN 的 AUC 仍能提升 1.7%。DKN 的优势归因于两点:1) DKN 使用词 - 实体对齐的 KCNN 进行句子表示学习,能更好地保留单词和实体之间的相关性;2) DKN 使用注意力网络有区别地处理用户的点击历史,更好地捕捉用户多样化的阅读兴趣。
3. 模型稳定性分析
图 7 展示了 DKN 和基准模型在另外十个测试日中的 AUC 得分。可以观察到 DKN 的曲线在十天内始终高于基准模型,这有力地证明了 DKN 的竞争力。此外,与基准模型相比,DKN 的性能方差较小,表明 DKN 在实际应用中是稳健和稳定的。
5.4.2 DKN 变体之间的比较

在这里插入图片描述

1. 实验设置
以四个维度对比 DKN 的不同变体形式, 以此验证 DKN 框架设计的有效性. 具体包括: 知识的应用情况、所采用的知识图谱嵌入方法、所选择的变换函数类型以及是否运用了注意力机制. 这些结果均体现在表 3 中.

在这里插入图片描述

2. 实验结果分析
知识的使用
实体嵌入和上下文嵌入的使用分别可以使 AUC 提升 1.3% 和 0.7%,将它们结合使用可以获得更好的性能。这一发现证实了在 DKN 模型中使用知识图谱的有效性。
知识图谱嵌入方法的选择
DKN + TransD 的表现优于其他组合。可能是因为如 2.1 节所述,TransD 是四种嵌入方法中最复杂的模型,能够更好地捕捉新闻推荐知识图谱中的非线性关系。
变换函数的选择
带有映射(mapping)的 DKN 比没有映射的要好,非线性函数优于线性函数。结果证明变换函数可以通过自学习缓解单词和实体空间之间的异质性,非线性函数可以实现更好的性能。
注意力网络的使用
注意力网络为 DKN 模型在 F1 值上带来 1.7% 的提升,在 AUC 上带来 0.9% 的提升。在下一小节将对注意力网络进行更直观的演示。

5.5 Case Study

在这里插入图片描述

为了直观呈现知识图谱与注意力网络的效果,并选取一位典型用户,在训练集与测试集中收集该用户的全部行为日志(未包含标签标记为 0 的训练记录)。

如图4所示,在该用户的点击记录中可以清晰地观察到他的兴趣分布:在第1至3号新闻中涉及了汽车相关内容,在第4至6号新闻中则聚焦于政治议题(值得注意的是这些分类在原始数据集中未被包含)

基于完整的特征集, 使用集成知识图谱的DKN架构进行参数学习, 同时还构建了一个未采用实体嵌入层及上下文嵌入层的对比版本DKN作为基准模型.随后, 将该用户的每一对训练与测试记录依次输入至两个已训练完成的模型中, 从而获得其注意力机制输出的结果.

  1. 结果可视化与分析

图表8a分析

图表8b分析

在这里插入图片描述

5.6 Parameter Sensitivity

在这里插入图片描述

5.6.1 词嵌入维度 d 和实体嵌入维度 k
实验设置
通过遍历参数空间中的所有组合(d ∈ {20, 50, 100, 200}, k ∈ {20, 50, 100, 200}),系统性地研究了词嵌入维度 d 和实体嵌入维度 k 对模型性能的影响。
结果分析 如图9a所示:

  • 当固定实体嵌入维度 k 后(k=2)、随着词嵌入维度 d 的提升(d=4到d=8),模型性能逐步增强。这种现象表明,在较浅层的语义表示能力下(如d=4)难以有效提取复杂的语言信息;而随着d值的增大(如d=8),虽然能捕捉到更多层次的语言信息以增强表征能力。
  • 然而,在进一步增大d值时(如d≥8),模型性能出现明显下降趋势(如从d=8到d=16),这可能是由于过高的表达能力导致模型过度拟合训练数据。
  • 当固定词嵌入维度 d 值时(例如d=4、8、16),对k值的变化规律与上述情况相似:较小的k值无法有效建模长距离依赖关系;较大的k值则可能引入不必要的复杂性并加剧过拟合风险。

6.1 News Recommendation

1. 新闻推荐研究概况
新闻推荐已经得到了广泛的研究。非个性化的新闻推荐旨在对新闻之间的相关性进行建模,或者学习人类编辑的展示方式。
在个性化新闻推荐中,基于协同过滤(CF - based)的方法经常受到冷启动问题的困扰,因为新闻内容经常被替换。因此,大量基于内容或混合方法被提出。
2. 具体研究方法举例
例如,[34] 提出了一种基于贝叶斯方法来根据用户的点击行为预测用户当前的新闻兴趣。
[39] 提出了一种针对基于位置的新闻推荐的显式局部情感分析方法。
最近,研究人员还尝试将其他特征融入新闻推荐,例如上下文 - 带宽(contextual - bandit)、主题模型和递归神经网络。
3. 本文方法的独特之处
之前工作和本文的主要区别在于,本文使用知识图谱来提取新闻之间潜在的知识层面联系,以更好地探索新闻推荐。

6.2 Knowledge Graph

1. 知识图谱表示的目标
知识图谱表示旨在为知识图谱中的每个实体和关系学习一个低维向量,同时保留原始图谱结构。
2. 知识图谱表示的相关模型
除了在 DKN(文中所提模型)中使用的基于平移的方法(如 [4, 18, 26, 48]),研究人员还提出了许多其他模型,例如:
Structured Embedding(结构化嵌入):文献 [5] 提出。
Latent Factor Model(潜在因子模型):文献 [17] 提出。
Neural Tensor Network(神经张量网络):文献 [37] 提出。
GraphGAN(图生成对抗网络):文献 [42] 提出。
3. 知识图谱的应用领域
最近,知识图谱还被用于许多应用中,例如:
电影推荐:文献 [52] 提及。
Top - N 推荐:文献 [33] 提及。
机器阅读:文献 [51] 提及。
文本分类:文献 [46] 提及。
词嵌入:文献 [49] 提及。
问答系统:文献 [10] 提及。
4. 本文工作的创新性
据作者所知,本文是第一篇提出在新闻推荐中利用知识图谱嵌入的工作。

6.3 Deep Recommender Systems

1. 深度学习对推荐系统的影响
近年来,深度学习正在革新推荐系统,并在许多推荐场景中取得了更好的性能。
2. 深度推荐系统的分类
大致来说,深度推荐系统可以分为两类:
一类是使用深度神经网络处理用户或项目的原始特征。
另一类是使用深度神经网络对用户和项目之间的交互进行建模。
3. 基于深度学习的推荐系统举例
除了前文提到的 DSSM(文献 [16])、DeepWide(文献 [6])、DeepFM(文献 [13])、YouTubeNet(文献 [8])和 DMF(文献 [50])之外,其他流行的基于深度学习的推荐系统还包括:
Collaborative Deep Learning(文献 [44])
SHINE(文献 [45])
Multi - view Deep Learning(文献 [11])
Neural Collaborative Filtering(文献 [14])
4. DKN 与其他方法的区别
这些方法与本文所提出的 DKN(Deep Knowledge - aware Network)的主要区别在于,DKN 专门用于新闻推荐,并且能够比其他通用的深度推荐系统取得更好的性能。

7 CONCLUSIONS

在本研究中,我们开发了DKN(深度知识感知网络),该网络依托知识图谱技术在新闻推荐领域展现出独特优势。与基于身份识别的方法(如协同过滤)不同,DKN采用了内容驱动的深度点击率预测模型,特别适用于时效性要求极高的新闻内容推荐。为了有效整合新闻内容中的实体信息与常识储备,DKN内嵌了一个KCNN模块,通过语义与实体双重视角融合学习新闻表征.多通道融合与精准对齐使KCNN能够整合多源信息,并保持各单词嵌入间的对应关系.此外,为了捕捉用户多样化的兴趣偏好,DKN引入动态聚合机制,通过动态计算用户的聚合历史表示来反映当前候选新闻的相关性.基于必应新闻数据集的系统实验验证了DKN的有效性

全部评论 (0)

还没有任何评论哟~