【论文阅读】《基于知识图谱的推荐系统研究综述》
【论文阅读】《基于知识图谱的推荐系统综述》
一、论文基本信息

二、推荐系统信息
(一)推荐系统背景
- 推荐系统说明

基于用户的集合U和物品的集合V的关系Ri,j来度量用户的偏好强度。例如,在电影推荐平台MovieLens上,Ri,j代表了用户i对电影j的评分。接着,在推荐系统中引入了一个效用函数f:U×V→R,f(u,v)表示用户的偏好强度与商品之间的关系模型。
- 推荐系统的中心在于致力于实现个性化推荐算法。
- 推荐算法分类:
- 基于内容的方法
- 基于协同过滤的方法
- 混合类的方法
- 存在问题说明:
以协同过滤为基础的推荐算法,在实际应用中通常通过分析用户的使用历史数据建立模型,并无需对物品进行复杂特征提取和建模过程即可展现出良好的效果并具有广泛的应用前景。然而该方法仍存在以下不足:
- 由于在实际应用场景中往往面临数据稀疏的问题;
- 当遇到新用户或新商品时无法进行精准推荐的问题。
*解决方案:
研究人员采用协同过滤推荐算法与多种辅助数据融合的方法(一方面包括用户和物品的属性特征;另一方面包括用户的社交网络信息等),旨在解决上述问题并提高推荐质量。
(二)推荐算法分类
【基于内容的推荐算法】
基本假设:用户可能会喜欢与他曾经喜欢过的物品相似的物品
流程:
1.基于建模技术计算用户直接反馈行为(如打分、点赞)与潜在兴趣商品(如搜索次数、点击行为或购买记录)所构成的候选商品集合与全部商品之间的相似性度量值;
2.根据相似性度量值从高到低对候选商品进行排序以生成推荐列表;
3.综合时间维度的影响以及地理位置信息等因素,并结合具体的推荐场景设置来优化最终的推荐结果。
基于内容的推荐算法以深度学习技术为基础,在解决新物品冷启动问题方面表现出色,并成功应对由于矩阵R稀疏所带来的挑战。
该推荐系统的输出结果具备良好的可解释性特点。
在构建基于内容的推荐系统时需要投入大量的人力物力来进行复杂特征工程设计;这种系统架构的选择会对最终的实际效果产生重大影响。
该系统输出的结果在多样性方面表现不足;具体而言,在大多数情况下会生成与用户有过显式或隐式反馈的历史商品高度相似的内容。
值得注意的是:新用户的缺乏历史行为记录导致他们无法获得与已有用户相同的个性化体验;换句话说,“曾经喜欢的商品”这一因素在他们身上缺失会导致cold start问题。
【基于协同过滤的推荐算法】
分类:
1.基于用户的协同过滤
2.基于物品的协同过滤
3.基于模型的协同过滤
基本假设:
- 以用户的视角为基础进行协同过滤:其他人可能会倾向于与他们相似的人的兴趣。
- 以物品为基础进行协同过滤:类似的物品可能会被不同的人所喜爱。
- 模型驱动型协同过滤旨在解决上述两种方法面临的数据稀疏、难以在大规模数据量级上提供即时结果的问题。
流程
1.基于用户的协同过滤算法
根据用户的互动数据计算出各用户间的相似性,在此基础上筛选出与目标用户具有较高相似度的群体;
通过这些高相似度用户的购买或评分信息,从而预测这些用户的可能偏好,并据此进行个性化推荐;
2.基于物品的历史数据协同过滤的方法能够有效分析用户的偏好趋势。通过计算出各物品间的相似性度量值,并基于这些数据进一步推断用户的兴趣领域;从而实现精准推荐。
3.基于机器学习的协同过滤模型
基于历史数据应用机器学习算法获得预训练模型f
从而能够实时推断任意用户的偏好特征
- 特点
- 基于用户的协同过滤:
避免挖掘物品自身的属性信息,在用户数量发生较大变化时效率较低,并难以处理新用户的加入问题 - 基于物品的协同过滤:
计算过程较为简单,在离线环境下运行并定时更新以提高效率
相比基于用户的协同过滤算法,在无需离线更新的情况下无法实时为新加入的用户提供推荐 - 基于模型的协同过滤:
略
【混合推荐算法】
基本假设
将多种推荐技术混合,从而互相弥补缺点
混合方法
- 加权集成、切换模式与混合机制
- 不同数据源的特征整合
- 多模型级联是一种复杂的方式
- 特征逐步引入
- 多层次融合机制
经典的混合推荐系统通过将协同过滤与其他主流的推荐技术融合,以有效的方式解决潜在的问题
该系统具有针对特定推荐场景的定制化建模能力,并能科学地应用多余的数据资源
例如,Konstas等[31]基于Last.FM这一音乐网站特有的用户间社交网络信息开发出一个高效的混合推荐系统. Wang等[2]则通过利用知识图谱的语义关系网络数据挖掘新闻内容中的潜在知识联系进而开发出一套适用于新闻推荐场景下的高效混合推荐系统
三、知识图谱信息
(一)知识图谱背景
知识图谱作为辅助信息,可以在混合的个性化推荐中扮演重要的角色
知识图谱所承载的信息内容十分丰富:
-
知识图谱是一种定向非同质化网络结构,在其中节点代表实体;边则代表实体之间的关联关系;
-
该结构不仅能够存储丰富的背景信息以及各实体间的关联性;
-
同时还能够挖掘用户与商品之间潜在的关联性;
-
学术界已构建了一系列的知识图谱框架包括DBpedia KG1) AceKG2) Microsoft Satori 百度知识图谱以及 OwnThink KG5)等.
-
知识图谱的核心在于组织和管理知识实体及其间的关联信息。
-
知识图谱有助于系统地阐述现实世界中对象及其相互关联的情况。
知识图谱的应用场景
1.推荐系统
2.智能问答
3.文本分析
(二)知识图谱的形式
知识图谱通常采用三元组形式存储实体及其关联信息,并通过形式化模型表示为G=(E,R,S);
(1)实体集合:R
(2)关系集合:S
(3)每个三元组Si由头实体、关联以及尾实体组成
知识图谱可以表示的内容
1.实体间的关系
2.实体的属性
(三)知识图谱的内容会频繁地动态更改 -> 动态知识图谱
四、推荐系统和知识图谱的联结
通过分析知识图谱的独特性质及特点可知,在数据驱动型社会环境下应用基于知识图谱的知识化方法能够较好地解决传统推荐系统存在的局限性。在这一过程中充分运用了用户属性、用户间关系等辅助信息,并通过引入这些辅助信息来提升推荐算法的效果。
(一)将知识图谱应用在推荐系统中
- 知识图谱在推荐系统中的应用主要受到以下因素的驱动:
- 不同物品之间的互动数据量相对较少
- 新 introduced items 在 cold start 问题上表现出不足
- 知识图谱中包含丰富的实体信息及其相互关联的数据
(1)这些实体及其相互关系可被视为重要的辅助信息来深化用户与物品的描述
(2)该技术方案能够显著提高推荐算法的准确性
(3)该方法不仅能够有效缓解数据稀疏问题,并且还能有效应对 cold start 问题
[图片举例]
- 知识图谱可以和原用户-物品的交互数据构成一个异质信息网络图,利用挖掘图上用户到物品之间不同的路径,提升推荐效果;
- 以下列基于知识图谱的异构信息网络图为例:

- (用户 A 钟爱 《成事在人》,该片 演员 摩根·弗里曼参演;摩根·弗里曼 还参演了 《肖申克的救赎》,故 能 推断 用户 A 对 《肖申克的救 retreat有好感)
- (用户 A 钟爱 《成事在人》,该片 演员 出现在 克林特·伊斯特伍德主演的作品中;而 克林特·伊斯特伍德 则 出演了 《逃出亚卡拉》,其作品 最终改编为 《肖申克的救 retreat),因此 用户 A 对 这部作品有偏好的推导)
(喜欢由用户 A 组织,《成事在人》) ∧ (由导演克林特 · 伊斯特伍德执导,《成事在人》) ∧ (克林特 · 伊斯特伍德主演/出演了电影《逃出亚卡拉》) ∧ (观众对电影《逃出亚卡拉》给予喜爱/评价) ∧ (用户 B 对电影作品《肖申克的救赎》表示喜好/兴趣) ⇒ (喜欢由用户 A 组织,《肖申克的救赎》)
- 研究构建异构信息网络图的案例分析表明:该网络图能够帮助我们从大量源数据集中提取未观察到的用户-物品互动关系,并有效缓解数据稀疏性及冷启动问题。
- 构建可解释性推荐系统逐渐受到行业关注。
- 可解释性推荐算法的目的:在为用户提供适合的商品的同时,并阐述推荐依据以及具体原因。
- 可解释性推荐算法:能够有效提升用户的信任感和满意度,并让用户更容易接受并选择被推荐的商品。
(二)理解
作为易于理解的知识库资源,可以帮助建立用户与物品之间的合理联系;从而促进推荐系统的可解释性发展。
五、基于知识图谱的推荐系统
- 知识图谱+推荐系统
- 将知识图谱和推荐系统结合起来
(一)基于知识图谱的算法
- 基于知识图谱的推荐算法分类
1.基于嵌入的方法
2.基于路径的方法
【基于嵌入的方法】
该应用知识图谱再推荐系统的实现主要依赖于:首先利用图嵌入技术表征实体与关系;其次扩展原有物品与用户的语义表示;其中一种是基于Trans系列的图谱嵌入方法;另一种是基于异质信息网络的图嵌入方法
基于Trans系列的图谱嵌入方法:包括TransE、TransH、TransR、TransD

trans-based E模型:详细介绍
基于异质信息网络的图嵌入方法
【基于路径的方法】
- 主要通过应用知识图谱中的路径分析方法来实现推荐系统的优化。
- 分析用户与物品之间的多维关联关系
- 识别用户的多条行为轨迹
- 从而通过分析这些路径信息来构建高效的推荐机制
- 总结而言,在推荐系统中整合异质信息网络中的传统元路径(Meta-path)概念可有效提升算法性能。
【异质信息网络】
定义1

定义2

传统的基于元路径的方法具有以下特点:
- 具有良好的推荐效果并具备良好的可解释性。
- 但构建推荐算法之前需从数据中提取并构建大量元路径或元图。
- 且当推荐场景或元图发生变化时,则需重新构建。
- 针对某些特定的推荐场景(如新闻推荐问题),每条新闻通常与元图中的多个实体相关联。
- 针对这类特定场景而言,在每条新闻与多个实体关联的情况下,
难以直接应用到基于源路径的相关方法上。
针对上述问题,某些方法不以构建元路径的方式进行操作,而是直接挖掘异质信息网络中用户与物品之间的语义关联关系 详见论文
(二)基于知识图谱的应用
包括传统推荐系统、序列化推荐系统、可解释推荐系统
【传统推荐系统】
- 传统推荐系统主要基于用户的交互行为数据和相关属性信息,在这种数据支持下为用户提供个性化商品推荐服务。
- 在构建知识图谱的过程中,可以通过将物品及其属性信息直接关联到图谱节点中实现有效的数据表示。
- 举例而言:
- 影视作品
- 出版物
- 资讯类内容
- 商业产品
- 地理实体
- 音乐作品
- 医药健康产品
【序列化推荐系统】
旨在识别用户的兴趣偏好趋势,并根据其历史交互数据分析当前的兴趣焦点
- 马尔可夫模型
- 循环神经网络模型(RNN)
【可解释推荐系统】
在向用户提供物品的同时呈现推荐依据,并进而增强系统可靠性
目前构建在知识图谱框架下的可解释推荐系统主要依赖于路径分析的方法论基础
