DKTCDR:Domain-Oriented Knowledge Transfer for Cross-Domain Recommendation
Domain-Oriented Knowledge Transfer for Cross-Domain Recommendation
IEEE (CCF BSCI 1) - Guoshuai Zhao, Xiaolong Zhang, Hao Tang, Jialie Shen, and Xueming Qian - 2024
思路
在CDR中,搭建连接不同领域的桥梁被视为实现跨域推荐的关键环节。然而目前主流的CDR方法在连接不同领域时往往忽视了项目间的自然关联价值。
挑战1:如何有效实现跨域知识转移?研究发现
挑战2:现有数据集难以直接应用于DKTCDR模型
本文的主要贡献在于
DKTCDR模型

源域中的用户集合Us用于表示研究对象的核心组成部分;同时定义了项集合I用于表示各个领域中的核心概念;随后构建了知识图谱G覆盖了多个领域的核心术语体系;其中E被定义为知识图谱G中实体的低维向量表示;R则用于标识知识图谱G中存在的关系网络结构

项目嵌入生成模型:
在该模块中,我们设计了一个跨领域知识图(CKG)和一个语义嵌入模块(SEM)来融合知识图模态和语义模态的信息,最终生成项目嵌入。
1、跨域知识图谱CKG:我们将关系嵌入和实体嵌入纳入聚合过程,从而提高实体嵌入的质量。首先,我们使用特定的采样策略对节点的邻居进行采样;然后,对于采样的邻居,我们采用KGCN的思想进行节点聚合,它根据邻居的权重进行聚合。我们将节点i的(邻居,关系)集合表示为:

对于其中的邻居j,重要性得分的计算方式为:

所有的邻居重要性分数被归一化为权重稀疏W:

计算所有邻居节点的加权平均值,并将其与节点i自身的向量进行拼接。随后得到节点i的知识图谱表示。从形式上讲,在知识图谱嵌入方法中

"语义嵌入模块 SEM 对于项目的信息具有重要性,因为这些信息直接影响用户是否选择点击该项目." 我们基于英语维基百科数据集进行 Doc 2Vec 模型的预训练. 在提升 Doc 2Vec 模型训练效率时,我们选择了公开可用的英语维基语料库作为数据来源. 针对给定的一系列项目描述列表 D, 预训练后的 Doc 2Vec 模型用于生成每个项目的语义嵌入 Es. 其中,一个具体的处理流程如下: 将 D 中的所有描述输入 Doc 2vec 模型,获取其初步表示并将其压缩至 200 维度,从而得到对应的语义嵌入 esi.

然后将语义嵌入与知识图嵌入级联得到项i的嵌入:

跨域知识转移策略:CKTS
针对跨领域知识图谱,提出了一种跨领域知识转移策略(CKTS),使有价值的知识从源领域高效转移到目标领域,从而提高跨领域知识转移的有效性。具体来说,针对跨域推荐的冷启动问题,我们将模型训练过程分为两个阶段:1)源域的学习阶段,2)目标域的冷启动阶段。每个阶段都侧重于学习两种类型项的嵌入表示:用户的历史交互序列Seq和目标项。我们的CKTS设计为在两个阶段中的每一个阶段处理这两种类型的项目,根据相应的阶段,总共有四个项目类别。
将CKTS表示为:[Ds t,Ds Seq,Dt t,Dt Seq]。其中每个术语依次表示源域中目标项的知识转移策略、处于学习阶段时的历史交互序列、目标域中的目标项、处于冷启动阶段时的历史交互序列。我们使用格式[实体的第一跳目标邻居,实体的第二跳目标邻居]来表示每种类型的项目的知识转移策略。
一共有四种知识转移策略:
随机,随机
随机,随机
随机
源
目标

我们开发了一个新的Transformer编码器以捕获用户的综合偏好。随后我们开始采用单独连接的方式将Es Si中的每个项与ut i进行关联处理。接着我们将这些级联输入并将其传递至包含n个变换层及h个注意力头的改进型Transformer架构中最终生成Pt i用于表示用户在目标域中的综合偏好信息。

预测和损失函数:

实验
对于Amazon数据集 ,我们利用Freebase中的(entity1,relation,entity2)三元组来构建我们的知识图。数据有一个独一无二的身份码ASIN。
首先,没有开源数据集提供ASIN。对于Wiki数据中缺少Freebase ID的条目,我们使用Wiki ID作为公共标识符,以建立书籍或电影标题与其Freebase ID之间的联系。随后,标题用作公共标识符,以建立ASIN与亚马逊条目的Freebase ID之间的对应关系。
其次,为了构建跨领域知识图,我们下载最新的Freebase数据集,并过滤包含通过上述过程获得的Freebase ID的三元组。随后,我们消除了其中一个实体只有一个项目的关系和其中一个实体有一个关系但几乎所有的项目在一个域的三元组。这些排除被认为是必要的,因为它们不会显著促进跨领域的知识转移。因此,我们得到了一个跨领域的知识图,其重点是亚马逊图书和电影类别中的所有项目。
最后,因为2018版本的亚马逊数据并不包括2014的全部,所以合并了2014和2018版本的数据,评论包括评论者ID,ASIN,评论内容、评级和时间戳。
其中我们将项目的描述信息投入Doc2Vec模型来生成语义嵌入。
对于豆瓣数据集 ,我们基于物品的基本属性、类别、标签等信息构建跨领域知识图谱。豆瓣中的每一个条目都被分配了一个唯一的标识符,称为subjectID。
首先对缺失数据在网上进行抓取,补全。
其次,在构建跨领域知识图谱的过程中,我们遇到了豆瓣网站上的个人可能有多个名字的情况。为了解决处理多个名称或中英文混合的挑战,这使得无法将它们区分为同一实体,我们通过对文本进行相似度计算来启动初步的名称统一过程。在名称不能自动统一的情况下,我们手动标准化它们,以在图书和电影领域中实现一致的命名约定。
最后,我们处理现有数据集AO2EFM中项目的标签列表。可细分的标签使用Jieba子词数据库进一步分割。在整个数据集中只出现一次的标签将被删除,同义词或表示相同含义的不同单词将被手动组合。因此,我们的豆瓣映射由对应于上述属性信息的三元组组成。
综上所述,我们最终构建的亚马逊和豆瓣数据集由两部分组成:通用跨领域推荐数据和跨领域知识图谱。
1、数据集:

我们进行了对比实验,在单域和跨域推荐系统中对DKTCDR算法与九个基准模型的性能展开全面分析。在跨域推荐方面,具体采用的方法包括DARec、DASL、CATN、EMCDR、PTUPCDR、GA-DTCDR以及COAST等七种代表性算法;而在单域推荐任务中,则主要采用xDeepFM和DcN两种主流模型作为对照组。为了全面评估各模型的性能表现,我们选择了曲线下面积(AUC)、均方根误差(RMSE)、平均绝对误差(MAE)以及对数损失四项关键指标作为评估依据。

消融实验结果:

不同迁移策略下的结果:

选择不同邻居跳数的实验结果:

结论
1、本模型在实验性能方面实现了优异的表现,并且整体上优于其他主流的模型;
2、通过消融实验分析可以看出,在各个子模块层面的验证结果证实了跨域知识图谱模型CKG、语义嵌入模块SEM以及迁移策略CKTS均具有良好的有效性;
3、通过多轮测试发现,在四种不同的策略中采用随机选择的方式能够获得更为理想的效果;
4、邻居跳数的选择结果表明,在 hop2 的情况下表现最为突出;
5、该方法成功地降低了跨域推荐系统面临的数据稀疏性和 cold-start 问题的影响,并且显著地改善了用户体验。
