Advertisement

论文阅读——A Pre-trained Sequential Recommendation Framework Popularity Dynamics for Zero-shot Transfer

阅读量:

Understanding and Reading: A Pre-trained Sequential Recommendation Framework—Popularity Dynamics on Zero-shot Transfer

’一个预训练的顺序推荐框架:零样本迁移的流行动态‘

摘要:

1 INTRODUCTION

问题探讨:

与现有预训练的语言和视觉模型相比,在数据集和应用程序中的通用表现具有显著差异。在跨域推荐问题中,在顺序推荐的数据集中不同类别的项目呈现不同特征(如杂货商品与电影)。因此,在各个领域内针对不同项目的特定表示进行学习将难以建立普适性的对应关系。目前已有研究通过引入辅助信息来提升同一类型应用中的序列化推荐效果。

本文: 解决了零样本、跨域顺序推荐的挑战,无需任何辅助信息。

new research in recommender systems has demonstrated that the items' popularity dynamics also play a significant role in predicting users' behavior patterns.

(项目的流行动态对于预测用户行为也至关重要)

基于这个想法,作者开发了PrepRec系统。在表示项目时,采用的是基于受欢迎程度的变化,并不使用固定的ID。

模型训练过程:基于物品流行度表示的时间间隔与位置编码。(存在相互作用的连续编码机制)

贡献:

Universal item representations: We are the first to learn universal item representations for sequential recommendation. In contrast, prior research learns item representations for each item ID or through item auxiliary information. We learn universal item representations by exploiting item popularity dynamics. We learn two temporal representations using a transformer architecture with optimizations at any time 𝑡 for each item’s popularity: at a coarse and fine-grained level. We represent items’ popularity dynamics (i.e., representing popularity changes) by concatenating representations over a fixed time interval. Item dynamics are inferrable from the user-item interaction data, and thus, the learned item representations are transferable across domains and applications. These item representations make possible pre-trained sequential recommender systems capable of cross-domain and cross-application transfer without any auxiliary information.

Zero-shot transfer without auxiliary information: We propose a new challenging setting for pre-trained sequential recommender systems: zero-shot transfer without any auxiliary information. In contrast, previous works in sequential recommender systems capable of cross-domain zero-shot rely heavily on applicationdependent auxiliary information [7, 12, 18]. To the best of our knowledge, we are the first to tackle this challenging setting in sequential recommendation.

区别于先前的工作(通过提取每个项目的ID以及附加信息来进行item建模),本文首次将通用项目表征应用于序列推荐领域。研究者则通过分析项目的流行度变化趋势来提取通用项目表征。

无依赖额外信息的零样本传输:与以往依赖大量辅助信息的跨领域序列推荐系统不同,在线研究首次提出了一种无需依赖任何辅助信息来进行零样本传输的方法。

综上所述,在序列推荐领域中的一项研究综上所述,在序列推荐领域中的一项研究综上所述,在序列推荐领域中的一项研究

推荐系统中的迁移学习:先前的研究主要集中在以下两个方面:
1)针对数据稀疏的领域提升推荐效果;
基于用户的重叠性实现知识转移;
2)针对 cold-start 问题进行研究,
并依赖辅助信息解决单一方向的问题(项目或用户)。
本文的研究重点是零样本迁移问题,
在这种情况下两个领域均缺乏辅助信息来源。

3 PROBLEM DEFINITION

M as the implicit feedback matrix

U as the set of users

V$as the set of items

F(v^t|S_u,M) as the scoring function

两个域:假设 U\cup U'=\emptyset and V\cup V'=\emptyset

4 PREPREC FRAMEWORK

4.1 Model Architecture

4.1.1 Universal Item Representation encoder

a^t_j = \sum_{t}^{m=1} {\gamma^{t-m}c_a(v^m_j)}, b^t_j =c_b(v^t_j)

\gamma 代表折扣因子,在该模型中被用来调节未来的奖励重要性程度。
对于状态v_j而言,在其较大的时间粒度mtimesteps内产生的交互次数被定义为c_a(v^m_j)
而当我们将时间划分为较小的时间粒度timesteps时,则使用c_b(v^t_j)来表示该时间段内的交互频率。 在计算过程中的每个时间步t, 我们将当前状态j'的状态编码器输出\varepsilon(P^t_j, H^t_j)视为状态间映射关系。 其中, \lVert 这一符号被用来表示连接操作, 权重矩阵
W_p
属于实数空间中的d×k(m+m)维矩阵, 它是一个可学习的参数块, 用于将流行度编码器
P_tj

H_tj
结合起来生成表征向量
e_tj
$

4.1.2 Relative Time Interval Encoding

时间间隔编码:正弦编码。参考论文如下:

The authors of the paper titled "Attention mechanisms are central to the success of recent advancements in neural network architectures" presented their findings at the Advances in neural information processing systems conference in 2017.

4.1.3 Positional Encoding

位置编码和时间间隔编码类似,参考同一篇论文。

4.1.4 Popularity Dynamics-Aware Transformer Layer

整合前三节中的模型模块用于分析项目的流行度随时间的变化情况。
E_u = \begin{bmatrix} e^t_{u,1}+T_{r_u,1}+P_1 \\ e^{t'}_{u,2}+T_{r_u,2}+P_2 \\ ...\\ e^{t^*}_{u,L}+T_{r_u,L}+P_L \end{bmatrix}
Multi-Head Self-Attention等技术手段详细阐述了实现方案的具体细节;深入研究论文中的相关内容将有助于进一步优化模型性能。

4.1.5 Prediction

经过上面四节计算后,用户u的嵌入表示为q_u,如下图。

预测分数为q_ue^{t^+}_j的内积。

在这里插入图片描述

4.2 Training Procedure

选择二元交叉熵损失函数作为模型的目标函数。参考文献[21]中采用了类似的策略。采用Adam优化器进行端到端模型的训练。

[21] By Wang-Cheng Kang and Julian McAuley in the year 2018, they introduced a self-attention-based sequential recommendation model at the 2018 IEEE International Conference on Data Mining (ICDM). The proceedings were published by IEEE, spanning pages 197–206.

4.3 Zero-shot Inference

假设有如下:基于 M 训练的预训练模型 F 存在于该系统中。随后通过分析其在不同时间段内的行为特征变化情况来评估其适应性表现;接着将该预训练模型被应用于数据集 M’ 并评估其预测性能

5 EXPERIMENTS

实验设置(略)

数据集:Amazon(Office、tool)、Douban(Movie、Music)、Epinoins

在这里插入图片描述

实验结果:

在这里插入图片描述
在这里插入图片描述
(RQ1) PrepRec 在常规的域内顺序推荐设置下表现如何?

本文的目标并非旨在超越当前最先进的一种顺序推荐技术。相反我们将其呈现的原因是为了探究流行度动态如何被顺序推荐机制所捕捉并解析出用户的偏好模式并详细阐述当前最先进的人工智能模型。然而在我们的系统PrepRec中依然采用了最先进的人工智能技术实现了一种具有竞争力的表现其在R@10指标上的误差控制在5%以内值得注意的是在Epinions平台上我们的系统PrepRec的表现优于所有现有的顺序推荐算法并取得了7.3%的优势

我们提出了一种简单的事后插值方法来探究流行度动态建模能否显著提升最新的顺序推荐算法性能。通过融合PrepRec与BERT4Rec的评估分数进行计算实验,在多个基准数据集上测试验证了该方法的有效性,并获得了令人满意的实验结果。

(RQ2)PrepRec(流行度动态)能否推广到零样本跨域和跨应用程序传输?

如表4所示推断其与目标数据集在密度水平上具有相似性从而通常表现出优异的泛化能力这一现象进一步表明我们的模型成功地捕捉到了数据空间中的关键特征

研究表明我们的模型在跨领域和应用程序传输方面的优势,在目标数据集上表现不逊色于SOTA模型,并且不需要依赖交互数据或辅助信息进行任何训练

(RQ3)具体来说, 影响 PrepRec 性能的因素都有哪些?此外, 在构建流行动态时采取了哪些不同选择?

\gamma=0.5\$时表现最佳;将t-n$定义为n\$个精确的时间段之和。实验证明,在所有数据集中,当时间跨度扩大到t-6$和$t-12$时(即跨度分别为6小时与12小时),模型性能出现了显著下降;因此,在柳州近期趋势的研究中

(RQ4) PrepRec 可用的训练数据量有何影响?如果将预训练模型应用于数据有限的新领域,这一点可能至关重要。

基于项目的顺序推荐器对于数据稀疏性表现出很强的敏感性。在训练数据量较小时的场景下其性能表现会出现显著的下降。由于顺序推荐器专注于根据项目的唯一标识符提取项目特征 并且这些特征的质量高度依赖于用户的互动数量。相比之下 预测优先级排序算法(PrepRec)在流行度动态影响下提取项目的表征 这一方法使得PrepRec在面对数据稀疏性问题时展现出更为显著的优势 对实际应用场景中的推荐系统设计具有重要意义 作者希望将这一模型成功地转移至面临数据不足挑战的新领域 并通过有限的数据集实现有效的学习 并在此过程中超越传统的基于项目的顺序推荐方法。

在这里插入图片描述

Discussion

作者认为 PrepRec 在以下场景中特别有用:

当域中的数据稀疏时的初始序列模型

开发更复杂的顺序推荐器(即预测插值)的骨干

在线推荐设置。

PrepRec 未显式建模项目 ID 能够轻松推广至新项目或用户 仅需更新流行度数据无需重新训练模型 该研究团队将其作为未来研究方向提及


单词表达:state-of-the-art 最先进的

全部评论 (0)

还没有任何评论哟~