Advertisement

[论文笔记] SSE-PT: Sequential Recommendation Via Personalized Transformed

阅读量:

本文提出了一种基于Transformer的个性化序列推荐模型SSE-PT,旨在解决传统Transformer模型在处理用户时间序列数据时的不足。SSE-PT通过随机共享嵌入(SSE)正则化技术,提升了模型的可解释性和性能。该模型不仅考虑了用户的个性化偏好,还能够处理极长序列。与SASRec模型相比,SSE-PT++在性能和速度上表现更优。文章详细探讨了模型的架构设计、嵌入表示方法以及在长序列处理中的改进措施,为序列推荐任务提供了新的解决方案。

原标题
SSE-PT: Sequential Recommendation Via Personalized Transformer

SSE-PT/SSE-PT (github.com)

时间信息在推荐系统中具有重要意义,因为用户偏好本质上是动态变化的。在深度学习领域,除了广为应用于自然语言处理的 RNN 和 CNN 外,还发现了各种注意力机制和更新架构,能够充分挖掘用户参与的物品的时间顺序。特别值得一提的是,SASRec 模型借鉴了自然语言处理中Transformer的成功经验,展现了卓越的性能。然而,SASRec 本质上是一个非个性化的模型,没有提供个性化的用户嵌入。

为了解决这一限制问题,本文提出了一种新型的个性化变换器模型,即SSE-PT。这种模型不仅在可解释性方面表现突出,还能够精准捕捉用户最近的参与行为。此外,SSE-PT通过简单的调整,被命名为SSE-PT++,这种改进版模型能够有效处理超长序列数据,并在保持训练速度的同时,展现出超越SASRec模型的优势,尤其是在性能和速度要求方面实现了良好的平衡。

1. 论文模型

1.1 序列推荐

给定 n 个用户,每个用户按时间顺序与 m 个物品中的一个子集互动,顺序推荐的目标是,在任何给定时间点,为任何给定用户,学习在总共 m 个物品中前 K 个物品的良好的个性化排序。假设数据采用 n 个物品序列的格式:

长度为 T 的序列s_{i}由用户 i 按时间顺序排列(从旧到新)的最后 T 个物品索引组成。对于不同用户,序列长度可能不同,但可以通过填充较短序列使其长度达到 T。不能将数据点随机划分为训练/验证/测试集,因为它们按时间顺序排列。相反,必须确保训练数据在验证数据之前,也就是在测试数据之前。将序列中的最后一个位置上的物品作为测试集,倒数第二个位置上的物品作为验证集,其余位置上的物品作为训练集。采用 NDCG@K 和 Recall@K 等排名指标进行评估,这些指标在附录中定义。

1.2 个性化的 Transformer 架构

该模型被命名为 SSE-PT,它采用了名为随机共享嵌入的新正则化技术。在后续部分中,我们将对个性化转换器 (SSE-PT) 模型的各个关键组件进行考察,尤其是嵌入层,以及随机共享嵌入 (SSE) 正则化技术的最新应用。

嵌入层

在本研究中,我们提出了一种可学习的用户嵌入查找表U∈R{n×d_u}和物品嵌入查找表V∈R{m×d_i},其中d_u和d_i分别代表用户和物品的隐藏单元数量。同时提出了可学习的位置编码表P∈R{T×d},其中d=d_u+d_i。每个输入序列s_i∈R{T}则通过以下嵌入表示完成。

其中,[v_{j_{it}}, u_{i}]表示为将物品和用户进行嵌入连接,形成时间t下的嵌入向量E_{t}\in R^{d}

Transformer编码器

在嵌入层之上,其中包含B个自注意力层和全连接层,每个层均基于前一层的输出结果提取特征信息。这部分与原始论文中所采用的Transformer编码器架构完全一致。

预测层

在时间t,用户i参与物品l的预测概率为:

其中,σ代表sigmoid函数,r_{itl}定义为用户i在时间点t对物品l的预测得分为,其计算公式为。

其中F_{t-1}^{B}是在最后一个时间戳与变压器编码器关联的输出隐藏单元。

然而,尽管可以为u_{i}v_{l}采用其他组的用户和物品嵌入查找表,但为了获得更优的性能,我们更倾向于使用与嵌入层中相同的嵌入查找表U和V。值得注意的是,这些嵌入的正则化方式可能有所不同。为了区分(4)式中的u_{i}v_{l}与(2)式中的u_{i}v_{l},我们将(4)式中的嵌入分别称为输出嵌入,而将(2)式中的嵌入分别称为输入嵌入。

正样本预测概率之间的二元交叉熵损失,通过公式l=j_{i(t+1)}计算得到,同时与一个均匀采样的负样本k\in \Omega之间的关系,可以表示为-[\log(p_{itl})+\log(1-p_{itk})]。将 s_{i}t进行求和,即可得到需要最小化的目标函数:

在推理过程中,可以通过对所有物品 ℓ 的分数r_{itl}进行排序,并推荐排序列表中的前K个物品,以帮助用户i在时间t获得前K个推荐。

随机共享嵌入的新应用

SSE-PT 模型的核心正则化手段是随机共享嵌入(SSE)机制。该机制通过在 SGD 迭代过程中以一定概率将当前嵌入替换为其他嵌入,从而有效保持嵌入层的稳定性和泛化能力。缺少 SSE 机制,现有的正则化方法如层归一化、dropout 和权重衰减将无法正常工作,这将导致模型在引入用户嵌入后出现严重过拟合问题。

1.3 处理长序列:SSE-PT++

为应对极长序列,对SSE-PT模型的输入序列s_{i}的处理方式进行微调。将改进后的模型命名为SSE-PT++,以区别于原SSE-PT模型,后者仅能处理长度不超过T的序列。

全部评论 (0)

还没有任何评论哟~