Memory Augmented Graph Neural Networks for Sequential Recommendation翻译
没有花太多功夫 只是翻译了一下 配合英文论文食用
摘要
GNN、记忆网络与双线性函数 作为关键技术工具,在众多推荐系统中发挥着重要作用。
在众多推荐系统中,用户-物品 交互的时间顺序能够有效反映用户的动态行为特征及偏好演化规律。
用户的兴趣可能受到过去交互项的影响,在这一过程中表现出较强的关联性特征。然而,在数据规模持续增长的情况下,传统的序列推荐算法仍面临着诸多挑战:
(1) 短期用户兴趣建模难度; (2) 长期用户兴趣获取难度; (3) 项目共现模式的有效建模问题。
针对上述问题痛点,在深入分析现有技术局限的基础上提出了一种基于内存增强图神经网络(MA-GNN)的新方法框架。该框架通过巧妙地结合图神经网络与共享记忆网络两种模型结构特点,在全局视角下实现了对长短期用户兴趣信息的有效融合与提取:具体而言,在建模阶段采用了图神经网络来刻画短期内项目的上下文关系特性,并通过共享记忆网络来捕捉项目间的长期相关性分布特征;在此基础上还结合双线性函数这一数学工具来有效建模相关项间的共现模式关系特征。
我们在五个真实世界的数据集上进行了全面评估,并与现有的领先方法进行了对比研究;通过采用多种评价标准来验证该模型在Top-K序列推荐方面的有效性。
随着互联网服务及移动设备的快速发展。**个性化推荐系统在现代社会中的作用日益显著。**有效缓解信息过载问题并满足多样化服务需求。这种制度至少给双方带来了重大利益。一方面(i)它能够帮助用户便捷地从数百万候选产品中筛选出感兴趣的产品;另一方面(ii)它也为产品供应商提供了提升收入的重要途径。在线平台上的用户体验呈现出明确的时间顺序特征:一个用户未来可能进行交互的行为很可能与其之前浏览过的相关内容存在密切关联性。这一特性有助于实现基于序列的个性化推荐策略。在实际应用中,在线推荐任务除了传统的兴趣驱动型推荐外我们还认为我们需要考虑以下三点关键因素:首先……其次……最后……
用户短期兴趣、用户长期兴趣和项目共现模式。
1、用户短期兴趣描述在短期内给定几个最近访问的项的用户首选项。
2、用户的长期兴趣捕获了先前访问的项和用户将来将访问的项之间的长期依赖关系。
3、项目共现模式说明了共同出现的相关项目,如手机和屏幕保护器。
虽然许多现有的方法已经提出了有效的模型,但我们认为它们并没有完全抓住上述因素。第一。方法如Caser(唐和Wang(2018),MARank(Yu等,2019)和Fossil(He等)McAuley 2016a)只对短期用户兴趣建模 ,忽略了项目序列中项目的长期依赖关系。捕获长期依赖的重要性已经被证实(Belletti, Chen,和Chi 2019)第二,像SARSRec (Kang和McAuley 2018)这样的方法并没有明确地为用户短期兴趣建模。忽略用户的短期兴趣,使得推荐系统无法在短期内理解用户的时变意图。第三,方法像GC-SAN(徐和GRU4Rec+ (Hidasi和Karatzoglou 2018)不要显式捕获项序列中的项共生模式。密切相关的项目对经常出现一个接一个,推荐系统应该考虑到这一点。
为了综合上述因素 ,我们提出一种记忆增强图神经网络(MA-GNN)来处理顺序推荐任务。它包括一般兴趣模块、短期兴趣模块、长期兴趣模块。和一个同现module。
在一般兴趣模块中 ,我们采用矩阵因子分解:不考虑项目顺序动态而对一般用户兴趣进行建模的术语。
在短期兴趣模块中 ,我们使用一个GNN来聚合项目的邻居,以形成短期内的用户意图。这些可以在短期内捕获本地上下文信息和结构(Battaglia et al. 2018)。
为了对用户的长期兴趣进行建模 ,我们使用一个共享的键值存储网络来生成基于用户的长期项目序列的兴趣表示。在做的事情。这样,当推荐商品时,其他有类似偏好的用户也会被考虑在内。
综合考虑短期与长期兴趣,在GNN框架中新增了一种约束机制
综上所述
**本文的核心贡献在于:**为了解决用户行为建模的问题,我们提出了一种记忆增强图神经网络模型,旨在有效捕捉项目间的短期相关性和长期关联性.在这一框架下,我们设计了一个动态平衡两种表征形式的机制,能够根据数据特征自动调节两者在融合过程中的权重.此外,通过引入双线性函数,我们可以更精确地刻画项之间的复杂关联关系.实验结果表明,所提出的MA-GNN模型在多个真实场景数据集上的性能表现明显优于现有的序列化推荐方法.
相关工作
一般建议早期的推荐研究:
主要集中于明确的反馈(Koren 2008)。最近的研究重点是****向隐数据转移(Tran等,2019;协同过滤(CF)与隐式反馈通常被视为Top-K项推荐任务 。将向用户推荐用户可能感兴趣的项目列表。它更实用,更具挑战性(Pan et al. 2008),更符合真实的推荐场景。
早期的工作大多依赖于矩阵分解技术(Hu, Koren, and Volinsky 2008 Rendle et al. 2009)来了解用户和tems的潜在特征。由于他们的能力,学习突出的代表性。
(dee p)基于神经网络的方法(He et al. 2017)也被采用。
基于自编码的方法也被提出用于Top-K recommendation深度学习利用ing技术对传统的矩阵分解和机器分解方法进行了改进。
序列推荐:
序列推荐任务以时间项序列作为输入。马尔可夫链(Cheng et al.),是数据建模的经典选择。之前对个性化的马尔科夫链进行因式分解,将基于相似性的模型与高阶马尔科夫链相结合。
XXX提出了一种基于翻译的顺序推荐方法。最近,受序列学习在自然语言处理中的优势启发,研究人员提出了基于(深度)神经网络的方法来学习序列动力学。例如Caser (Tang and Wang, 2018)运用卷积神经网络(convolutional neural network, CNN)处理item的嵌入序列。基于递归神经网络(RNN)的方法,特别是基于门控递归单元(GRU)的方法dasi和Karatzoglou已用于为基于会话的推荐任务的顺序模式建模。
Self-attention (Vaswan et al. 2017)在顺序学习中表现出了很好的性能,并开始在顺序推荐中使用。SASRec (Kang和McAuley, 2018年)利用自我关注,自适应地考虑项目之间的相互作用。记忆网络(Chen et al. 2018 Huang et al. 2018)也被用来记忆那些将在预测未来用户行为中发挥作用的项目。
然而,我们提出的模型不同于以往的模型。我们利用带有外部记忆的图神经网络来捕捉短期项目上下文信息和长期项目依赖关系。此外。我们还引入了项共现模块来对密切相关的项之间的关系进行建模。
问题公式化
本文所考虑的推荐任务以序列隐式反馈作为训练数据。用户偏好由一个用户-项序列表示,按照时间顺序,Su= (I1,I2, …, I|su|),其中I*是用户u与之交互的项索引。鉴于之前的M个用户的序列S(t <|S"),问题是从N个项目(K<N)中向每个用户推荐一个包含K个项目的列表,并评估下一个序列中的项目是否出现在推荐列表中。
方法论
在本节中,我们将介绍所提出的模型MA-GNN。该方法将记忆增广图神经网络应用于顺序推荐任务。我们介绍了四个影响用户偏好和意图学习的因素。然后介绍了该模型的预测和训练过程。

传统的兴趣建模方法旨在捕捉用户的基本偏好,并假设这些兴趣特征相对稳定。该方法通过矩阵分解技术实现这一目标,并假设各项目之间没有动态关联性。其形式通常表示为向量内积p·q_i,其中p代表用户u的嵌入表示,q_i属于R^d为空间维数对应的项目i的输出嵌入表示。
短期兴趣建模
用户的短期兴趣描述用户当前的偏好,并基于短期内最近访问的几个项。用户在不久的将来与之交互的物品很可能与她刚刚访问的物品密切相关,这一用户行为属性在之前的许多著作(Tang and Wang 2018)中得到了证实
因此,在顺序推荐中,有效地为用户的短期兴趣建模是非常重要的,最近访问的条目反映了这一点。
为了明确地对用户短期兴趣进行建模,我们采用滑动窗口策略将项目序列拆分为细粒度子序列。然后,我们可以将注意力集中在最近的子序列上,以预测下一个出现的项,而忽略影响较小的不相关项。
对于每个用户u,我们提取每个连续的|L|项作为输入,它们的下一个|T|项作为要预测的目标,其中 为用户u的第L个子序列。
则问题可表示为:在用户项交互序列Su中,给定一个|L|个连续项的序列,预测的项与该用户的目标|T|项符合的可能性有多大。
由于GNN具有进行邻域信息聚合和局部结构学习的能力,因此它非常适合于对Lu,l,中的项目进行聚合,以学习用户的短期兴趣
项目图施工。
由于项目序列不是用于GNN训练的固有图形,因此我们需要构建一个图形来捕获项目之间的连接。对于项目序列中的每个项目,我们提取几个后续项目(在我们的实验中有三个项目),并在它们之间添加边。我们为每个用户执行此操作,并计算所有用户中提取的项对的边数。然后我们对邻接矩阵行规范化。这样,序列中出现的相关项就可以被提取出来。一个例子:我们将提取的邻接矩阵表示为A,其中A表示第k项相对于第i项的归一化节点权重,第i项的邻接项记为Ni。
短期兴趣聚合
以获取用户的短期兴趣为目标,在推荐系统中构建了一个双层图神经网络模型来整合L中的相关特征。具体而言,在第j个窗口Lu,l中提取第l项的输入嵌入向量被定义为ej。
用户短期兴趣表示为:


表示垂直级联,w(1)、w(2)表示图神经网络中的可学习参数,上标S表示表示来自用户短期兴趣。通过聚合Lu,l中的项目邻居。Pu.lS,代表一个工会级别的总结(Tang和Wang 2018;表示哪些项目与Lu,l.中的项目密切相关。根据汇总的用户短期兴趣,可以推断出用户接下来要访问的项。
然而,直接应用上述GNN进行预测,显然忽略了过去Hu的长期用户兴趣,l= (I1, I2,…,Il−1)。在短期窗口Lu,l之外可能有一些项目可以表达用户偏好或指示用户状态。这些项可以在预测在不久的将来将要访问的项方面发挥重要的作用。这种长期依赖在之前的许多著作中得到了证实(Liu et al. 2018;Xu等人2019年;Belletti, Chen和Chi 2019)。因此,如何建立长期依赖的模型,并使其与短期环境相平衡,是顺序推荐中的一个关键问题。
Long-term Interest Modeling长期兴趣建模

其中Position Encoding(•)是将项目位置映射到位置嵌入的正弦位置编码函数,并与Transformer中使用的相同类型的函数一致。φ= |H_{u,l}| ,其中⊗表示外积操作。W^{(1)}a, W^{(2)}a, W^{(3)}a是注意机制中的可学习参数集合;h是调节注意机制维度大小的关键超参数。S{u,l} ∈ ℝ^{h×|H{u,l}|} 代表查询相关的分数矩阵;Z{u,l}则表示查询对应的矩阵表达形式;H矩阵每一行代表查询的不同维度特征;最后通过求取不同维度特征值的平均组合生成多维查询嵌入表达式。

其中ki,vi∈Rdare为第i个内存单元,上标H表示表示来自用户长期兴趣。
兴趣融合
本文提取了用户的短期与长期兴趣特征,并基于此设计了一种新的特征融合方法。为了实现对用户未评分项目的偏好预测目标,在现有研究基础上,我们对Eq. 2进行了优化调整。
在现有研究基础上, 我们借鉴LSTM模型的设计思路, 其核心在于通过门控机制平衡当前输入与历史信息, 并在此基础上提出了一种新的动态权重分配策略, 最终用于项目预测:

其中,W(1) g,W(2) g,W(3) g∈Rd×dare为gating层中的可学习参数,○.表示元素对应位置的乘法,并且gu,l可学习gate。上标C表示长期兴趣与短期兴趣的融合。
项目同现的建模
成功地学习成对的项目关系是推荐系统的一个关键组成部分,因为它的有效性和可解释性。许多推荐模型在顺序推荐问题中,密切相关的项目可能会在项目序列中依次出现。例如,购买手机后,用户更有可能购买手机外壳或保护套!
为了捕获物品的共现模式,我们使用双线性函数来显式地建模items、Lul、other items之间的物品之间的两两关系。该函数采用这种形式

其中W_r是一个可学习参数的矩阵,在一定程度上反映了项的潜在特征之间的关联性。
为了推断用户的偏好,我们有一个预测层,将上述因素结合在一起:

基于用户的隐式反馈行为数据

J为Target items中的阳性样本,k为负样本中随机选取的一个样本实例,theta代表模型中可调节的参数,lambda为模型正则化相关的超参数.P*,q*,e*各自对应矩阵PQE的不同列向量.为了使目标函数达到最小值,在优化过程中采用梯度下降算法配合反向传播机制来计算各参数的梯度变化.
方法研究
为了验证我们模型的有效性, 我们对比分析了多种推荐方案:(1) BPRMF 方法采用贝叶斯个性化排序矩阵分解技术, 是一种经典的成对排名学习算法;(2) GRU4Rec 模型基于递归神经网络建模项目序列, 实现基于会话的个性化推荐;(3) GRU4Rec+ 作为GRU4Rec 的优化版本, 结合先进的损失函数与高效的采样策略提升了推荐性能;(4) GC-SAN 方法通过图神经网络与自注意力机制实现会话级推荐;(5) Caser 基于卷积序列嵌入技术捕捉高阶马尔科夫链特征;(6) SASRec 采用自注意力机理进行顺序化预测, 能有效识别相关待推物品;(7) MARank 模型将个体层与群体层交互统一, 从多维度推导用户偏好关系;(8) MA-GNN 模型则结合记忆增强型图神经网络, 同时考虑近期与历史兴趣偏好以双线性函数捕获项目间的关联性。
在实验中,所有模型的潜维度均设定为50个维度。对于基于会话的方法而言,在处理短期窗口内的项目时将其视为一个会话是合理的做法。我们观察到,在使用GRU4Rec及其改进版本GRU4Rec+时,在学习率设定为0.001的情况下(批处理大小均为50),系统性能表现优异。这两种方法分别采用了Top1损失函数与BPR-max损失函数作为评价指标。对于GC-SAN模型,在其权重因数方面采用了半衰期权重乘以自注意力机制的方式(即0.5ω)并将自注意力机制划分为四块进行计算。在Caser模型中,默认参数设置为序列长度|L|=5、|T|=3,并分别配置了水平过滤器数量为16个以及垂直过滤器数量为4个。对于SASRec模型而言,在自注意力机制模块的数量设定上采用了双层设计(即2个自注意力块),同时将批量大小设定为128并限制了最大序列长度值(即50)。在MARank模型中,则采用了与原文相同的子条目数目(即6个)以及隐藏层层数量(即4层)的配置方案。需要注意的是,在网络架构的设计上所述方法与原文描述完全一致。为了确保系统的泛化能力,在超参数优化过程中采用验证集数据进行调优工作是必要的步骤之一。对于MA-GNN模型而言,则采用了与Caser模型相同的默认参数设置(即|L|=5, |T|=3)。同样地,在超参数优化过程中也采用网格搜索的方式来进行参数寻优工作,并对嵌入空间维度d进行了固定设置(即d=50)。最后发现h值与m值从{5,10,15,20}范围内选择是最优解的同时也确定了学习速率与正则化强度λ均采用相同的学习率值(即0.001)以及相同的λ值(即0.001)进行调节。”
性能比较
性能比较结果如表2所示。对我们模型的观察。首先,本文提出的模型MA-GNN在所有5个数据集上都取得了最优的性能,说明了本文模型的优越性。其次,MA-GNN的性能优于SASRec。虽然SASRec采用注意模型来区分用户访问过的条目,但它忽略了两个密切相关条目之间的共同条目共现模式,这是我们的双线性函数所捕捉到的。第三,MA-GNN的性能优于Caser、GC-SAN和MARank。一个主要原因是这三种方法只在短期窗口或会话中对用户兴趣进行建模,而不能捕获长期项依赖关系。相反,我们有一个存储网络来产生长期的用户兴趣。第四,MA-GNN获得结果优于GRU4Rec和GRU4Rec+。一个可能的原因是GRU4Rec和GRU4Rec+是基于会话的方法,它们没有明确地为用户的一般兴趣建模。第五,MA-GNN优于BPRMF。BPRMF只捕获用户的一般兴趣,而不包含用户-项交互的顺序模式。因此,BPRMF无法抓住用户的短期利益。其他观察结果。首先,所有关于movielens的结果报告- 20m, goodreadschildren和GoodReadsComics比其他数据集的结果更好。主要原因是其他数据集比较稀疏,数据稀疏性对推荐性能有负面影响。其次,MARank、SASRec和GC-SAN在大多数数据集上的表现都优于Caser。其主要原因是这些方法能够自适应地度量项目序列中不同项目的重要性,这可能导致更加个性化的用户表示学习。第三,在大多数情况下,Caser比GRU4Rec和GRU4Rec+获得更好的性能。一个可能的原因是,Caser显式地将用户嵌入输入到其预测层中,这允许它了解一般的用户兴趣。第四,GRU4Rec+在所有数据集上的性能都优于GRU4Rec。原因是GRU4Rec+不仅捕获用户-项目序列中的顺序模式,而且还具有一个更好的目标函数- bpr -max。第五,所有方法都优于BPR。这说明,只能对一般用户兴趣进行有效建模的技术无法充分捕捉用户的顺序行为。
总结
在本文中,我们提出一个记忆扩充图神经网络(MA-GNN)序贯推荐。MAGNN将一个GNN应用于模型项的短期上下文信息,并利用一个内存网络来捕获长期项依赖关系。在用户兴趣建模的基础上,利用双线性函数对项目之间的特征关联进行建模。在5个真实数据集上的实验结果清楚地验证了我们的模型相对于许多最先进的方法的性能优势,并证明了所提出的模块的有效性。
实验结果图:




