【推荐算法论文阅读】STAMP: Short-Term Attention/Memory Priority Model for Session-based Recommendation
这篇论文具有良好的可读性。该研究指出:现有方法未能充分考虑到用户的当前行为对后续行动的影响,在本研究中我们发现长期记忆模型在捕捉由于偶然点击导致用户的兴趣漂移,在长时间会话建模方面存在不足,并提出了一个创新性的短期注意力与长期记忆相结合的新模型作为解决方案
已有研究表明,在现有的SRS模型中基于RNN的方法主要倾向于将对话建模为一系列离散的行为项而非连续的兴趣变化轨迹
本文主要的贡献如下:
- 我们提出了一个短期注意力与记忆优先级结合的模型,在该模型中:(a) 我们构建了一个跨会话项目的统一嵌入空间;(b) 提出了一个用于基于会话的推荐系统中的下一步点击预测的新颖神经注意力机制。
- 在该模型中提出了一种新的关注机制用于实现STAMP模型,在这种情况下:首先生成了反映对话背景的关注权重;其次将输出的关注向量解读为用户时间和兴趣的综合表示;最后证明该方法对于捕捉用户随着时间推移而变化的兴趣特征更加敏感。相比之下,在传统的神经关注方法中这一特性并未得到充分展现。
一、The Short-Term Memory Priority Model

该模型采用两个嵌入表示(ms 和 mt)作为输入。其中 ms 代表用户在当前对话中的整体参与度,并具体定义为其外部存储器的均值。

符号 mt 代表用户在该会话中的当前兴趣,在此研究中, 最后点击 xt 被用来表示用户当前的兴趣: 通过使用等于号连接 mt 和 xt 来表达兴趣.
xt源自会话中的外部存储,并被归类为用户的短期记忆信息。随后利用两个MLP网络分别处理一般性和当前性注意力向量ms与mt来进行特征提取。如图所示的部分单元采用了相同的网络架构但每个单元都具有独立配置的学习参数
对于给定的候选项目xi ∈V,得分函数定义为:


我们定义向量\hat{z}为由各个z_i组成的三元线性乘积序列,在此过程中每个z_i代表了在会话背景St下用户兴趣加权后的特征与候选对象xi之间的非标准化余弦相似度。随后经过应用Softmax函数运算后得出结果变量\hat{y}:

损失函数定义为:

基于STMP模型的定义可知,该模型通过计算候选项目在内积与加权用户兴趣的基础上进行下次点击预测.具体而言,加权用户的兴趣被表征为长期记忆与短期记忆相结合的方式,其中长期记忆通过平均历史点击次数来表征,而短期记忆则由最后一次点击来表征.
然而在当前会话的外部存储器中将用户的兴趣建模为一般 ms 的情况下 STMP 模型则将会话前缀中的所有项目视为同等重要的地位 我们发现这在一定程度上难以捕捉用户的兴趣漂移(可能由偶然点击导致)特别是在持续时间较长的情况下显得不太理想 因此我们提出了一个注意力机制来解决这一问题 该机制已被证明能够有效地捕捉长序列中的注意力漂移
二、The STAMP Model

如图 2 所示,STAMP 模型的架构如下:该模型主要包括两个关键组件。与 STMP 模型相比,在 STAMP 中,默认情况下会根据用户的显式偏好信息生成推荐结果;而 STMP 则会通过隐式学习来优化推荐性能。具体而言,在 STMP 模型中,默认情况下会根据用户的显式偏好信息生成推荐结果;而 STAMP 则会通过隐式学习来优化推荐性能。在构建 STMP 模型时,默认情况下会根据用户的显式偏好信息生成推荐结果;而构建 STAMP 模型时,则会采用更加灵活的方式进行参数调整以适应不同场景的需求
所提出的注意力网络由两部分构成:第一部分是一个简单的前馈神经网络(FNN),被用来生成当前会话前缀 St 中每个项目的关注权重;第二部分是一个用于计算基于关注的用户兴趣函数 ma 的机制。在关注权重计算中使用的 FNN 被定义为:

在当前对话会话的前缀部分中定义的变量 i 用于表示项目 xi 的注意力权重。通过公式可以观察到,在计算过程中的每个步骤都是基于目标项目 xi 的嵌入向量、最近一次点击行为 xt 以及整个对话序列的上下文信息 ms 来生成其对应的权重值;这些计算结果表明该模型能够有效地捕获目标项目与用户兴趣之间的长期记忆关系以及短期记忆特征。值得注意的是,在上述等式推导过程中已经明确考虑了时间轴上不同阶段的记忆影响机制。
在获取关于当前会话前缀 St 的注意力系数向量 α = (α1, α2, …, αt ) 后,在关注用户的兴趣水平时通常能够衡量如下:

