【文献阅读】 2018-SIGKDD-STAMP:Short-Term Attention/Memory Priority Model for Session-based Recommendation
说明
- 原文链接。
- Session-based recommendation可被直接理解为会话导向的推荐系统,在实际应用中也常被视为短序列导向的推荐方案的一种延伸形式。
- 在内存管理方面,external memory通常被称为外存(External Memory),而short-term memory一般被定义为短期内存(Short-Term Memory)。在模型设计中,默认情况下假设所有外部输入都会被加载到当前设备上进行处理。
标题
- 题目:STMAP:基于会话推荐的短期注意/记忆优先模型
- 作者:
Qiao Liu University is located in Chengdu City, China.
Yifu Zeng is a student at the University of Electronic Science and Technology in Chengdu. He is from China.
Refuoe Mokhosi Institution of Electronics and Telecommunications, China, located in Chengdu.
张海宾西南大学成都校区
摘要
基于匿名会话的用户行为预测是Web行为建模研究中的一个难题,其主要原因在于用户的不确定性和信息的局限性.最近提出的递归神经网络技术为解决这一难题提供了很有前景的应用,尤其是长短期记忆模型已被证明能够有效地从历史点击记录中提取用户的广泛兴趣.然而,现有的方法仍未能充分考虑当前操作对后续操作的影响.本研究认为,现有的长期记忆模型可能在建模长会话时存在不足,因为长会话往往伴随用户兴趣漂移导致偶然点击.为此,我们提出了一种新型的记忆优先注意力机制模型.该模型不仅能够从对话背景中的长期记忆中提取用户的广泛兴趣,还能够结合用户在最后一次点击后的短期记忆来捕捉当前兴趣特征.通过基于2015 RecSys Challenge赛、2016 CIKM Cup等三项基准数据集的实验评估,我们验证了该注意力机制的有效性和实用性.实验结果表明,该模型在所有测试任务中均达到了最佳性能
1. 介绍
作为现代商业网络系统的核心组件之一,在提升用户体验方面发挥着重要作用;建议通过分析用户的浏览器行为编码来优化推荐策略;具体而言,则旨在预测用户下一操作(如点击某个条目)基于当前对话中的动作序列[5,21]。近年来的研究表明,在多种推荐系统中采用递归神经网络(RNNs)的重要性日益凸显;其中尤其值得注意的是,在对话场景下的推荐任务中,RNNs的表现已取得了显著进步[6,17]。然而,RNN模型虽然已被证明能够从一系列的动作中提取出一般性的用户偏好[20],但在学习如何从对话中进行精准预测方面仍面临诸多挑战;这一挑战主要源于用户的固有不确定性以及可获得的信息量相对有限的情况下的限制因素。
根据现有文献研究显示,在大多数基于RNN的时间序列关系系统(SRS)模型中,默认假设对话仅表现为单一项目的序列化建模方式[6]。然而,在实践中发现这种假设可能存在问题:随着时间的推移而发生的变化未能得到充分考虑;例如,在会话中记录了一个具体的数码相机链接后(1)若当前操作是在购买决策前浏览产品描述,则下一步很可能访问另一个数码相机品牌目录;(2)若当前操作是将摄像头添加至购物车,则用户的兴趣可能转移至其他周边设备如存储卡等;在这种情况下向该用户提供另一款数码相机作为推荐并非最佳选择;尽管初始意图是购买一台数码相机(如前所述的操作所反映)。
在典型的SRS任务中,对话通常由一系列命名项构成。用户的兴趣往往被这些隐式的反馈(如点击)所隐藏。为了进一步提升RNN模型的预测精度,在设计模型时需要特别关注其对长期兴趣和短期兴趣的学习能力。正如Jannach等人[7]所指出的,在推荐系统中区分并利用这两种兴趣是非常重要的。然而,在传统的RNN架构设计中,并未针对这种区分和利用进行专门优化。
本研究探讨在SRS模型中引入一种新的动作优先机制——即短期注意/记忆优先(STAMP)模型——用于解决这一问题。该模型旨在兼顾用户整体兴趣与即时兴趣。其中,用户的整体兴趣被外部记忆所捕获——这一外部记忆由会话前缀的所有历史点击(含最后一次点击)构建而成。“记忆”一词即体现了这一本质。而“最后点击”一词指的是会话前缀中的最后一个操作项。“注意力机制”则是指基于最后点击的行为。“最后点击”作为外部记忆的一部分可被视为用户兴趣的短期存储。“基于最后点击的行为”的注意力则可视为短期关注点。据我们所知,在构建基于会话的推荐系统中的神经注意模型时首次尝试整合长期与短期记忆是我们的创新点之一。本研究的主要贡献如下:
- 我们提出了一种基于短期注意力与记忆优先机制的新模型,在该模型中:(a)构建了一个跨会话项的一致性嵌入空间;(b)引入了一个新的神经注意力机制用于推荐系统的下一次点击预测。
- 为了实现STAMP模型的目标,我们开发了一种新型注意力机制。该机制通过计算会话上下文来确定关注权重,并根据用户的当前兴趣进行增强。所得到的关注向量可被解释为反映用户时间维度的兴趣组合表示,并且在捕捉兴趣随时间变化方面表现出更强的能力。
- 本研究针对两个实际应用数据集进行了评估实验:一个是2015年RecSys竞赛中的Yoochoose数据集;另一个是2016年CIKM杯中的Diginetica数据集。实验结果表明,在提升推荐性能方面所提出的关注机制优于现有方法。
2. 相关工作
对话式推荐被视为推荐系统中的一个重要分支。它主要通过分析用户的会话记录来进行个性化推荐。这项任务具有显著的技术难度因为它要求我们仅凭观察用户的某些行为(如点击或购买)来间接了解其偏好而无法直接获取用户的偏好信息(如评分)。由于通常假设用户的偏好信息(如评分)并未直接获取相反我们在实际应用中只能通过观察用户的某些行为(如点击或购买)来间接了解其偏好近年来的研究逐渐聚焦于解决这一领域中的关键难题基于不同的模型假设基础现有的解决方案大致可分为两大类:全局注意力机制主要用于捕捉用户的整体兴趣点而局部注意力机制则更关注于用户的即时兴趣动态
一种利用用户的完整购买行为和点击记录来进行一般兴趣获取的方法是协同过滤(CF)技术。例如,在文献[8]中所介绍的方法——矩阵分解(MF)——通过分析由全部交易数据构成的用户-项目矩阵来推导潜在向量表达的一般兴趣。另外一种常用的方法是邻域方法[14],这种方法主要根据会话中项目的共同出现情况进行项目相似性计算以提供推荐服务。第三种基于马尔可夫链(MC)的方法[3,15]则利用用户的动作序列关系来进行预测
该模型研究了用户的一般兴趣或当前兴趣的影响因素。然而,在基于当前兴趣的推荐系统中鲜有考虑非连续会话中交互项的位置关系这一因素的存在[19];尽管基于总体兴趣的推荐系统能够有效捕捉用户的偏好特征,但在动态调整近期未被显式建模的商品推荐方面仍显不足,难以准确预测用户的下一次点击行为[19]。理想的状态下,一个优秀的推荐系统应当能够同时挖掘用户的顺序行为特征与一般性偏好特征的影响,因为这种双重特征可能会相互作用从而影响用户的点击决策过程;为此,一些研究者致力于通过综合考虑这两种不同的偏好特征来改进SRS模型的表现[13]。Rendle等人提出了一种融合矩阵分解与马尔可夫链的混合模型FPMC[FMP],旨在同时建模序列行为与总体偏好特征,以提升针对下一篮订单的推荐效果;而Wang等人则提出了另一种混合表示学习模型,该模型采用双层层次结构来整合用户的序列行为特征与基于其最后交易记录的一般性偏好信息;然而,现有的这类方法均局限于对局部位置关系进行建模,无法充分捕捉会话全局信息所蕴含的重要信息。
最近的研究表明,在序列数据建模方面深度神经网络表现出色。受自然语言处理领域[16]最新进展启发的一些基于深度学习的技术被开发出来其中一些代表了SRS研究领域的最新水平[2 5 6 10]。Hidasi等人开发了一种带有门控递归单元的深度递归神经网络用于会话数据建模该模型能够直接从当前会话中的上一次点击学习用户的会话表示并为其后续操作提供建议这是首次探索将RNN应用于SRS问题由于其顺序建模能力这一模型能够有效捕捉用户的丰富历史行为从而预测其下一步行动Tan等人提出了一种数据扩充技术以提升基于会话推荐系统的性能Yu等人则提出了一个动态递归模型该模型利用RNN技术学习用户在不同时间段内对各个商品篮子的一般兴趣动态表示并成功捕获了商品篮子之间的全局行为顺序
在SRS框架内构建的大部分神经网络模型通过统一的操作流程实现了对各个上下文点击项的一致处理,在这种机制下模型得以通过隐式的关联机制捕捉下一次点击与上一次点击之间的相关性。这种设计使得最后一个时间步中提取的隐藏状态编码了整个序列的信息,并特别关注于紧邻下一个点击位置的部分区域信息[1]。然而,在这种设计思路下可能会导致远处物品的一般兴趣特征被忽略掉的现象存在。针对这一局限性研究者们提出了多种方法来量化项目间的关联性及更精确地刻画一般兴趣特征
差异:我们的模型与SWIWO和NARM之间存在显著的差异。SWIWO采用了一种固定的机制来确定会议期间每个项目的权重,在实践中我们发现这一做法存在争议性的问题。而在STAMP中,则通过显式地考虑每个历史点击与其最后一次点击之间的相关性,并动态计算给定会话中的权重系数来实现这一关注点的关注机制;这种设计有助于缓解上述矛盾问题。此外,在NARM模型中结合的主要目的是为了将主要目的及顺序行为结合起来作为会话表示的基础;而STAMP则特别强调了最后一个点击所反映出来的当前兴趣特征,并成功地将这种特点引入推荐系统中;相比之下,在NARM模型中则未能充分捕捉到这种特点;因此,在STAMP模型中可以通过这种方式更好地增强用户的短期兴趣状态;以便于在用户兴趣漂移的情况下准确捕捉到用户的当前兴趣状态
3. 方法
3.1 形式化描述
以历史会话为依据的传统基于会话的推荐系统通常采用分阶段策略。其中每个会话由一个操作序列S = [s_1, s_2,...,s_N]构成,这些操作是用户点击的项目。其中S_t = \{ s_1, s_2,..., s_t \}, 1 \leq t\leq N表示在时间点t截断的动作序列前缀部分。令V = \{v_1,v_2,...,v_{|V|}\}表示SRS系统中的项目集合,并称为项目字典。
令X = \{x_1, x_2,...,x_{|V |}\}表示关于项目字典 V 的嵌入向量。STMAP模型对 V 中的每一个项目 i 学习一个d维实值嵌入x_i \in \mathbb{R}^{^{d}}。其中,符号x_t \in \mathbb{R}^{^{d}}表示嵌入当前会话前缀s_t的最后一次点击S_t。我们的模型的目标是预测下一个可能的点击(即s_{t+1})基于给定的会话前缀s_{t}。确切地说,我们的模型构造和训练一个分类器去对项目字典V里每一个候选项学习生成一个得分,令\hat{y } =\{\hat{y}_1, \hat{y}_2 ,..., \hat{y}_{|V|}\}表示得分向量,其中\hat{y }_i表示项目v_i的得分。在得到预测结果后,\hat{y } 里的元素按降序排名,相对应的物品topk分数用于推荐。为了表述方便,我们将三个向量的三线性积定义为:

3.2 短期记忆优先模型(STMP)
所提出的STAMP模型是基于短期记忆优先模型(STMP)构建的,如图1所示。

从图1中可以看出,在STMP模型中使用了两个嵌入(m_s和m_t)作为输入信息。其中m_s代表用户对当前会话的整体关注程度,并其定义为会话外部记忆内容的平均值。

其中外部记忆模块指的是对话历史片段S_t中的项目嵌入序列集合。符号m_t被定义为用户在当前对话中的兴趣状态,在本研究中采用最后点击的行为特征来表征用户的兴趣状态:即m_t = x_t。值得注意的是这里的x_t是从对话历史片段中提取得到的特征因此我们将其称为用户的短期兴趣表示。接下来我们将通过两个独立的多层感知机(MLP)网络分别对一般性和当前性兴趣进行特征提取与学习。图1所示的MLP单元结构具有相同的架构特点在于它们各自拥有独立参数配置机制以适应不同的兴趣维度分析过程如上所述我们采用一个不含隐藏层的多层感知机来完成特征提取任务对于特定的状态表示操作定义如下:

其中h_s \in \mathbb{R}^{^{d}}表示输出状态,W_s \in \mathbb{R}^{^{d\times d}}为加权矩阵,b_s \in \mathbb{R}^{^{d}}为偏置向量。f(\bullet ·)是一个非线性激活函数(我们在本研究中使用tanh)。状态向量h_t关于m_t的计算方法与h_s类似。对于给定的候选项x_i \in V,其得分函数定义为:

其中\sigma(•)代表sigmoid函数。令\hat z∈ℝ^{|V|}所代表的向量由各\hat z_i组成(其中i∈[1,2,…,|V|))。每个\hat z_i则代表赋予权重后的用户兴趣表征与当前会话前缀S_t以及候选项x_i之间的非标准化余弦相似度计算结果。随后经过Softmax处理得到输出\hat y的形式:

\hat{y} \in \mathbb{R}^{^{|V|}}表示模型的输出向量,代表一个概率分布覆盖每一个项目v_i \in V,每个元素\hat{y}_i \in \hat{y}表示的概率事件,第六项将显示为接下来点击在这个会话。对于任何给定的会话前缀S_t \in S (t\in [1,...,N]),损失函数被定义为预测结果\hat{y}的交叉熵:

其中 y 表示仅在 s_{t+1} \in S (ground truth)的情况下激活为 one-hot 向量。当 s_{t+1} 对应项目字典 V 中的第 k 个元素 v_k ,则 y_k = 1 ;否则即为 0 。通过采用迭代随机梯度下降(SGD)方法进行交叉熵损失优化。
从STMP模型的定义方程(4)中可以看出,它通过内积运算实现了对后续点击候选项目的预测。这些候选项目由加权用户的兴趣特征向量以及长时记忆(平均历史点击记录)和短时记忆(上一次点击记录)共同构成。该三阶张量线性组合模型的有效性验证可在第4.5节中找到详细描述,在实验结果部分表明该短时记忆优先级机制能够非常有效地捕捉用户的暂时兴趣,并预测其再次点击行为,从而实现了在所有基准数据集上的最佳性能水平。
但是,在方程2中可以看出,当将用户的外部记忆建模为其一般兴趣m_s时,STMP模型将所有会话前缀项都被同等重视是值得商榷的是,我们认为这种处理方式可能导致难以捕捉到用户兴趣漂移的趋势(可能引起不可预见的点击行为),尤其是在长期会话中存在这一问题。基于此观察结果,我们提出了一种新的注意力机制以解决这一缺陷该机制已经被证明能够有效捕获长序列中的注意力漂移特性.为了实现这一目标,我们基于STMP模型构建了该新机制其核心思想与STMP一致即优先考虑短期注意力因此将其命名为短期注意力/记忆优先架构(STAMP).
3.3 STAMP模型
如图2所示的是STAMP模型的架构。通过观察图2可以看出, 两个模型之间唯一的区别在于: STMP模型中将用户的"一般兴趣"抽象为状态向量h_s并用于计算平均外部记忆; 而在STAMP模型中,h_s来源于一个基于注意力机制生成的实值向量m_a, 这一过程被称为注意力网络的作用机制

注意力网络由两部分组成:一部分是用于处理每个项目的简单前馈神经网络(FNN),另一部分则与对话历史中的信息相关联。

生成注意力权重(2)注重力复合函数负责计算基于注意力的用户一般兴趣

。用于计算注意力的FNN定义为:


表示第

个项目

,

表示最近一次点击的项目,

是一个加权向量,

为加权矩阵,

为偏置向量,

表示sigmod函数。

代表在当前会话前缀下项目

关于注意力系数的问题,请注意根据方程7可知其计算基于会话前缀的一个嵌入目标项目。

, 最近一次点击的项目

和会话表示

因此,它能够识别出目标项目之间的相关性和长期与短期记忆用户间的兴趣。值得指出的是,在公式7中, 短期记忆得到了充分重视。正是由于这一点, 我们提出的注意力模型得名于其对短期注意力的优先处理。
在相对于当前会话前缀

下获得注意力系数向量

后,当前会话前缀

下基于用户的一般兴趣的注意力

,可以计算如下,并将

代入进去:

3.4 短期记忆模型
为了检验本研究的基本理念的有效性,换句话说,基于对话(由一系列动作构成)的优先分配策略来指导用户的短期注意力与记忆行为决策.在本节内,我们提出了一个基于短期记忆(STMO)的模型.该模型旨在实现对下次点击位置的预测.

只基于当前会话前缀

的上一次点击

类似于STMP模型,在STMO模型中采用了不含隐藏层的简洁型多层感知机(MLP)来提取特征。该MLP网络会整合上一时刻的点击行为特征进行处理。

作为输入,输出一个向量

,正如STMP中的“MLP CELL B”(见图1),定义为:

其中

表示输出状态,

为加权矩阵,

为偏置向量。

为激活函数tanh。那么对于给定的候选项

,得分函数定义为

与

的内积:

在获得得分向量

该方法通过将排名计算应用于方程5,并结合优化后的模型参数(如方程6)来实现与STMP模型相似的预测过程。
4. 实验
4.1 数据集和数据准备
在两个数据集中进行评估以验证我们提出的模型性能表现,在这个研究中我们主要采用了两个不同的公开可用的数据集来进行实验研究。第一个实验采用的数据集名为Yoochoose该集合源自RecSys组织在第十五届推荐系统大赛(RecSys Challenge 1)中发布的相关竞赛任务其涵盖了从电子商务网站收集来的六个月内的一系列商品点击流数据其中训练样本仅限于记录单个用户的购物车活动情况。第二个实验则采用了源自CIKM Cup 20162比赛中的Diginetica dataset该集合在本次研究中仅提取并使用了与交易相关的具体信息作为实验分析的基础
类似于前人研究[5,10]所做的一样,在本研究中我们采用了相同的筛选标准:去除那些长度仅为1的对话以及两个数据集中出现频率低于5%的内容。Yoochoose测试集的数据来自紧接着训练集之后几天内的对话记录,在这些测试数据中被排除了那些在训练集中从未出现过的点击(即项目)。而Diginetica的数据则主要关注的是随后一周内发生的对话内容作为测试样本。经过预处理后,在Yoochoose数据集中共有37483条记录(即条目),其中包含了约796.6万次互动记录(点击),而在Diginetica的数据集中,则有4.3万条记录。
与[17]相同,我们使用一个序列分割预处理,用于输入会话

,我们生成序列和对应的标签
,
…
,用于在两个数据集上进行培训和测试,证明是有效的。由于Yoochoose训练集相当大,根据[17]实验,对最近分数的训练比对整个分数的训练效果更好,所以我们使用最近分数的1/64和1/4的训练序列。三个数据集的统计数据如表1所示。

4.2 基线
下列模型(包括涉及的前沿领域的最新研究)被用作评估STAMP模型表现的基准
- POP:基于训练集频率的简单模型始终提供项目建议。
- item- knn[14]:一种基于余弦相似性的item- to- item模型,在候选项与现有项之间设置了一个约束条件(避免在[4,20]范围内访问较少的项目产生过高的相似性)。
- FPMC[13]:一种先进的混合推荐模型用于下一篮子的推荐系统。为了实现基于会话的个性化推荐,在计算推荐得分时未考虑用户的潜在表示。
- GRU4Rec[5]:一种基于RNN的深度学习模型用于会话式推荐系统。该模型由GRU单元构成,并通过并行的小批量训练过程以及排序损失函数实现了高效的训练。
- GRU4Rec+[17]:一种改进型GRU4Rec模型,在其基础上增加了数据增强技术和适应输入分布变化的方法(从而提升了性能)。
- NARM[10]:一种基于RNN的先进注意力机制模型,在隐藏状态中捕获主要目的并将其与序列行为相结合(形成最终表示),从而生成精准的推荐。
4.3 评估
我们采用所列指标来考察SRS模型的性能参数,在现有研究中此类指标已被广泛采用
P@20:该评分体系在SRS领域内具有广泛的适用性。
其中P @ K代表测试用例的比例,在排序结果中正确的位置处于前K名。
在本文研究中,默认情况下所有测试均采用了该评分体系的参数设置。

其中

为SRS系统G中测试数据的个数,

为在前

个排序列表中拥有所需要的项的情况的个数,当

出现在

的排序列表的前

个位置时,发生

。
MRR@20:所需项目

排名倒数的平均值。如果排名大于20,则排名倒数为0。

MRR被定义为一个处于区间[0,1]内的标准化指标。当该指标数值呈现增长趋势时,则表示大多数'命中'项在推荐列表中的排序位置会相对靠前。这一变化趋势直接反映了相应推荐系统的性能表现。
4.4 参数
通过在多个数据集上进行系统性网格搜索来优化超参数。最佳模型根据验证集中的P@20分数提前终止训练。我们进行了系统性超参数搜索,在不同维度的选择包括50到300之间的数值序列;学习率的选择涵盖了{5e-4, 1e-3, 5e-3, 1e-2, 1e-1};而学习速率衰减因子则选择自{7.5×1e-1, 8×1e-1, 8.5×1e-1, 9×1e-1, 9.5×1e-1, 1.0}这一区间。本研究采用以下组合:d=100, η=5e-4, λ=1.为了提高训练效率,默认设置下采用了小批量大小为512的批处理,并运行30个 epochs 的训练任务。所有的加权矩阵均采用均值为零标准差为√(6/size) 的正态分布进行初始化操作;而所有的嵌入项则采用均值为零标准差为√(6/size) 的正态分布随机初始化,并与网络其他参数同步更新

4.5 下一次点击预测
为了展示所提出的模型的整体性能, 我们旨在评估该模型在推荐系统方面的整体性能, 并将其与当前最先进、最先进的项目推荐方法进行了对比。各项基准数据集的数值结果均见表2, 其中各列中的最佳结果采用加粗显示。通过表2可以看出, 在Yoochoose和Diginetica两个数据集上, STAMP的表现最为优异, 在P@20和MRR@20指标上均优于现有方法, 验证了该模型在多个关键指标上的卓越表现。通过表2可得以下结论: STAMP不仅在P@10上表现出色, 并且在MRR@10指标上也优于现有方法; 但需要注意的是, 在F1值方面, STAMP的表现略逊于现有方法
Item-KNN与FPMC等传统推荐算法的表现较弱,在 POP 模型面前略胜一筹。实验结果显示这一差异的重要性被证实。考虑到用户的互动行为(交互记录)显示...会话型推荐系统仅依赖于同现流行项(即热门商品),或者在连续的商品转换中缺乏足够的信息来提供精准建议。此外,在实际应用中这类全局式的方法可能会导致较大的计算开销,并且难以扩展至大规模数据集
基于神经网络的传统模型普遍表现出色,这表明深度学习技术在相关领域具有显著的效果
基于我们提出的STAMP模型框架,在两个实验任务中均取得了Yoochoose数据集上的最佳P@20和MRR@20指标。同样,在Diginetica数据集上的实验结果也表现出色。然而,在当前对话会话中仅依赖于历史点击信息以获取全局兴趣信息的能力是缺乏的。因此,在相同的最后一个点击事件发生时(即相同的历史点击序列),该模型将生成完全相同的推荐列表。尽管如此,在三个不同实验任务中的表现仍然优于传统的机器学习方法如Item-KNN和FPMC等模型;与GRU4Rec+相比表现更为突出;但略逊于NARM这一先进的自注意力模型。正如预期所言,在考虑对话上下文信息以及最后一个点击事件的重要性方面存在明显优势;而引入item-level attention机制后(如本研究中的STMP),其性能进一步得到了显著提升:在三个测试任务中分别提高了1.17%、1.38%、1.56%等显著幅度(具体数值见表)。这些结果显示:通过将注意力机制应用于物品级别;生成的会话表示不仅相较于简单的平均池化函数而言更能有效地证实;而且在既考虑所有物品的同时也能聚焦于重要项目的特性上具有更强的优势;最新的实证研究表明该改进方案具有显著的价值
4.6 比较STAMP和NARM
基于对话的推荐系统如今已成为电子商务领域不可或缺的一部分,在协助用户从海量商品中筛选感兴趣之商品方面发挥着重要作用。实际上,在一个 typical 电子商务网站上可包含超过105个条目, 而大多数用户仅会对查看真实世界推荐系统[6]首页上的商品感兴趣.为了检验我们提出之性能邮票模型及最新的NARM模型的实际应用效果(见图3), 我们将推荐系统仅展示几个商品项, 相关商品则应位于推荐列表之前三名[12].为了模拟真实场景,我们将采用以下四个指标: P@5、MRR@5、P@10 和 MRR@10 来评估推荐质量.实验结果已总结于表3, 并认为这些结果一定程度上反映了其在真实工作环境中的表现.经过测试发现, 在模拟严格工作环境下进行评估时, STAMP展现出卓越性能(见图4).无论是在P@5还是P@10指标下均优于NARM模型.值得注意的是,在三个实验任务中 STAMP 总是表现出明显优势, 这充分体现了同时兼顾一般兴趣与短期兴趣所带来的有效性优势以及所学习项目嵌入向量的有效性特点.从以上实验结果及第4.5节主要结论可见, STAMP 倾向于提供更为精准之商品建议

我们不仅记录了递归神经模型NARM的运行时间,还评估了我们提出的方法STAMP的表现。为了确保公平性,在实现这两个模型时我们使用了相同的100维嵌入向量,并在同一台GPU服务器上进行了测试。表4展示了三个数据集上每一轮训练的时间消耗情况,在此过程中我们可以清晰地看到STAMP方法比NARM更加高效。进一步分析表明,在NARM模型中每个GRU单元都需要执行大量复杂的操作,在这种情况下尽管模型架构更为复杂但计算效率却相对较低相反我们的STAMP方法通过引入了一个更为简洁高效的神经网络架构成功降低了处理顺序输入时所带来的重复计算开销因此在实际应用中这种方法能够显著提升系统的运行效率

4.7 上一次点击的作用
在本节中, 我们开发了一系列对比模型, 考察了在对话背景下应用最后一条点击行为以实现对话推荐效果的可能性:
- STMP-: 基于STMP框架,在三线性层中未采用最终点击项的嵌入方式。
- STMP: 本研究中所提出的STMP模型。
- STAMP-: 基于STAMP框架,在三线层中未采用最终点击项的item进行嵌入。
- STAMP: 本研究中所提出的STAMP模型。
实验结果表明,在表5中呈现的数据支持以下结论:结合最后一次点击与会话上下文向量的所有模型均表现出比未采用最后一次点击更好的性能。结果显示,在特定对话中采用最后点击策略具有积极意义。我们的模型是基于整合长期与短期再击信息,并通过提升最后点击的相关性来优化表现的想法而构建的。我们相信这种设计是有益的,并且在处理长时间对话时能够有效应对用户的再次点击行为可能导致的变化以及随后的动作趋向于与最后点击相关联的问题。为了评估最后一次点击的影响程度,在图3中展示了不同对话长度下的P@20指标以及Yoochoose 1/64数据集的具体实验结果

我们首先展示了改变STMP、STAMP以及NARM系统中会话长度的实验结果(如图3(a)所示)。通过分析图中数据可以看出,在会话长度超过20的情况下NARM系统的表现明显低于STMP与STAMP系统。这一现象提示我们,在处理较长对话时短期利益导向模型较之于NARM系统展现出更为强大的能力表现。另一方面观察图3(b)发现,在1至30长度区间内STMP与STAMP系统的P@20指标均显著优于各自对应的模型参数设置(其中未将最后一次点击输入到三线性层)。这一结果的原因在于当我们在最后一次点击或对话终止标记中捕获当前兴趣后 STMP与STAMP系统能够更加有效地基于此建立用户的兴趣模型从而为后续点击提供更有针对性的内容推荐这种机制使得其在对话式推荐任务中的性能表现更为出色。进一步研究表明对于较长对话而言 STMP-与STMP之间的性能差距以及STAMP-与STAMP之间的性能差距相较于原始版本将显著扩大这表明虽然从对话内容中提取出通用兴趣具有重要意义但明确利用临时兴趣信息能够显著提升推荐质量由此可见 最终点击信息在对话式推荐任务中的重要性。
此外 STAMP-系统的表现优于其对应的原始版本是由于其注意力机制能够捕获混合型的兴趣模式而传统版本仅考虑通用兴趣这一特性导致了性能上的提升这进一步验证了最后一击信息对对话式推荐系统的重要性
4.8 所提出模型的比较
为了进一步深入探讨不同模型在性能和效果上的对比分析, 本研究涵盖了以下几种类型: 基于最后一次点击获取用户兴趣、结合最后一次点击与会话上下文以及最终采用注意力机制三种方法; 通过进行不同长度会话的研究性对比分析来展示各方法在实际应用中的表现。我们将所有参与实验的数据集划分为两组: '短'数据集指长度不超过5个事件的数据样本; '长'数据集则包含超过5个事件的数据样本, 其中5几乎是所有原始数据集中会话的平均总长度。其中Yoochoose数据集在短、长两个子集中分别占据了70.10%和76.40%的比例; Diginetica的数据集则分别为29.90%和23.60%. 对于每种方法, 我们计算每个数据集上每个长度子集的P@20和MRR@20指标, 并将实验结果分别如图4 (a) 和(b)所示

如图4 (a)所示, Yoochoose系统的结果表明, 长序列会话中所有方法在P@20和MRR@20上的表现均不如对照组(短组), 这一结果凸显出在该数据集上基于会话机制推荐长序列会话面临的挑战。我们推测这可能是由于难以捕捉用户兴趣随会话长度增长的变化。除了STMP(短期记忆模型)和邮票模型比基尼(StoM)两组之外, 其他模型因未能充分考虑到两位将军及其当前兴趣而表现不佳, 这表明仅依靠最后点击信息来生成推荐是不够的。这一发现进一步验证了我们最初的直觉, 即通过整合会话上下文信息与最新点击行为信息能够显著提升推荐系统的性能
图4 (b)展示了Diginetica上的实验结果。研究发现,在MRR@20指标上, STMO显著优于STMP, 随着会话持续时间的增长, 两者的性能差异进一步扩大至1.11个百分点, 这一现象可能暗示STMP在平均聚合方面的不足, 从而影响推荐系统中准确条目(items)的排名位置。尽管如此, STMO的结果却揭示了短期兴趣对提高推荐准确性的重要性。综合而言, STAMP仍然是表现最为出色的模型, 其优势在于通过有效的会话表示方法实现混合兴趣检索, 这一发现凸显了所提出的注意力机制的有效性
此外,请参考图4所示的数据对比结果表明,在Yoochoose和Diginetica两个数据集中呈现出显著的趋势差异性。为了解释这一现象差异性,请对这两个数据集进行深入分析,并展示出重复点击事件在对话中的占比情况。就对话时长而言(即每次至少被点击两次),在这两个数据集中均存在较高的重复点击频率特征表现出来)。根据表6的数据统计结果发现,在Yoochoose的数据集中较短对话中的重复点击比例较低,在较长对话中则较高程度地呈现出了这种特征表现出来)。从上述研究结果可以看出,在对话过程中出现多次点击的现象会对推荐效果产生显著影响(两者之间呈反比关系)。具体而言,在这种情况下推荐系统可能会过度强调不重要的条目信息而导致无效内容的影响;从而使得系统难以有效捕捉到用户后续的操作兴趣点信息)。基于此观察结果,在STAMP模型中我们采用了一种新的短期注意机制设计思路:即通过动态调整当前用户的兴趣关注范围来实现对对话过程中的重要项目选择;从而有效缓解对话中断断续续的问题(相较于现有方法而言)。这种方法不仅能够更好地平衡短期记忆与长期记忆之间的关系;而且也能够提升整体系统的推荐性能表现出来)。因此该研究工作证明了这种基于短期注意优先级的设计方案具有较高的理论价值和实践意义

4.9 进一步研究
在本节中, 我们从Yoochoose测试集中随机选取了多组示例, 并对这些样本进行了多次考察. 图5呈现了该项目级注意机制在注意力机制方面的显著优势.

在图5中,颜色深度与项目重要性呈正相关关系,在缺少具体项目信息时难以直接量化各上下文项目与目标项目的关联度因此可从项目类别角度部分解析注意力机制的有效性如在会话11255991中我们观察到具有相同类别特征的目标项目较其他类别的项目具有更高的注意权重这一差异表明不同类别间的关联程度可能会影响到注意力机制的效果不同类别的项目权重差异可能间接反映出用户对这些项目的兴趣程度从而为后续行动提供支持
我们提出的方法能够通过突出显示多个关键因素来确定下一步操作,并如图5所示展示了其效果。首先,在决定下一个动作时,并非所有项目都是同等重要的。我们的方法能够识别并优先处理重要项目的同时忽略非重点点击事件(图5)。其次,在对话过程中即使某些重要项目并不紧邻当前操作区域但仍能被标记为重要项目这一点我们进行了详细验证(图5)。第三,在对话接近结束时那些靠近会话结束项的权重通常会更大尤其是在较长对话中最后一个点击项的权重更是明显高于其他项(图5)。这不仅支持了我们之前的直觉即用户的预期操作往往与当前的操作密切相关而且也为为什么STAMP模型能够在捕捉长期兴趣方面超越其他模型提供了理论依据(图5)。此外通过对具体数据集的分析我们发现无论是在会议开始阶段还是结束阶段所提出的注意机制都能够准确捕获到重要项目的特征从而构建出更加完善的兴趣模型(图5)。基于以上实验结果我们可以得出结论所提出的项目级注意力机制不仅能够有效捕捉当前兴趣还能够兼顾长期兴趣从而显著提升模型的预测性能
5. 总结
在本文中
参考文献
This study presents a novel approach for neural machine translation through simultaneously learned alignment and translation mechanisms.
[2] Hidasi Balázs, Massimo Quadrana, Alexandros Karatzoglou, and Domonkos Tikk. 2016. The parallelization of recurrent neural network architectures enables effective session-based recommendations through feature-rich modeling and collaborative filtering techniques within dynamic user sessions.] In the proceedings of the ACM RecSys conference held in Boston in 2016, pages 241–248, ACM Press, New York, NY, USA.
Wanrong Gu, Shoubin Dong, and Zhizhao Zeng. 2014年,在马尔科夫链模型和购买间隔的基础上提升了推荐效果。 Neural Computing and Applications 25, 5 (2014), pages 1153–1162
[4] Xiangnan He, Hanwang Zhang, Min-Yen Kan, and Tat-Seng Chua. 2016. Fast matrix factorization for online recommendation with implicit feedback. In Proceedings of ACM SIGIR’16. ACM, Pisa, Italy, 549–558.
Balázs Hidasi et al. presented session-based recommendations using recurrent neural networks at the ICLR conference in May 2–4, San Juan, Puerto Rico.
Liang Hu et al., 2017
[7] Dietmar Jannach, Lukas Lerche, and Michael Jugovac. 2015. Adaptation and Assessment of Recommendations targeting short-term shopping goals. In the proceedings of the ACM RecSys’15 conference held in Vienna, Austria from September 16 to 20. ACM, Vienna, Austria: 211–218.
[8] Yehuda Koren, Robert Bell, and Chris Volinsky. "Matrix decomposition methods for recommendation systems." Published in Computer, vol. 42, no. 8 (August 2009).
[9] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. 2015. Deep learning. Nature 521, 7553 (2015), 436–444.
[10] Jing Li, Pengjie Ren, Zhumin Chen, Zhaochun Ren, and Jun Ma. 2017. Neural Attentive Session-based Recommendation. In Proceedings of ACM CIKM’17. Singapore, Singapore, 1419–1428.
Minh-Thắng Luong, Hiệp Pham, and Christopher D. Manning. 2015. Successive Methods for Attention-Based Neural Machine Translation. In Proceedings of EMNLP'15 (September 17–21). Association for Computational Linguistics, Lisbon, Portugal: 1412–1421.
[12] Massimo Q., Alexandros K., Hidász B., and Paolo C. 2017. Customized Session-Based Recommendations Using Hierarchical Recurrent Neural Networks. In the proceedings of ACM RecSys'17 were published as part of the conference proceedings by ACM in Como, Italy during the year 2017 and featured papers covering a wide range of topics related to recommendation systems.
[13] Steffen Rendle et al., 2010. Decomposing personalized Markov chains for next purchase basket recommendation. In the proceedings of the WWW'10 conference: Web Algorithms and Human Interaction (WWW'10), held in Raleigh, North Carolina, USA by ACM from August 23–27, 2010. Pages 811–820.
[14] Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl. 2001. Item-based collaborative filtering recommendation algorithms. In Proceedings of WWW’01. ACM, 285–295.
[15] Guy Shani、David Heckerman以及Ronen I Brafman. 2005. 基于MDP的推荐系统。JMLR期刊第6卷(2005年9月), 1265–1295.
[16] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS’14 (December 08 - 13). MIT Press, Montreal, Canada, 3104–3112.
[17] Yong Kiam Tan, Xinxing Xu, and Yong Liu. 2016. Improved Recurrent Neural Networks for Session-based Recommendations. In Proceedings of DLRS’16 (September 15 - 15). ACM, Boston, MA, USA, 17–22.
[18] Bartlomiej Twardowski. 2016. Constructing Models for Contextual Information within Session-Aware Recommender Systems Using Neural Networks. In the proceedings of the ACM RecSys'16 conference (September 15–19). ACM, Boston, MA, USA, pages 273–276.
[19] Pengfei Wang, Jiafeng Guo, Yanyan Lan, Jun Xu, Shengxian Wan,
and Xueqi Cheng.
(2015).
Developing a Hierarchical Representation Model
for Next-Basket Recommendations.
In The Proceedings of the ACM SIGIR Conference.
ACM Press,
Santiago,
Chile:
403–412.
[20] Fengyu, Qiang Liu, Shu Wu, Liang Wang & Tieniu Tan (year). A Dynamic Recurrent Model for Next-Basket Recommendations. Presented at the ACM SIGIR Conference in July 2016.
[21] Yu Zhu, Hao Li, Yikang Liao, BeidouWang, Ziyu Guan, Haifeng Liu, and Deng Cai. 2017. What to Do Next: Modeling User Behaviors by Time-LSTM. In Proceedings of IJCAI’17 (August 19 - 25). IJCAI, Melbourne, Australia, 3602–360.
