Advertisement

SPTF: A Scalable Probabilistic Tensor Factorization Model for Semantic-Aware Behavior Prediction翻译心得

阅读量:

SPTF:用于语义感知行为预测的可伸缩概率张量因子分解模型

摘要:

随着电子商务和社交网络平台的迅速发展起来,在线用户生成了大量异质行为数据。这些数据包括用户的购买历史、收藏记录、商品放入购物车以及浏览活动等信息。这些二元化的用户行为数据通常只反映了用户的参与与否(即隐式的反馈数据)。张量分解方法通过识别不同类型的用户行为特征来模拟异构性特征的一种有效方法。然而,在分析未被观测到的用户行为记录时会面临歧义性问题;这些记录中包含了真实负向样本以及潜在正向样本的混合体。现有的张量因式分解模型在处理未被观测到的行为实例时存在不足之处:它们要么忽略了未观测样本的信息;要么将所有缺失的数据视为负向样本;要么导致预测性能下降;要么导致计算成本过高;此外还存在一个严重的问题:正向样本在不同行为类型中的分布呈现显著偏倚现象;现有的这类模型往往倾向于表现那些具有显著数量优势的行为类型。

我们提出了一个可扩展的概率张量因子分解模型(SPTF),并创新性地引入了一种高效的负抽样技术。通过综合运用观测数据与潜在数据,在计算成本显著降低的同时实现了建模精度的最大化优化。针对行为数据呈现高度非均衡分布这一关键问题,在深入分析现有方法局限性基础上提出了新型自适应排序正抽样方法,在显著提高了模型收敛速度的同时进一步提升了稀疏行为类型分类预测能力。所提出的优化技术使得SPTF模型具备了处理大规模行为数据分析任务的能力。在对一个大型电子商务数据库进行系统性实验研究后发现:所提出的SPTF模型在预测精度方面明显优于现有相关方法,并且展现出良好的可扩展性能

introduction:

虽然隐反馈的数量较多且多为正面反馈但缺乏负面反馈这种现象可能导致对用户的全面认知不够完整

A问题定义

我们定义用户集合u包含元素{u1,…,ui};同时定义项目集合v包含元素{v1,…,vj};并设定行为类型集合t由元素{t1,…,tk}组成。其中i,j,k分别表示用户的数量、项目的数量以及行为类型的数量。为了表示语义感知的行为记录信息,在每个用户的子集与项目的子集之间建立关联关系时会生成特定的行为类型实例。为了方便后续分析与建模工作,在数据处理阶段我们将每个潜在的行为模式映射到一个二元随机变量yikj上,并将其取值范围限定在0与1之间以表明其是否存在状态(即是否被观察到)。通过将u×t×v空间中的所有可能组合视为三维结构的数据形式,则能够自然地构建出一个完整的三阶张量模型

其中一项如方程(1)所示。以D+标记观察到的三倍体集合,并用D-标记未被观察到的三倍体集合。在此处,请遵循标准符号体系:大写粗体字母用于表示矩阵或张量,在此上下文中使用小写粗体字母来代表列向量

B模型描述:

我们设计了一个概率张量分解模型用于模拟语义意识异构行为,并将每个用户、项目及行为类型都被建模为D维潜在因子向量分别被称为Ui、tk及vj。其中符号Θ表示该模型的参数集:Θ = {ui, tk, vj | u ∈ U, t ∈ T , v ∈ V}。在该模型中假设所有

由基于用户、项目以及行为类型这三者的条件所形成的相互独立的空间潜在向量。我们的模型利用了一个称为f(xikj; Θ)得分函数来估计-三元组XiKj的存在性。该得分为当输入参数xikj和θ值确定时所代表的是该三元组是否存在(即与特定用户的特定行为相关联的概率)的信心程度。我们模型的条件独立假设允许构建这样的条件概率分布。

这里σ(x) = 1/(1 + e−x)是sigmoid函数,Ber(y|p)是伯努利分布,定义如下:

涉及多种张量分解的技术,在SPTF模型中均实现了相应的得分函数计算功能。其中Tucker分解(TD)、标准化(CD)以及成对交互式方法等均能在该框架下得到有效的应用与实现。通过Rendle等人的实证研究发现,在基于BPR优化框架的所有张量分解方法中PIF表现最为出色且具有显著的优势,在模型训练时间方面也取得了最优效果。因此,在SPTF模型中采用成对交互式方法来实现f(xikj; Θ)这一关键函数的计算过程。

基于概率矩阵因式分解[25]取得成功的基础上, 我们提出了高斯先验参数Θ. 在最终部分中描述了我们的模型的概率生成机制.

在该模型的概率生成过程中,我们利用贝叶斯推论分析了用户、项目及行为类型的相关潜在向量,并通过公式(5)展示了这些潜在向量及其对应的矩阵结构。其中U,T,V分别代表由ui, tk及vj作为其列向量构成的三个矩阵。我们的目标是使公式(5)成立的概率最大化,在此过程中我们需要最小化公式(6)中的负对数项,并设定适当的正则化参数以防止过拟合

C模型优化

13

等式6的计算量巨大主要源于未观察到的示例数量与用户或项目数量呈立方关系。值得注意的是并非所有被观察到的样本都能被视为真实负样本其采集依据主要是参考文献【13

13

该优化方法基于负采样策略,在推荐系统中被广泛采用,并且其中对负样本抽样的概率设置对于模型的整体性能表现具有至关重要的影响。以正样本三元组(ui, tk, vj)为例,在实际应用中我们发现采用多种不同的负采样策略【13

双向的负采样策略

16

16

我们提出了一种双向否定采样策略用于构建负面样本,并将其应用于user与item两个维度。值得注意的是,在给定一个正样本(u_i, t_k, v_j)的情况下,默认的做法是在u_i与t_k之间进行交互关系推断以生成正面互动记录。然而,在实际应用中,默认的做法存在明显的局限性:当我们在u_i与t_k之间进行交互关系推断时,默认的做法存在明显的局限性:当我们在u_i与t_k之间进行交互关系推断时,默认的做法存在明显的局限性:当我们在u_i与t_k之间进行交互关系推断时,默认的做法存在明显的局限性:当我们试图通过随机均匀采样的方式获取negative items时,默认的做法往往会导致较低的时间复杂度表现甚至无法满足实际需求。

偏向流行度的项目采样(PIS):受到【13】【28】的启发,我们采取

作为负样本采集概率分布,

衡量项目的欢迎度。这些受欢迎的项目与用户在行为tk上没有发生交互,则可能被认为是真实的真实负样本。

偏向流行度的用户采样(pus):和负项目采样相同,我们使用

对于y用户的负采样概率分布情况。这些活跃的用户在多个项目中展现出显著的行为模式tk特征,在与项目vj进行互动时并未表现出显著的行为模式差异性。这表明该用户对该项目的兴趣较低,在这种情况下她被分配较高的采样概率。

9

9

这里省略了正则化条件。O(xikj) w.r.t ui,tk和vj的斜率计算如下:

定义D_{UI}为包含正样本与负样本的用户u_i的小批量数据集;其中,在小批量数据集中,用户的身份可能既是正面也可能是负面;特别地,在这种情况下(即抽取为负用户的场景),该实例仅是众多实例中的一个代表;更明确地说,请注意以下内容:定义D_{VJ}D_{TK}分别对应于与项目v_j及行为类型t_k相关的数据集;而针对小批量目标函数斜率的变化,则详细阐述了以下内容:

19

19

28

28

时间复杂度分析: 我们采用的模型优化方法中,在每一步梯度下降所需的时间复杂度为 O(2ND) = O(D),其中 2N 表示负样本的数量,在小规模数据集中(通常 N 仅为 2 或 3)【28

D自适应正抽样法

13

该方法中的rank(xikj)是基于所有用户ui与其对应的的行为类型tk之间的对比关系确定的正样本xikj的位置排名。其中Nik代表了在用户ui及其行为类型tk类别中所有负样本的数量。权重计算依据当前学习率参数(Θ的具体值)。如[21]所述, 该权重计算模型采用指数函数结合归一化后的秩值来进行赋权排序操作. 在这种排序策略下, 系统会更加倾向于选择排名较低的有效实例, 而远离那些具有较高优先级的有效实例. 只有那些具有相同用户特征和行为类型属性的对象才能进行比较分析. 因此, 我们将排序结果限定为仅包含相关联对象群体中的样本集合. 最后, 正例xikj的概率采样依据如下定义:

10

10

10

10

18

18

18

6

6

6

对于每个正样本xikj来说,在系统性地抽取Nij个负样本(其中Nij受到一个有限制的固定数值约束)的同时,并行处理相应的负样本集Xikj以计算得分

(2)让Qikj表示在Nikj样本中冒名顶替的数量,排名(Xikj)用

近似,权重用

近似。

29

29

频繁地从数据集中抽取Nikj个负样本进行得分类评估显然是不必要的做法

E用户行为预测的语义感知

在模型参数Θ被预估之后,在线服务系统能够对用户的语义感知行为进行预测。具体而言,在给定用户ui以及其对应的行为主类tk的情况下,在线服务系统能够对用户的偏好进行分析,并根据计算出的分数f(xikj; Θ),我们能得出用户的偏好排序结果。该方法在电子商务平台和社交网络中具有广泛的应用场景,并且已在多个实际项目中得到验证。

三 实验

在这个部分,我们首先描述实验设置,然后是实验结果。

A数据

该研究基于阿里巴巴天猫平台2014年发布的大规模真实数据集展开实验。该数据集包含了约48万件商品、近千名注册用户及其在2014年11月至12月间产生的约两亿条交互记录。每条记录包括用户ID、商品ID以及行为类型和时间戳信息。本研究涉及以下四种典型的行为类型:点击、收藏、加入购物车及购买。表一详细列出了各类行为及其发生次数。为确保研究的可重复性,该数据集已公开提供。

B评价方法

评价预测的精度:给定一个收集到的由每个用户u产生的行为记录

基于时间戳对用户行为记录进行排序。随后采用80%的数据作为分界点,并用于在模型训练过程中利用这些数据;剩余部分则用于测试集。以优化模型的潜在特征向量维度以及相关正则化参数等超参数为目标;将数据集D+划分为训练集、验证集以及测试集三个部分进行后续处理。

和测试集

2

2

2

2

我们通过随机抽取一千个样本(每个样本均未采取该操作),并生成一千个负样本。

(2)我们用等式4中的得分函数计算xikj的得分以及10000个负示例。

(3)基于这10001个实例的评分排序,我们制作了一个排名表。其中rank(xikj)被定义为该实例在排名表中的位置。

为了构建可靠的预测框架,在列表中选取了具有较高优先级的n个示例,并据此生成相应的预测集合

我们具体而言讨论了命中率的计算流程。我们采用以下方法进行描述:对于每个单个测试用例,在其前n个结果中若包含阳性示例xikj,则将其hit@n赋值为1;反之,则赋值为0。随后我们通过取所有测试用例结果的平均值得到整体命中率

其中hit@n代表测试集中的命中次数,并定义为所有测试用例中被正确识别的数量。一个有效的预测模型应在某一时间点达到较高的点击率指标。我们可以通过分析用户行为特征来将总的测试用例数量(即Dtest+)划分为四个互不重叠的行为类别,并进一步细分每个类别下的三元组集合。随后,在这些分类的基础上进行预测模型性能评估。

除了准确率之外,我们还采用信息检索领域中广泛使用的平均倒数秩(MRR)作为预测性能的评估指标。具体定义参见以下部分。

M RR等于阳性样本对所有阴性样本的倒数位次之和再取平均值。
一个有效的预测模型应具有较高的M RR指标。
相较于其他指标,在面对异常数据时,M RR表现出较低的敏感度。

超参数配置优化:在SPTF模型中存在一组需要优化的关键超参数值,并采用交叉验证方法确定最优配置。具体来说,在验证集上运用网格搜索算法确定最优超参数配置:D=50;λU=0.001;λT= 0.0001;以及λV= 0.01等关键变量值设定的基础上进一步提出了一种针对关键超参数敏感性的分析方法。例如,在每个正样本N的情况下(即每个正样本N下),研究者关注其对应的负样本数量;同时关注训练数据量M(指梯度下降迭代次数)以及自适应排序采样器 Nikj所需采集的数据量(即 Nikj所需采集的数据量包括哪些指标?)。

评估模型的性能指标与可扩展能力: 除了预测精度之外,在计算资源有限的情况下我们还关注了对计算效率的影响因素。采用异步随机梯度下降方法用于优化模型参数,并通过调节线程数量研究了其对收敛速度的影响规律

C比较方法

为了便于对比分析,在其中应用一种用于语义感知用户行为预测的先进张量分解与矩阵分解的结合方法。

一种基于贝叶斯理论的概率张量分解模型的发展中提到的方法,在处理隐式反馈数据时采用了常规矩阵分解方式。该模型通过构建其得分函数f(xikj;Θ)由三个潜在向量ui、tk和vj的点积构成的方式进行参数估计。研究者指出该方法主要应用于显性评分数据集分析中,并且其计算复杂度相对较低,在实际应用中表现出良好的收敛性和预测性能。

14

24

14

24

22

BPR-SMF方法不同于BPR-PITF模型,在于其将基于矩阵分解的方法进行了区分。在我们的数据集构造中,则包含四个不同的用户-项目关系矩阵。每个子矩阵对应一种特定类型的用户行为记录,并通过基于BPR的方法分别进行处理。具体而言,在这种情况下每一个用户的潜在表示都会学习到四维向量,并分别对应四种不同的行为类型(如点击、收藏等)。值得注意的是,在这种情况下相同的用户的潜在表示不会与其他三个子空间共享信息资源【22

为了考察我们所提出的基于流行度的负样本策略、双向负样本抽取策略以及自适应排序型正样本抽取方法的效果,在比较SPTF模型时发现,在第一个抽样策略下生成的负样本并非基于流行度的方法。相比之下,第二个变体SPTF-V2采用了我们所提出的基于流行度的抽样方案,并且其唯一的不同之处在于:它仅从用户角度出发(给定正样本抽样Xikj),相应的负样本产生方式与之不同;第三个变体SPTF-V3则采用了统一抽样方案来获取正样本而非我们的自适应排序型方法;最后一个变体SPTF-V4则采用了一个简单的线性模型结构。

D语义感知用户行为预测的效率

在此小节中, 我们展示了SPTF与其他一些参数设置得当的竞争模型的比较结果, 其数据可在表1和图3中找到. 同时, 用户模型与其他竞争模型之间的所有差异性显示出显著差异(p < 0.01).

在图1中就Hits@n而言展示了多种对比模型在预测精度方面的比较结果具体的图1(a)展示了所有测试样本上的整体预测性能包括4种典型的用户行为类型其余四个子图(b-e)则分别展示了不同用户行为类型的具体预测效果值得注意的是我们在本研究中主要关注N取值为1、5、10、15和20的情况因为通常当n取较大值时其意义并不显著SPTF算法在可变用户行为类型下的预测表现优于其他方法更重要的是这种提升尤其体现在n较小的情况下即当n≤5时相对于BPR-PITF BPR-SMF RESCAL以及BPTF算法其Hits@n指标的表现分别提升了3.2倍、32.1倍、35.6倍和59.4倍

从结果中还能得出一些其他的观察结果

E.不同因素的影响

我们全面考察了在全部测试数据集上尝试采用多种抽样策略及其超参数配置选择的影响。

分析不同抽样策略 。我们通过消融研究在SPTF模型中展示每个提出抽样策略的优势(基于流行度的抽样、双向负样本抽样以及自适应排序的正样本抽样方法)。为了全面评估这些方法的效果, 我们设计并实施了四个不同的实验版本(共四个对比实验)。结果显示于表2, 同时图2也提供了直观的支持信息。从这些结果可以看出,SPTF的表现优于其他四个版本, 其优势尤其体现在与SPTF-V3之间的性能差异上, 明显验证了我们所提出的自适应排序正样本抽样方法的有效性。此外,SPTF与所有其他版本(如SPTF-V1、V2和V3)相比,SPTF-V4采用了统一抽样的策略, 其预测精度表现更为优异。值得注意的是, 除了满足用户需求之外

敏感性分析:

在本次实验中

F. 效率和可伸缩性评价

IV. 相关工作

16

7

16

23

23

24

在模型优化方面,HOSVD和BPTF只考虑正样本,不能处理未被观察的值。RTF、PITF和NLTF采用了BPR优化准则,并通过添加成对排序约束处理未观测值.但是,要执行BPR优化时,他们需要创建成对约束的训练数据集,并且训练数据集的大小是非常巨大的,例如,| V观察到的例子数量的倍,其中V是问题中的项目数量。。相比之下,我们提出的模型优化方法对于每个正样本只需要创建2N个带有信息负样本,而不是v个负样本,在这里n是非常小的数。显然,当项数|V|很大时,基于BPR的张量分解模型收敛很慢。所以基于BPR的张量模型不能部署到真正的电子商务和社会网络平台。此外,这些基于BPR的张量因式分解模型对一个训练样本进行了均匀采样和随机梯度下降来刻画样本。这种抽样方法不能解决异质行为数据分布W.R.T.行为类型严重偏态的问题。

v结论

本文研究中

全部评论 (0)

还没有任何评论哟~