Advertisement

2023 WWW Adap-: Adaptively Modulating Embedding Magnitude for Recommendation

阅读量:

目录

1 摘要

2 研究背景

2.1 损失函数

2.2 表征模长

3 表征模长理论分析

3.1 理论分析

3.2 实验分析

3.2.1 实验设置

3.2.2 实验分析

3.3 归一化的缺陷

3.4 温度系数的意义

3.4.1 避免梯度消失

3.4.2 难负样本挖掘

4 方法

4.1 Adap- :实现自适应温度

4.2 Adap-𝜏:实现自适应细粒度温度

5 实验

5.1 模型性能对比

5.2 模型自适应性能

5.3 与SOTA对比

6 总结

参考


论文题目:

Adap-𝜏: Adaptively Modulating Embedding Magnitude for Recommendation

论文链接:

https://arxiv.org/pdf/2302.04775.pdf

代码链接:

https://github.com/junkangwu/Adap_tau

作者主页:

https://junkangwu.github.io/

1 摘要

近年来,表征学习方法在推荐系统中的应用取得了显著成效。尽管这些方法在性能上表现良好,但其潜在局限性之一是表征模长的调节不够科学,这可能导致流行偏见和训练不稳定等问题,从而影响模型的推荐效果。通过在用户和物品表征模长上实施标准化处理,并将其归一化为特定值,我们在四个真实世界的数据集中观察到显著的性能提升(平均提升9%)。然而,这一归一化过程也揭示了一个关键缺陷:模型对温度系数T的选择极其敏感,这在实际应用中可能带来较大的不确定性。

为了充分挖掘归一化的优点并有效避免其局限性,本文重点研究了如何动态调整参数T的设置。为此,我们首先进行了深入分析,全面掌握T在建议方案中的作用机理。随后,我们针对温度系数参数提出了一种动态调整的细粒度策略Adap-T,该策略具备以下四个关键特性:自适应性、个性化、高效性以及与模型无关性。通过系统性的实验研究全面评估了该方法的性能。

2 研究背景

2.1 损失函数

在训练推荐模型的过程中,损失函数的选择具有多样性。具体而言,包括 pointwise loss(如BCE、MSE)、pairwise loss(如BPR)以及 Softmax 损失。近期研究 [1] 表明,Softmax 损失能够有效缓解流行偏向,具有良好的训练稳定性,并与ndcg等衡量指标表现出一致性。此外,Softmax 损失可被视为常用BPR损失的扩展形式。因此,我们将 Softmax 作为分析的代表性损失进行公式化处理:

2.2 表征模长

本研究探讨了推荐系统中表征模长的性质。基于内积计算,我们将表征归一化作为预测目标。

我们注意到,我们未直接引入约束表征模长的惩罚项,而是借鉴了对比学习中的类似思路,并采用了经典的温度参数。这种对比有助于将我们的发现推广至其他领域。

3 表征模长理论分析

3.1 理论分析

引理一:采用内积作为用户与物品之间相似度的计算手段,能够得到物品表征模长在迭代过程中的以下结论:

该计算方式具有显著的提升作用。

数学公式:\|u_i\| \cdot \|v_j\| \cdot \cos\theta_{ij} = \sum_{k=1}^n u_{ik} v_{jk}

3.2 实验分析

3.2.1 实验设置

为了直观展示不同物品流行度对表征模长变化的影响,我们进行了以下实验:1)首先,我们通过可视化展示了不同物品流行度的表征模长变化趋势(图左上)。这里,我们参考了文献[1],根据物品的受欢迎程度将物品划分为十组,组ID越大,表示该组包含的热门物品越多;2)其次,我们详细报告了不同流行度物品组的性能表现(图右上)。同时,我们还对比分析了是否进行归一化处理(即是否控制表征模长)对正样本训练过程中的打分变化趋势(图左下);此外,我们还展示了不同归一化处理方式下模型训练过程中的收敛情况对比(图右下)。

3.2.2 实验分析

如果我们把关注点放在训练初期(图1左上部分),可以观察到流行物品的表征模长呈现出显著增长趋势,这与理论分析结果相吻合。由此可见,流行物品在模型评估中往往能获得更高的分数,这主要得益于表征模长的提升对模型预测性能所具有的促进作用。值得注意的是,表征模长的差异也对用户表征的训练产生了不利影响。用户表征的梯度可以写为:

流行物品的信号会对其他物品的贡献产生影响,从而导致模型陷入有偏见的预测结果。(如图右上)。可以看出,归一化模型的公平性优于未归一化的模型。

如果我们聚焦于预测分数的变化情况(图左下部分),我们发现,即使在训练过程中后期阶段(例如500次迭代),基于内积的MF预测分数和表征的模长仍然持续上升而非收敛,而性能持续下降(如图右下部分)。值得注意的是,一旦应用归一化处理后,我们发现模型收敛速度极快,并且在后续阶段始终保持稳定表现

为了进一步验证归一化的优势,我们进行了推荐性能测试,研究变量为用户或物品表征是否进行归一化(见下表)。通过对比分析,双侧归一化模型(即对用户和物品的表征均进行归一化处理,标记为 Y-Y)表现显著优于单侧归一化模型(即 Y-N 或 N-Y 标记的模型);此外,这些模型的性能也超过了未进行归一化处理的模型(标记为 N-N)。

3.3 归一化的缺陷

尽管上述理论与实验证明了归一化对于推荐系统性能具有显著的优势,然而,在我们的实际研究中发现,该方法存在一个明显的缺点,即对温度系数的选取极为敏感。为了验证这一点,我们对不同温度系数T的取值范围进行了测试,范围从0.02到1,步长为0.02。结果如图所示。纵坐标为相对最佳性能的效果,旨在满足不同数据集相互比较的目的。通过分析测试结果,我们得出了以下结论:

性能对 T 的敏感度极高。即使出现轻微波动(例如,亚马逊-Book 的指标从 0.08 升至 0.12),也会导致性能显著下降(例如,10% 的性能损失);

2)每个数据集对T的需求具有显著差异。

3.4 温度系数的意义

基于上文的了解,尽管归一化在推荐系统方面表现出明显优势,但其对温度系数的敏感性较高,这限制了其应用范围。因此,我们进一步探讨其性质特征。

3.4.1 避免梯度消失

3.4.2 难负样本挖掘

最近对比学习相关研究中发现,T的硬挖掘具有重要意义。在此基础上,我们借鉴了他们的思路,但在RS场景中进行了更为深入的分析。如前所述,较小的T会导致样本间差异性被显著放大。因此,具有较高f(u,i)的难负样本将显著提高p_ui值,从而对模型训练贡献更大。相反,较大的T通常会导致模型对所有负样本一视同仁。

此属性显著地促进我们为用户提供T值。值得注意的是,在典型的RS系统中,数据质量往往因用户的不同而有所差异。对于面对高度噪声化的反馈的用户而言,过于关注难以分类的样本是不理智的,因为这些样本很可能是噪声数据。然而,对于能够提供明确且充分反馈的用户而言,保持较低的T值将是一个更为合理的选择,因为这将有助于获取更多高质量的数据样本,从而提升模型的收敛性和判别能力。因此,单纯维持恒定的T值传统上不再是最优策略。相反,我们应当提供分层次的T值,以适应不同用户反馈强度的需求。

4 方法

为了解决这一问题,在本节中,我们提出了Adap-𝜏,该方法能够自适应地调整推荐系统中的表征模长。基于上述理论分析,我们旨在满足以下两个目标:

**自适应原则 :**温度系数应该是自适应的,以避免梯度消失;

细粒度原则: 温度系数应为用户个性化的,即用户的样本越难以区分,其应使用更大的温度系数,以确保模型在处理不同类别时具有更高的区分能力。

4.1 Adap-****:实现自适应温度

根据原则一,我们深入研究了使梯度值最大化的温度系数计算方式:

当下列条件成立时,梯度目标达到上限的最优值:

有了引理二的上界约束,我们进一步有:

当 ,它可以近似为:

4.2 Adap-𝜏**:实现自适应细粒度温度**

基于原则二,我们为每个用户设置个性化温度T_u,并借助Superloss(工作[3])机制来指导他们的学习。具体而言,Superloss的主要负责是根据每个用户的样本损失,动态调整温度值。它由一个损失感知项和一个正则化项组成:

根据 SuperLoss 特性,我们可以求解出其闭式解为:

5 实验

实验方面,我们主要是针对以下三个问题进行设计:

与其他策略相比,Adap-的表现如何?

我们的 Adap-是否适应不同的数据集和用户?

相较于当前最先进的模型,采用归一化表征和自适应机制的模型在准确性和效率方面表现出怎样的水平?

5.1 模型性能对比

通过实验结果表明,该模型策略在多个基准模型上实现了显著提升了性能水平,并且有效缓解了流行度偏差问题。

5.2 模型自适应性能

在本节中,我们通过我们的算法对"噪声数据"的鲁棒性进行测试。具体采用了两种方法来向数据集添加噪声:首先,根据用户的交互频率,以相同的比例增加了假正样本;其次,将用户群体划分为四组,依次以10%、20%、30%和40%的比例添加假正样本。

方案 1 侧重于在相同噪声比例的场景下,评估系统的自适应能力(即整体适应性),而方案 2 则专注于不同噪声比值中,用户间的性能差异(即局部适应性)。

基于全局自适应,我们提出的方法 Adap-𝜏 能够超越基于超参数网格搜索的方法。

在局部自适应机制中,我们统计了各个组别下𝜏值的分布情况。经图表分析可知,我们的策略在用户间实现了细粒度的调整。具体而言,当噪音比例降低时,温度系数值也随之降低;反之亦然。

5.3 与SOTA对比

在复杂的计算模型(用户-物品间的相互作用机制),因此我们基于一种估计方法进行近似计算。首先,我们为此提出一个满足此目标的上界:

通过对比分析,我们将模型与当前两年的最优模型进行了时间与性能的综合考量。从图中可以看出,本模型在时间与性能方面均能实现良好的平衡,在不增加时间复杂度的前提下,效果达到最佳水平。

6 总结

在本研究中,我们重点考察了推荐系统中的表征模长。通过理论分析和实证研究,我们突出了表征归一化的关键作用。我们进一步指出了仅进行归一化处理所存在的局限性。因此,我们提出了两个原则来指导自适应学习过程。实验结果表明,我们提出的方法在多个数据集上均表现出色。关键在于,我们的模型实现了自适应性与个性化结合,无需在不同数据集间反复搜索。

我们认识到,深入掌握归一化表征在推荐系统发展进程中的重要价值。在将来,我们对潜在应用的展望将有助于缓解协同过滤中的实际问题。我们希望将其扩展到其他领域,而不仅仅局限于推荐系统。

参考

WWW 2023 | 如何调节温度系数?用于推荐的自适应调节机制,通过调整表征模长来优化性能的方法

[1] Jiancan Wu, Xiang Wang, Xingyu Gao, Jiawei Chen, Hongcheng Fu, Tianyu Qiu, and Xiangnan He. 2022. On the Effectiveness of Sampled Softmax Loss for Item Recommendation. arXiv preprint arXiv:2201.02327 (2022).

[2] HenryWBlock and Zhaoben Fang. 1988. A multivariate generalization of Hoeffding’s inequality. The Annals of Probability (1988), 1803–1820.

Thibault Castells, Philippe Weinzaepfel, and Jerome Revaud introduced the SuperLoss method as a novel approach to enhancing the robustness of curriculum learning in 2020, providing a significant advancement in the field of machine learning research as documented in the NeurIPS proceedings.

全部评论 (0)

还没有任何评论哟~