LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏

阅读量：

LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏

《基于图结构感知的对比型知识蒸馏方法用于推荐系统中的逐步学习》 2021

是由 Yuening Wang、Yingxue Zhang 和 Mark Coates 分别担任的主要贡献者；论文地址：https://dl.acm.org/doi/10.1145/3459637.3482117

摘要

随着在线服务的快速发展，个性化推荐系统扮演着越来越关键的角色。基于图神经网络（Graph Neural Network, GNN）的推荐模型由于能够有效捕捉图中复杂的关联信息，在建模用户兴趣方面展现了显著的优势。然而，在海量数据不断增长的情况下以及高计算复杂度带来的挑战下，在更新模型以获取最新推荐方面存在诸多困难。已有研究致力于探索如何通过增量式训练的方式提升GNN模型的效率。其中一种关键技术是知识蒸馏技术，其目标是在允许模型持续更新的同时保留从历史数据中获得的关键经验。在本研究中

1、引言

面对海量信息涌入，在满足用户多维度兴趣需求方面

因为GNN模型中存在独特的相互关联信息，在图数据处理领域已有多次尝试设计专门针对图结构数据的增量学习方法。LSP团队开发了一个局部结构保持模块，在明确地保持教师模型拓扑语义的同时实现了显式的拓扑语义表达机制。近期提出了一种基于GNN的推荐系统增量学习框架——GraphSAIL系统，在该框架下教师与学生网络之间的知识传递过程能够同时捕捉节点间的局部关系及其全局分布特征。该方法通过精确匹配教师与学生网络各自的分布特征来实现知识的有效传递与共享。然而，在知识蒸馏过程中难以捕捉输出维度间的相关性以及高阶依赖关系这一缺陷使得传统的蒸馏技术存在明显的局限性：它无法充分反映复杂的知识映射关系以及多维度的信息联系特征；此外还未能有效避免知识溢出现象的发生：在特定场景下容易导致过拟合风险及性能退化问题因此需要进一步研究改进方案以提升蒸馏算法的整体性能表现

在本研究中,我们创新性地融合了图结构特征,提出了一个新的对比知识蒸馏目标,旨在优化推荐系统中的增量学习过程.通过分析图数据中的关键特征,并结合特定的设计理念,为基于图的知识表示模型构建了一个自适应的学习框架.为了实现多层次特征的有效融合,我们开发了一种多尺度特征提取机制,能够精准识别不同层次的空间关系.在此基础上,我们将传统的对比蒸馏方法与中间层蒸馏技术相结合,引入层次化监督信号.此外,为了全面捕捉复杂的关系网络,我们进一步整合来自不同领域（如用户-用户和项目-项目）的信息.在多个基准数据集上的实验结果表明,我们的新方法显著提升了两个广受欢迎的基础神经网络模型（如Pin SAGE和Multi-GCCF）的表现能力.与现有方法相比,实验数据显示平均提升了5%至10%的整体性能指标.

2、相关工作

基于图的推荐系统

在推荐系统领域中，默认情况下图被用作建模复杂关系信息的主要工具。传统的模型通常在用户-项目交互图上运用随机游走算法来评估每对用户的相似度得分。随着新兴的图表示学习领域的崛起，在基于知识网络架构的方法中引入了更强大的能力以捕捉复杂关系特征以及多模态数据特征之间的相互作用机制。Pin SAGE基于项目-项目图上的平均聚合型GNN模型来刻画Pins与董事会间的相似性。通过引入知识图谱技术以拓展项目的关联网络从而提升表达能力。Multi-GCCF模型则利用GNNs不仅能够从用户的邻居节点出发进行分析还能分别从用户的社交网络和兴趣网络中提取特征进而实现更加全面的知识表达

面向增量学习的知识蒸馏

知识蒸馏的概念最初被提出，在复杂大教师模型间通过匹配输出的logits进行转换，并将这些转换应用于一个复杂的大教师模型以生成更小的学生模型。这一过程有助于降低计算成本。随后的研究致力于提升其迁移能力并探索其实现不同领域中的应用。其中一项有趣的应用就是利用知识蒸馏来解决增量训练中出现的灾难性遗忘问题。最近的研究则专注于针对GNN设计的增量学习挑战，并提出了结合数据重放与模型正则化的邻域模式合并方法以提高性能。文献[34]提出了结合数据重放与模型正则化的邻域模式合并方法以提高性能。文献[34]提出了结合数据重放与模型正则化的邻域模式合并方法以提高性能. Graph SAIL提供了一个基于GNN的知识增量学习框架作为第一个实例展示了这种技术的应用潜力.它通过将结构信息提取为分布并最小化教师与学生之间的距离实现了对每个节点局部及全局结构的有效保留从而实现了结构感知的知识迁移

3、研究方法

在本节中, 我们阐述了所提出的方法, 其中一种是基于结构感知的对比蒸馏技术（简称CPD）, 另一种则是逐层蒸馏技术（简称SST）。

3.1 结构敏感的对比蒸馏

在vanilla KD [ 10 ]及其变体中，最终目标ψ假设输出维数是独立的：

优化目标：教师网络与学生网络之间的概率输出KL散度或嵌入均方误差的最小化忽略了教师网络中重要的结构性知识信息。近年来针对CV领域中的模型压缩及跨领域迁移任务研究中提出了一个新的对比蒸馏表示公式。为此我们引入了一种创新的对比蒸馏目标以更好地保持模型参数的同时还能有效维持教师模型与学生模型之间的关系信息其中教师模型是基于历史数据进行训练而学生模型则是基于新知识进行学习的

对比蒸馏的目标旨在通过最大化教师与学生表征间互信息的下界来优化模型性能。具体而言，在对比蒸馏过程中，教师模型促使相似输入（正对）在潜在空间中具有相近的表示特征；而不同输入（负对）则被推离至较远的空间区域。为了使传统的对比蒸馏方法更适合于基于图的知识推荐系统设计需求，在构建正对关系时我们采用了以下方法：首先结合学生模型在当前时间点t生成的内容表示；其次结合教师模型在前一时间点t-1提取的知识图谱一阶邻居节点信息来构建正对关系。同时，在构建负样本时采用随机策略从教师模型未参与当前节点知识提取的所有节点中选取。对于每个用户节点来说，在其关联的知识项目集合上均设置了相同数量的相关与不相关知识项作为学习数据集中的正反样本实例集，并在此基础上定义了基于图结构感知的信息瓶颈损失函数作为优化目标

其中ht(u,0)代表节点u在时间t处的嵌入表示，
U表示所有用户的集合，
N_{t-1}(u)表示在用户与物品交互图中，在时间t−1时点上与u相连的所有邻居。
这一邻域集为模型提供了正向学习样本数据。
D_{t}(u)则包含了从时间起点到当前时刻t为止生成的所有关于u用户的正负样本数据集合（并集）。
其中τ是一个用于调节模型浓度平衡参数的关键温度变量。

在推荐系统中，在构建用户与项目之间额外关系的有效性已被证实的基础上，在施加更为严格的协同信号机制下可以获得更为精确的嵌入表示。这一发现促使我们致力于开发一个辅助对比学习目标，在这一目标指导下我们将用户的用户相似度图以及项目的项目相似度图中的邻近信息进行有效传递。具体而言，在这种框架下我们采用了与原始用户-项目关系图相同的正负样本构建策略，并且相应的数学表达式也在此基础上进行了相应推导。后续我们将详细阐述整个模型的具体实现过程

3.2 层状结构感知的对比蒸馏

中间层精馏

通过将教师网络嵌入至学生网络的中间层进行监督学习, 可以显著提升目标网络对源域知识的学习能力, 并使目标网络在保持自身特性的同时实现更好的泛化能力. 此外, 中间层特征的有效提取有助于进一步优化目标网络的表现. 此前的研究表明, 在教师与学生网络层数存在不匹配的情况下, 则可采用均方误差损失函数从中间层或其组合中提取特征.

逐层结构感知的对比蒸馏

我们的最终模型设计采用了层次蒸馏（允许多个感受野区域的特征提取，并基于图的空间尺度得以保持）以及对比目标的优势，并致力于通过最大幅度的知识转移使教师模型向学生模型转移。其整体架构如图1所示。其分层结构感知的目标用于对比蒸馏被明确定义为：

其中 ht(u), k 表示节点 u 在时间点 t 处的嵌入向量。\n\n在物品−物品相似度图中定义了邻居集 N_{t-1}^{II}(i)，其代表了在时间点 t-1 处与用户 i 连接的所有物品。\n\n同时，在用户的−用户的相似度图中定义了邻居集 N_{t-1}^{UU}(u)，其包含了在时间点 t-1 处与该用户相关联的所有其他用户的索引。\n\n这两个邻居集共同构成了对比目标的正样本集合

4、实验

4.1 数据集

为了评估我们框架的有效性，我们将其应用于以下数据集：

( 1 ) Gowalla是一个从用户签到历史中收集的真实世界数据集；

( 2 ) 该真实数据集源自Yelp移动应用提供的真实信息资源库。为了训练模型,我们采用了过去五年的数据分析作为训练样本集

( 3 )淘宝网所收集的2014年度数据构成一个真实的样本库,包含了2014年阿里巴巴移动商务平台上的用户的购买行为数据分析

这些数据集合之间呈现出显著差异。为了模仿真实世界中的增量学习场景 ，我们将所有数据集依据统一的时间基准进行拆分。遵循相关指南，在去除非必要行为的同时去除少于十条记录的行为节点。经过上述处理后生成的数据统计结果展示在表2中。

表2 ：评价数据集统计。

4.2 培训与评估

我们按照时间顺序将数据划分为60%的基本块与4个10%的增量块，并对这些基块进行随机分割以形成训练集、验证集和测试集。具体而言，在模拟真实场景时，我们采用block t作为训练集，并将block t + 1的一半用于验证过程、另一半用于测试过程。Recall@20是评估结果的重要指标，在测试集中针对项目偏好进行计算，并表示在前20个项目中积极项目的占比比例。通过计算所有连续块Recall@20的平均值来综合评估性能。

基模型

我们在两个广为人知的基于GNN的推荐模型——Pin Sage和MGCCF上测试了我们提出的增量学习框架的表现。该框架在GraphSAIL实验中使用了与之相同的基模型。

基线

为了解决本文方法的有效性问题, 我们将该方法与 Graph SAIL 中采用的类似基准进行对比, 并包含以下几点内容.

1 ) Fine-Tune

2 ) LSP _ s

3 ) Graph SAIL

我们引入了一个简单的蓄水池采样基线 ，通过从蓄水池中抽取旧数据的5%子集来实现长时记忆的稳定保持，并确保该策略在各关键指标上达到一致性和可靠性。

4.3 与基线的比较

**
表格1：我们所提出的模型与现有基线方法之间的总体性能进行了对比分析。实验结果基于3次重复实验的平均值计算得出，并且相对于微调后的基准模型而言，在测试集上的性能表现得到了显著提升。

从表1中，我们可以做出以下观察：

在基于Recall@20的评估指标来看, 我们的框架不仅在各个基准模型上表现优异, 在多个数据集上的效果也超越了基于微调的传统方法。具体而言, 在Gowalla基准模型下,MGCCF相较于其相比, 实现了较大地提升幅度; 同样地, Pin Sage相较于Gowalla也实现了显著的性能增长。值得注意的是, 在Yelp数据集上,MGCCF与PinSage分别实现了较大地提升幅度; 而在同一'淘宝网2014'数据集中,MGCCF与PinSage的表现进一步得到了显著增强, 分别提升了约20%至以上水平

我们开发出的模型超越了现有的所有方法，在这一发现的基础上表明该框架适用于多种基于图的不同推荐系统中进行应用。值得注意的是，在这一研究过程中存在唯一例外案例是以 PinSage 为基础模型在淘宝2014年的实验中表现出来的数据特征。尽管如此，在这项特定情况下我们开发出的模型所展现出来的性能与 LSP _ s 方法的最佳结果相差无几，并且采用知识蒸馏技术的所有方法均展现出相近的训练效率。

4.4 消融研究

我们研究了所有提出的模型组件的有效性。我们将我们的方法与：

1 )逐层使用具有L2损失的逐层结构感知蒸馏；

通过对比蒸馏方法对各个节点进行嵌入学习，在每个节点的嵌入上使用对比蒸馏；其中以单个用户-项目二分图构建正样本数据。

3 ) 在每个节点生成的嵌入表示上应用对比学习机制后,MGCT通过构建多种（用户-项目、用户-用户和项目-项目）关系图来生成正样本集合

GraphSAIL - local被提出作为基准局部结构蒸馏技术，并旨在通过对比分析验证其有效性

表3：本研究采用MGCCF基础模型对不同组分进行消融分析。其中Average Boost相当于基于GraphSAIL - local蒸馏的优化版本。

如表3所示，在结合所有组件的最终模型中，在所有三个数据集上均表现出了最佳的平均召回率@ 20；此外，在与GraphSAIL - local对比中发现，在各个方法中均显著优于后者的情况；这些结果证实了每个组件均为关键组成部分。

5、结论

在本研究中，我们引入了一种基于图的推荐系统的增量学习方法，在该框架下采用了逐层对比蒸馏技术以实现多模态信息融合。其中所采用的对比蒸馏技术旨在支持多模态图结构并提升模型鲁棒性。通过对两个不同的GNN模型架构以及三个典型数据集进行系统性实验分析，并通过对比实验结果表明，在性能指标上所提出的改进方案显著优于现有基准方法

全部评论 (0)

还没有任何评论哟~

LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏

LWCKD：图结构感知的推荐系统增量学习对比知识蒸馏《GraphStructureAwareContrastiveKnowledgeDistillationforIncrementalLearnin...

结合知识蒸馏的增量学习方法总结

结合知识蒸馏的增量学习方法总结知识蒸馏（KnowledgeDistillation）最早是在Hinton的《DistillingtheKnowledgeinaNeuralNetwork》一文中提出，...

【KD】知识蒸馏与迁移学习的不同

知识蒸馏与迁移学习的不同 1数据域不同. 知识蒸馏中的知识通常是在同一个目标数据集上进行迁移，而迁移学习中的知识往往是在不同目标的数据集上进行转移. 2网络结构不同. 知识蒸馏的两个网络可以是同构或者...

知识蒸馏系列（二）：知识蒸馏的迁移学习应用

知识蒸馏系列文章继续更新啦！在上一篇文章中，我们介绍了三类基础知识蒸馏算法，今天我们一起来学习知识蒸馏的迁移学习应用。 1\.前言 1.1迁移学习定义及分类迁移学习任务旨在将源域（sourcedom...

WWW2024 | PromptMM:Prompt-Tuning增强的知识蒸馏助力多模态推荐系统

论文：https://arxiv.org/html/2402.17188v1 代码：https://github.com/HKUDS/PromptMM 研究动机多模态推荐系统极大的便利了人们的生活,...

增量学习-音频检测（ASD）-知识蒸馏

一、增量学习增量学习（IncrementalLearning）是一种机器学习方法，它允许系统在接收到新数据时持续改进自身的模型，而无需重新训练整个模型。这种方法对于需要不断更新模型以适应新情况或新数...

大模型在推荐系统中的知识蒸馏应用

1.1大模型与推荐系统的概念 1.1.1大模型概述大模型，顾名思义，是指那些拥有大量参数、具备高度表达能力的深度学习模型。这些模型通过训练能够从大量的数据中学习到复杂、抽象的特征，并在各种任务中展现...

【KD应用】2021 CIKM 微信-强化学习推荐模型的知识蒸馏探索之路

目录导语模型背景与简介具体模型 ▍2.1模型基本概念 ▍2.3老师/学生模块 ▍2.4探索/过滤模块 ▍2.5基于置信度的蒸馏模块实验结果总结参考文献本文基于论文《Explore,Fil...

知识蒸馏系列：蒸馏算法【标准蒸馏、DML蒸馏（互学习蒸馏）、CML蒸馏（协同互学习蒸馏）、U-DML蒸馏（统一互学习蒸馏）】

知识蒸馏（KnowledgeDistillation，简记为KD）是一种经典的模型压缩方法，核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型（或多模型的ensemble），在不...

图解深度学习 - 数据蒸馏和知识蒸馏

深度学习模型就像是处理数据的筛子，包含一系列越来越精细的数据过滤器（也就是层）。每一层都致力于从数据中捕捉有用的信息，并将这些信息传递给下一层，以便进一步的处理和表示。

是否确定退出登录?

LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏