Advertisement

论文学习笔记:Towards Personalized Privacy: User-Governed Data Contribution for Federated Recommendation

阅读量:

文章目录

  • 一、摘要

  • 二、相关工作分析

    • 2.1 集中式推荐
      • 2.2 联邦式推荐
  • 三、PROPOSED METHOD

      • 3.1 Problem建模
      • 3.2 CDCGNNFed
      • 3.3 图修复
      • 3.4 嵌入推断
      • 3.5 设备-服务器对比学习
      • 3.6 设备与服务器模型训练

一、ABSTRACT

在联邦推荐系统(FedRecs)中,默认的方法确实基于一致的隐私预算方案运行——即所有用户均不提交原始数据内容,并仅分享模型参数或梯度信息至服务器。

这种方案特别注重隐私保护,并且旨在确保敏感数据本地存储。然而,在这种统一的隐私预算方案中,并未考虑到用户在隐私偏好方面的多样性——并非每一个用户都对隐私有严格的需求;相反地,在某些情况下特定类型的数据是可以被共享的——其中一些用户愿意分享部分数据以获取更为精准的推荐结果。

本文深入研究了一种基于用户管理的数据贡献联合推荐架构,在这一系统中,用户可自主决定是否参与数据共享及参与的比例设置。

为了实现这一目标, 本研究构建了一种命名为 CDCGNNFed 的云设备协作图神经网络联合推荐系统. 该系统通过对比学习机制, 在本地完成以用户体验为中心的自建图构建, 并在云端采用协同策略进行基于共享数据构建复杂关系网络的过程.

此外,该系统还采用了图形修补方法来识别服务器端的断链信息,并有效利用了图形神经网络在处理复杂场景的能力。

具体而言,在如图 1 (a)所示的示例中

研究主要可划分为两大类:一类是基于矩阵分解方法开发的推荐系统(MF-FedRecs),另一类是基于图神经网络技术构建的推荐系统(GNN-FedRecs)。

相较于传统的矩阵分解方法,GNN能够更有效地捕捉复杂的关联性,并适应更加多样的推荐场景

在这里插入图片描述

图1(a):零隐私预算联邦推荐系统

然而,在综合环境下,每台设备仅具备一个一阶用户自我图这一核心特征,并且该图仅涵盖直接与之交互的项目内容。值得注意的是,在GNNFedRecs体系中未涉及用户邻域(如朋友间的互动记录)以及更为复杂的图结构数据。因此,在技术受限条件下如何有效处理这些高阶复杂图结构数据成为该算法体系面临的核心挑战。

现有联邦推荐系统的架构假定每位用户的隐私预算均为零, 这一假设导致这些用户无法向服务器传输任何数据, 这种做法在灵活性和吸引力方面均显不足, 主要原因包括:

在数据共享或处理过程中的活动设置的风险承受度则可定义为隐私预算

基于上述特点,GNNFedRecs 面临的核心挑战是:

如何研究复杂网络关系数据: 在现有条件下(即未实现设备间直接数据共享)的情况下,请提出一种有效的方法来建立与分析用户-物品间的复杂网络关系?

详细说明如何满足隐私保护标准: 在进行高阶图构建的过程中,严格保证用户的原始数据无法轻易获取、解密或反向推导。

为了解决这一问题,本文提出了一种基于用户数据管理机制的联合推荐架构(如图 1 (b)所示)。该架构允许用户根据自身意愿决定是否开放数据资源,并自主设定向服务器提交的数据占比。

在这里插入图片描述

图1(b):个性化隐私预算联邦推荐系统

该系统采用对比学习方法,在本地构建以用户体验为中心的自建图,并在云端协作训练基于共享数据的高级别关联网络。具体而言,在每一轮迭代中,默认会利用图像修复技术预测云端图像中缺失的关键连接。从而借助云端图像中的高级别关联网络能够处理复杂关系的能力。随后,在每一次迭代过程中,默认情况下设备端与云端端将分别自主推理并更新自身表示向量。

基于UGFed框架下开发出一种名为CDCGNNFed的云设备协同图神经网络联合推荐模型。该模型通过对比学习机制,在本地自建用户的自我认知交互关系图,并采用分布式协同策略在服务器端完成基于共享数据资源构建的高阶全局交互关系图的学习过程。

二、RELATED WORK

2.1Centralized Recommendation

推荐系统 [35] 已获得广泛的应用。它能够通过对用户行为数据进行建模,在服务器端生成全球最优的推荐方案。具体而言, 该系统可通过收集用户的行为数据进行建模, 并通过机器学习算法在服务器端生成最优的个性化服务方案, 如视频流媒体内容及商品销售信息等。主要可分为三种类型: 矩阵分解方法, 深度学习方法以及图神经网络方法。

基于矩阵分解技术(MF)的方法[15, 25]

主要依赖于深度神经网络的研究方法[6, 9, 35]

基于图神经网络(GNN)的方法[11, 32, 37, 44]

近年来取得显著进展的研究发现表明,在推荐系统领域中主要依赖于图神经网络的方法已经展现出卓越的性能表现

需要注意的是,在现有方法中存在一种普遍采用的集中式架构模式。具体而言,这种方法通常需要对用户的各项属性信息进行采集,然后将这些信息整合起来用于模型的训练工作。这种基于统一平台的数据收集方式可能会带来一定的隐私问题,因为它会导致用户的各项历史行为信息被集中采集并加以利用,从而存在潜在的数据泄露风险

2.2Federated Recommendation

基于联邦学习在保障机器学习隐私方面的显著成效源自这一创新思路,FedRecs(联邦推荐系统)[28, 36, 38–41, 45] 被引入至推荐系统领域。该方法通过使云端与设备协同进行模型训练,避免了实际数据共享的过程,从而有效地保护了用户的隐私信息。具体而言,关于 FedRecs 的研究可以从以下几个方面展开:一方面关注其在不同应用场景下的适应性;另一方面则聚焦于其在资源分配和安全性方面的优化提升。

该联邦推荐系统基于矩阵分解技术(MF-FedRecs)[1,4,19]。该系统通过在不同设备上分布的一阶本地用户-物品交互矩阵协同训练来生成全局物品嵌入表(item embedding table)。该方法继承了传统矩阵分解方法的优点,在分布式环境中高效提取出用户的潜在特征以及物品的潜在特征。

2.基于图神经网络的联邦推荐系统(GNN-FedRecs) [20, 21, 30].

这种分布式训练方案在整合用户分散数据的同时能够充分整合并处理这些分布化的数据资源,并且明显减少数据泄露风险为隐私保护型的推荐系统提供了一种全新的训练方法

例如,在协同过滤技术的基础上,Few-Fewer [1] 拓展至联邦学习框架中,并提出了基于交替最小二乘法(Alternating Least Squares, ALS)与随机梯度下降法(Stochastic Gradient Descent, SGD)的联合优化方法。该方法通过在客户端设备和服务器端分别优化用户与物品的嵌入向量,从而在分布式系统中实现了高效的推荐性能。

同时,在这一领域中基于图神经网络(GNN)的推荐系统[32]近期展现出显著的研究成果。其主要原因在于相较于矩阵分解方法而言,GNN能够更有效地捕获图结构中的高阶信息。例如FedGNN算法[30]提出了一种通过构建可信第三方服务器来生成高阶图的方法,在保证隐私保护的前提下实现了用户与物品嵌入表示的学习过程。这种方法不仅有效解决了数据隐私问题,并进一步发挥了图神经网络在复杂结构信息处理方面的优势从而显著提升了推荐系统的性能。

尽管目前联邦推荐系统(FedRecs)在隐私保护推荐领域获得了广泛关注,在用户主导数据贡献的联邦推荐背景下相关研究仍停留在初期阶段。与我们工作的相似性体现在一项名为FedeRank[2]的研究中该方法同样提供了对上传数据占比进行自主掌控的能力

然而与我们方法的主要区别在于Fede Rank的所有用户的数据显示存储于本地并仅能决定与训练样本相关的梯度上传比例也就是说 Fede Rank基于用户的自主决策上传梯度数量以确保数据隐私的同时优化模型训练而我们的方法可能在数据贡献的方式策略上有所不同更加注重用户数据贡献过程中灵活性和实用性的结合

三、PROPOSED METHOD

3.1Problem formulation

U:用户集
I:物品集

X∈R∣U∣×∣I∣:用户-物品交互矩阵
Xui=1:用户u和物品i有交互
Xui=0:没有交互

该嵌入式推荐模型表示为f(Θ),其中Θ代表模型参数。 该模型旨在将用户与物品嵌入到同一个空间中,并通过函数实现这一目标。

P:用户嵌入矩阵,维度∣U∣×d
Q:物品嵌入矩阵,维度为 ∣I∣×d
d:嵌入维度

在传统的联邦学习框架下,在每个本地端设备上存储与用户特定信息相对应的所有交互记录Xu∈R | I | ,以确保在数据共享过程中保护用户隐私。

此外,在线服务系统中的每个设备u都会负责维护它所管理的本地化模型。该本地化模型由一系列特定的局部分布组成,并包含以下几大类核心组件:首先是有模型参数Θ u来定义系统的全局行为特征;其次是由用户的低维向量表示pu属于 Rd空间来刻画用户的个性化偏好信息;最后则是一个项目的高维向量矩阵Qu属于 R^{|I|}×d空间来反映项目的复杂属性特征。

在一轮训练过程中,在其本地环境中进行模型的参数更新之前,请确保该过程能够顺利执行。为此,在每个计算节点上都必须具备相应的计算资源支持,并且确保该过程能够顺利执行。

每个本地设备一般性地通过上传预训练的参数集合Θ u及其对应的梯度∂θ_u和∇q_u的方式与服务器进行通信。

该服务器将利用收集到的参数和梯度通过聚合函数进行训练,并引用 Fed Avg [22 ] 方法;随后重新分配该全局模型至各个设备。

尽管协同推荐系统通过将用户的全部数据本地存储以确保隐私(即这些用户不会向服务器发送任何数据),但该方法假定所有用户的隐私预算相同(意味着他们都不愿分享任何信息),从而忽视了那些对隐私较为宽松的用户群体(标记为U+),这些用户不仅愿意提供全部或部分数据以获得更精准的个性化推荐服务

为了解决这一问题, 本文致力于探索一种更具灵活性的联邦推荐架构, 称为用户自主的数据贡献联邦推荐系统(U GFedRec), 其中参与者可以根据自己的意愿决定是否分享数据以及向服务器提交数据的比例。

具体而言,在UGFedRec与传统FedRec之间存在着核心区别在于:每个用户都可以自主决定是否上传全部数据、部分数据或者没有数据到服务器上。因此,在这种情况下,服务器同样能够基于用户的自行决定参与模型训练过程。最后,在这种架构下(UGFed Rec),其主要目标是旨在最小化以下损失函数L:

在这里插入图片描述

Lu:每个用户设备上的本地损失函数
Ls服务器上的全局损失函数

3.2CDCGNNFed

目标:开发一个更具弹性和个性化的设计方案,以满足用户根据自身需求自由选择数据共享模式的需求。通过图神经网络(GNN)来分析用户与物品之间的复杂互动模式,并进一步优化推荐算法的效率

2.步骤:
2.1每位用户有权自行选择是否分享全部数据、部分数据或根本不分享任何数据。
2.2在每一轮训练中,系统会随机抽取一组设备用于当前轮次的学习任务。
2.3服务器负责随机选取参与训练的一组设备。
2.4通过嵌入推断技术得到的结果将被用来进行后续对比学习过程。

每个被选中的各个设备在本地数据上分别单独训练各自的模型。服务器根据上传的数据以及修复后的图结构来独立地训练全局模型。

2.6设备将模型参数或梯度传输至服务器端。基于标准化的联邦学习聚合机制(例如FedAvg算法)计算出全局模型参数并将其发送回各设备节点,并开始新一轮的训练循环。

3.3Graph mending

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.4Embedding inference

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5Device-server constrastive learning

(1) 全隐私保护的数据共享假设:这些用户的隐私重视程度较高。
操作过程:
本地生成各自用户的表示向量。
云端平台将所有参与方的表示向量分发至相关设备。
用于构建更高效的对比学习框架。
优势:
通过共享表示向量能显著提升全局模型的效果。
有助于提升整体对比学习效果。

(2) 共享数据参与者的假设前提:这些用户的隐私保护意识处于中等水平。
操作流程:

  1. 本地设备上生成用户的特征向量。
  2. 将生成的特征向量发送至云端服务器。
  3. 云端平台不向下级设备传输该用户的特征向量。
  4. 仅用于云端平台自身的模型训练阶段。
    优势:
    通过这一机制,在保障个人隐私的同时有助于提高整体系统的性能水平。
    局限性:
    因受限于本地存储和传输能力,在实现分布式对比学习时可能会导致对比学习机制的有效性下降。

(3) 不共享数据的用户假设:这些用户的隐私保护意识最强。
操作:本地设备独立完成用户的特征提取过程。该过程完全私密性得到充分保障,并且不会向云端发送数据或与其他设备交互。
优势显着:通过私密性优化显著提升安全性。
限制:由于未参与全局模型的参数更新这一特点,在一定程度上可能会影响整体性能表现受限

该段详细阐述了基于对比学习框架下的InfoNCE损失函数及其应用,并探讨了通过融合设备端与服务器端的嵌入表示来提升用户-物品嵌入优化的效果。以下是对该内容的详细解析:

在用户 u 的情况下,在设备端嵌入 eu−d 和服务器端嵌入 eu−s 被视为正样本对。这些情况表明设备端的局部视图与服务器端的全局视图之间应当存在相似性。形式化地表示为:{(eu−d,eu−s) ∣ u ∈ U+}

negative sample pairs: For any user u and another user v ≠ u, (eu−d, ev−s) can be considered as negative sample pairs. This implies that the views of different users should be discriminative. Formally, they can be expressed as {(eu−d, ev−s) | u, v ∈ U+, u ≠ v}}

简单来说:本地和服务器的构成正样本对
和其他用户构成负样本对

类似地,可以定义物品嵌入的对比学习损失:LCLitem

最终的对比学习目标函数结合了用户和物品嵌入的对比学习损失

在这里插入图片描述

3.6 Device and server model training

对于那些拒绝将数据发送至服务器的用户而言, 其训练过程全部由本地设备的数据完成

该损失函数基于BPR原理旨在通过优化推荐排序来区分用户的偏好与其已互动过的商品在向量空间中的表示具有较高的相似性;而对那些未被用户互动的商品则要求其向量表示间的相似性较低。公式如(7)所示

在这里插入图片描述

对于选择性地上传部分或全部数据的用户而言,在服务器端进行训练时整合了BPR损失与对比学习损失

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~