Advertisement

论文学习笔记:Privacy-preserving Cross-domain Recommendation with Federated Graph Learning

阅读量:

文章目录

  • 一、ABSTRACT

    • 二、INTRODUCTION
    • 三、PROBLEM FORMULATION
    • 四、METHODOLOGY
      • 4.1 Overview
      • 4.2 Private Information Update within a Single Domain: Modeling Local and Global Information Transfer
        • 4.2.1 The Transfer of Local and Global Information Modeling
        • 4.2.2 Message Propagation Mechanisms on a Domain-specific Interaction Graph: Message Propagation Principles
        • 4.2.3 A Learning Approach Using Local User-Item Interaction Data
  • 4.3 多域联邦更新机制

      • 4.3.1 隐私保护偏好共享机制
      • 4.3.2 个性化聚合策略用于异质数据融合
  • 4.4 Communication Optimization Technique

      • 4.4.1 Regular Synchronisation Schedule
      • 4.4.2 Transmission Overhead Analysis
  • 五、Algorithm Analysis

    • Privacy Protection Analysis.
    • Algorithm Complexity Analysis.
    • Limitations in Scenario Setup.
    • Domain Quantity Limitations.

一、Abstrct

随着人们不可避免地涉及多个领域、各种平台以及各种物品进行交互,在跨领域推荐(Cross-domain Recommendation, CDR)这一技术正受到广泛关注。然而,在数据快速发展的背景下产生了日益严重的隐私问题限制了现有CDR模型的实际应用原因在于现有CDR模型在设计时通常假设不同领域的全部或部分数据是完全可访问的

最近的研究在隐私感知CDR模型方面忽视了来自多个领域的异构性数据,在跨领域推荐系统中受限于这一局限性而无法实现一致性的改进;即使能够有效实现CDR过程本身仍面临着保护隐私的巨大挑战。

在本文中, 我们提出了一个创新方案(命名为PPCDR), 旨在通过整合多源数据获取用户偏好, 并且保证了各领域推荐效果不受隐私泄露影响.

PPCDR的核心理念是通过构建模型来描述,并且能够有效地捕捉并描述了用户在交互项目中的全局偏好与特定领域内的局部偏好之间的关系。

二、INTRODUCTION

典型的跨域推荐(CDR)方法主要基于重叠用户或物品的共享,在不同领域之间形成联系,并且在多个领域间实现信息传播的同时促进知识共享。

例如,在实际应用中

码本传递(Codebook Transfer):该方法通过生成类似于一种特征库的编码表,在跨领域间传播通用特性,并使源领域的知识对应于目的领域中的特征空间以提升推荐效果。

跨域图传递(Cross-Domain Graph Transfer):通过构建一系列的图网络模型,在不同领域的节点间建立对应关系以促进信息流通与知识共享。具体而言,在每个领域内分别构建相应的图结构模型,并在此基础上实现跨领域的特征映射与数据共享机制。

当一个用户在其社交平台上关注若干时尚博主时,在这些社交平台上相关的品牌推荐信息能够辅助我们预测该用户的购物偏好。这种基于社交网络的推荐机制不仅能够捕捉到用户的兴趣导向与行为模式关联性特征,在实际应用中还能够显著提升用户体验与商业价值。

尽管现有的跨域推荐(CDR)方法表现出显著成效, 但它们通常基于一个较强的前提条件, 即不同领域间能够收集全部或部分用户的物品交互数据. 然而, 由于商业竞争与隐私保护等因素的影响, 这一前提条件在现实中往往难以实现.

上述隐私及安全问题严重影响着高敏感数据(如交互数据)在不同领域的存储与共享;进而导致跨域推荐(CDR)模型的实际应用受限。因此 imperative to develop a privacy-preserving cross-domain recommendation method, so as to achieve a balance between privacy protection requirements and the quality of cross-domain recommendations. Although existing research has proposed privacy-aware cross-domain recommendation models, these approaches either overlook the heterogeneity of multi-dimensional data or fail to achieve consistent performance improvements across ordinary users and cold-start users.

鉴于此,仍然有必要开发一种既能保护隐私又能提高推荐质量的跨域推荐方法,以满足实际应用需求

基于联邦学习在数据隐私与安全领域的显著进展而受到启发, 我们提出一种方法旨在提升跨领域推荐系统中的Privacy Protection Ability; 通过限定各领域间的数据交互仅限于本地范围来实现这一目标. 我们要求各参与方之间的交互数据仅限于本地范围内进行处理以确保其私密性.

一个核心挑战在于不同领域之间的交互式数据呈现不一致结构化且受敏感性限制无法自由访问,在这种情况下我们需要探索如何将分散的信息进行整合以及如何使特定领域能够适应新信息

基于跨领域共享的用户群体CDR配置方案设计中发现:本地交互数据仅限于私有域空间内进行调用与处理

在我们的PPCDR方法中

而本地偏好与全局偏好保持一致(收集和输入相关信息),利用该领域的内部分析其特定的偏好。采用这种基于全局-本地的建模模式不仅可以显著提升单个领域内的推荐效果,并能有效保护数据隐私。

在这里插入图片描述

具体而言,在每个领域中,我们通过引入相应的链接将全球与本地用户节点(分别对应于全球与本地用户的偏好)与特定领域的用户-项目交互图搭建起来,并开发了一种基于GNNs的联合图学习方法。

在进行推荐时以隐私保护的方式学习跨领域知识 PPDC 算法中的每一次训练循环包含一个本地域内的私有更新过程以及跨多个领域的联合更新环节

我们为各个领域开发了一个消息传递模块来实现双向的消息传递和传播过程,在各个领域中开发了一个GNN(图神经网络)的消息传递机制能够有效整合全局与本地用户的偏好设置,并从中提取潜在的协作信息。随后,在联合更新阶段中,在基于全局用户的偏好设置上采用隐私保护机制(即局部差分隐私),以增强整体系统的隐私安全性,并将处理结果与其他领域分享以完成整体协调

同时,在各个领域中都会获取来自其他领域的全局用户偏好信息,并根据个性化的聚合策略对这些信息进行局部处理或更新以适应特定领域的需求。借助这种机制,PPCDR能够有效地近似实现一种在保护隐私的前提下直接共享各领域间局部交互数据来进行多领域训练的目的。

此外我们开发出一种定时同步机制用于减少跨域全局偏好维护所需的通信成本

三、PROBLEM FORMULATION

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、 METHODOLOGY

在这里插入图片描述

图表2展示了PPCDR的整体结构。基于去中心化的联邦学习框架,在PPCDR中实现了图形迁移模块的功能性整合。该系统通过个性化聚合策略及本地差分隐私(LDP)手段来更新跨域的全局用户偏好,并从而实现特定领域的需求自适应与隐私保护

4.1Overview

如图2所示的是PPCDR的整体结构。基于假设领域数据存于本地的前提上采用去中心化的联邦学习框架,在保护隐私的前提下整合跨领域的知识进行推荐。

在每个领域内,我们不仅创建了全局用户节点和本地用户节点,并且分别对这两类节点建立了全局偏好设置和本地偏好模型。

两种用户的偏好关系主要依赖于全局的用户节点结构。其中,在本地用户的偏好学习中主要利用的是域内的数据信息,在这种情况下其特征表现得更为明显;而全球性的特征则是在多个领域间协同进化完成的。

基于特殊构建的用户-项目图Gd上开发了一种基于图神经网络(GNN)的方法;该方法不仅能够学习全局和本地用户的偏好特征,并且能够捕捉这些偏好之间的关联性。在PPCDR每次学习迭代过程中,“我们既考虑了每个局部域内的私有更新过程”,又考虑了跨多个域的全球联邦更新过程

在隐私更新阶段,在各个领域中的每个区域我们均会根据该区域内部的数据动态构建并维护全球用户偏好数据库以及该区域特有的本地用户偏好模型。在此基础上,在跨域联合更新阶段,在各个领域中我们采用本地差分隐私技术对提取出的全局偏好信息进行加密处理以确保其私密性,并将这些经过加密处理后的全局信息与其他领域进行交互整合。

在更新过程中,在各个领域中都会获得来自其他领域的全局用户偏好数据;这些数据则是通过各个领域内部特有的更新机制所收集并共享出来的。

随后,在接收到所有用户的全局偏好后, 我们设计出一种个性化的聚合策略, 并对其在特定领域进行相应的优化调整

此外, 我们还开发出一种定期同步方案, 用于减少共享全局用户倾向所导致的通信成本

4.2Private Update within Single Domain

在本节中, 我们将阐述每个独立领域内的私有更新流程. 其核心理念是通过整合全局与本地用户偏好, 并基于内部数据进行优化, 以获取特定领域的知识.

4.2.1Modeling Local–Global Information Transfer

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其中 h'(l)u 和 h(l+1)\tilde{u} 是两种不同的表征形式。需要注意的是,在信息传播过程中,本地用户的表征 h'(l)_u 会经历进一步的更新,并被用来作为第 (l + 1) 层的输入数据

公式(1)中的局部-全局传递函数f定义为

在这里插入图片描述

其中,Nu 表示用户 u 在图 Gd 中的邻居,fT(h(l) u ̃ , h(l )u | β2)可以用类似方法计算。

在当前研究中,在我们的研究工作中采用了两种方法来控制信息传递:使用超参数(其中等式(2)的第一个部分)以及利用链接结构(其中等式(2)的第二个部分)。

在第二步中,在一个领域内与之互动的项目数量越少的情况下,则应从全局表征中获取更多相关信息,并以此为基础帮助构建用户的偏好模型。

4.2.2Message Propagation on Domain-specific Interaction Graph

在本地与全局信息交互完成之后,我们通过标准的信息传播机制来捕获交互图 Gd 中的高级连接模式。

在这里插入图片描述

遵循 LightGCN [21] 所介绍的方法,在传播操作中忽略了转换矩阵以及非线性激活函数的基础上构建了一个轻量级的 GNN 模型。这可通过数学表达式表示

在这里插入图片描述

h(l+1)u:第l+1层用户嵌入
h(l+1)i:第l+1层物品嵌入

Ni 表示项目 i 在图 Gd 中的邻居,
项目表示 h(0) i 由可学习嵌入 ei∈Rm 初始化。

由于我们在交互图中引入了一个虚拟化的全球用户节点,在这一操作下也增强了全局与本地用户偏好间的融合

在图传递模块中完成L层转换后,通过连接所有L层生成的表征来构建最终的用户与物品表征表示,请参考以下公式:H^{(l)} = f\left(X^{(l)}, H^{(l-1)}\right).

在这里插入图片描述

在图传递模块中执行L层转换后, 将所有L层生成的表示通过连结操作结合起来, 通过Concat( )符号表示连结过程
生成最终用户的表示向量hu以及物品的表示向量hi,
其中 hu捕获了全局及局部用户的偏好信息, 以及从用户项目图中提取的高阶信息。

4.2.3Learning with Local User–Item Interaction Data

基于上述客户群体和产品服务对象的表示方法,我们通过计算出评分矩阵中的数值来估算客户群体与产品服务对象之间的潜在互动概率。

在这里插入图片描述

rˆu,i 是用户 u 和项目 i的 的预测得分。

然后,我们采用贝叶斯个性化排名(BPR)损失 [46],基于单域交互数据更新局部和全局用户嵌入,其定义为

在这里插入图片描述

σ(-)被视为sigmoid函数的一个重要组成部分,
λ被引入以调节L2正则化的强度,
Θd代表域d中的模型参数集合,在具体实现中通常包括局部与全局用户嵌入等元素。
Od={ (u,i,j)| ru,i=1且ru,j=0 }具体标识了训练数据集。
j表示在域d中与用户u未发生互动的负面项目样本。

本地用户嵌入与特定领域项目嵌入分别基于各自领域的数据,在每个领域内进行本地化学习;而全局用户嵌入则是通过跨域数据协同更新形成的一种整体表示方法。
我们通过整合全球用户的偏好信息作为连接各领域的重要桥梁。

在这一私有更新过程中:
该过程中的一个关键步骤是确保域内数据仅限于本地存储。
尽管该过程会采用全局用户的偏好来优化本地用户的设置,
但我们仍需采取措施防止潜在的安全风险。

4.3Federated Update across Multiple Domains

在引入私有更新后

在隐私更新的过程中, 每个领域d负责管理其对应的全球用户u_tilde及其全球表示向量e_u_tilde. 通过利用该领域的内部数据集进行本地优化, 这种机制能够有效提升系统的性能.

为了更加全面地刻画用户的偏好特征,我们必须通过跨领域知识的学习来一种保护隐私的方式进行本地用户的偏好刻画。

为此

4.3.1Privacy-preserved Preference Sharing

在隐私更新过程中,在每个域d中负责维护全局用户的全球嵌入模型,并通过使用该领域的数据进行本地化的更新操作。

为了刻画更多层次的用户偏好的变化趋势, 我们必须要获取外部数据库中的跨领域数据, 并通过保护隐私的方法来提升本地用户的偏好质量.

为此方案而言,在结合联合学习框架的基础上实现了一定程度上的基础级隐私保障(无需直接泄露用户数据)。采用本地差异隐私机制进一步强化了 privacy protec measures to meet the flexible security requirements in recommendation scenarios.

具体而言,在多个领域中协同更新这些全局用户的嵌入信息将被采用去中心化的联合学习方式。即这些全局用户嵌入将被多个领域共享并参与联合聚合过程。然而如前所述这些用户的内嵌信息已经编码了用户的隐私行为特征因此为了保护隐私我们不能直接将其共享到其他领域之外。为此在分享全局用户嵌入之前我们必须对其进行局部差分隐私处理以确保数据的安全性。

在这里插入图片描述

基于高斯机制的方法,在为了实现(ε, δ)-LDP的目的下引入人工高斯噪声,并且该方法所需引入的人工高斯噪声量由单个实例的敏感度决定。

在这里插入图片描述

具体来说,在域 d 中的每个全局用户嵌入向量 eu ̃ 处理过程中, 我们首先对其应用基于L2范数的裁剪操作以限制其敏感度, 接着在处理结果上叠加零均值的高斯噪声, 最终生成受保护的嵌入向量 ed u ̃, 如(8)式所示

C 是剪切阈值,

σ = √2 log(1.25/δ)C/ε 是高斯分布的标准偏差。

在后续步骤中,在每个领域d中执行传递操作时会将u~ ∈ U的受保护嵌入ed_u发送到相应的节点,并通过从其他领域获取共同的全局用户嵌入{ed'_u~ | d' ∈ D, d' ≠ d}来更新自身的状态

4.3.2Personalized Aggregation for Heterogeneous Data Fusion

传统的联合学习主张通过统一的参数在多个客户端实现。然而,在跨领域推荐的情境下,提升其应用价值所需的适应性机制变得尤为关键。

例如,在服装领域与之不同的是图书领域对信息的重视程度较高,这类信息往往源自于其他相关领域的转移。基于此分析结果,在算法设计上我们构建了一个具有个性化特性的聚合机制。该机制旨在通过分析数据特征和用户行为模式,在每个领域单独生成相应的全局用户嵌入向量,并在此基础上实现精准的推荐服务。

具体来说,我们设计了一种关注机制来在每个域中执行个性化偏好聚合。

当域 d 接收用户 u 的加密嵌入 \{ed'^{\sim}_{u\vert d'} \mid d' \in \mathcal{D},\,d' \subseteq d\} 经过其他域的传播时,在该域中将采用一个可学习的变换矩阵 \mathbf{W} \in \mathbb{R}^{2m} 的自我注意力机制来生成对应的注意力权重系数。

在这里插入图片描述

其中 softmax 函数用于对注意力系数进行归一化处理。

注意力系数α_{d,d'}在反映领域d'对领域d的影响方面具有重要意义。
它们在联合聚合过程中扮演着重要角色。
根据步骤(10),能够生成用户u在域d中的全局嵌入。

在这里插入图片描述

其中该系数是一个超参数,在取值区间为[0,1]时使用;它被用来调节保留程度;等式中的第二项则整合了来自不同领域的知识

全局用户嵌入 eu_˜ 将会被创建为:基于用户 u_˜ ∈ U_˜ 的全局嵌入表示,并被分配到前面所述的图转移模块中去,并将用于进行私有化更新的目的。

在联合更新过程中

4.4Communication Optimization

在推荐算法中实施联邦更新过程会伴随额外的通信开销,在涉及多个领域时尤其如此。我们建议采用一种定期同步机制以尽量减少这些开销,并进行相应的定量分析。

4.4.1Periodic Synchronization

在分散式联合学习中,在线数据处理中的传输带宽已成为客户端与本地更新共享的关键瓶颈。鉴于最近在分散训练方面的研究进展,在此基础上我们开发了一种定期同步方案,并通过减少数据传输开销来优化系统性能。

该系统会在特定次数的私有更新之后完成各领域联合更新的过程。
各个领域接收并处理来自其他领域的受保护全局用户嵌入信息,并结合本地化的偏好信息进行个性化处理,在完成内部优化前使用私有更新阶段对等式(6)的目标函数进行优化。

在算法 1 中归纳了 PPCDR 的训练流程。基于周期性同步机制设计的 PPCDR 能够通过扩展同步间隔来应对多域环境。

在这里插入图片描述

输入:私人更新迭代次数T、图传递模块层数 L

用相同值初始化每个域的参数

对每个域:
1.获取受保护的全局用户嵌入
2.通过公式9整合全局用户的嵌入表示
3.在第L层图传输模块中:
3.1采用等式(1)来传递用户的或项目的嵌入信息
3.2通过等式(3)传播用户的或项目的embeding信息

用等式(4)获取最终的用户和项目表示

用等式(5)来生成预测的分数
用公式(6)计算本地数据的训练损失和参数梯度

更新全局用户嵌入、局部用户嵌入、项目嵌入和矩阵 W

最后,在全局用户嵌入上应用LDP,公式(8)
分享全局用户嵌入给其他的领域

4.4.2Communication Cost

该机制通过减少各领域间的通信轮数来降低训练过程中的整体通信成本。
例如,在每个领域中迭代T次私有更新后需经过R = S/T次通信(其中S代表...),其总通信成本可表示为O(mR|U||D|(|D|-1))。(此处m为全局用户嵌入的维度参数)

通过定期同步机制实现PPCDR的通信成本减少了T倍。这一机制表明定期同步有助于提升联合更新通信效率的有效性。然而,在确保CDR收敛性的同时需要谨慎选择T值的大小。本节将深入探讨周期性同步对通信成本及CDR效率的影响细节

五、Algorithm Analysis

5.1Analysis on Privacy Protection.

在本研究中所提出的 PPCDR 框架基于联合学习框架设计,在不直接共享数据的情况下实现了基本的隐私保护。该研究还引入了差分隐私等隐私保护算法作为补充手段,在推荐系统场景中进一步提升了整体的安全性

具体而言,在分析PPCDR的隐私保护能力时,我们主要从以下几个维度展开研究。首先,在各领域特有的隐私敏感交互数据均以本地存储形式存在,并且从不被其他领域直接调用或处理这一特性下,则能够有效规避隐私信息泄露的风险[35, 42]。其次,在深入探究跨域共享机制时发现,在依据数据处理不等式原理[35]的情况下,在跨域共享过程中的全局用户表征本质上是一种经过高度压缩的抽象嵌入结构,并且其携带的信息量远低于原始交互数据所包含的内容。最后,在全局用户嵌入空间中施加LDP技术措施,则能够在一定程度上界定并限制隐私信息泄露的边界

在模型训练的过程中,在各个领域需要反复更新并传递经过隐私保护的嵌入信息;根据矩会计[1]的方法论框架可知这一过程会导致累积较高的隐私代价;因此我们采取了一种周期性同步机制,并将其纳入整体设计流程中;最终这一改进措施显著降低了通信频率;

5.2Analysis on Algorithm Complexity

对于每一个域 d,在PPCDR模型中包含三个方面的计算复杂度:图传递模块负责信息传播;个性化的融合过程通过自适应权重实现;而损失评估过程则用于优化模型参数。

5.3Potential Limitations of Scenario Setting

我们在分析 '用户重叠与项目交叉互斥' 的 CDR 情况时,默认假设用户的集合在不同领域间存在共享关系的同时又相互隔离,并基于此设计了一种基础方案。然而,在现实世界中常出现的部分用户或项目可能存在一定的交集或交错关系的具体情况下,则需要对这一基础方案进行相应的优化与改进:针对'部分用户仅在一个领域活动'的情况,在现有方案的基础上我们进行了优化:将每个这类用户的活动行为映射到一个虚拟全局标识。

我们将持续应用公式 (1)-(3),基于虚拟全局表征与局部表征之间的关系构建双向转移机制。
然而,在获取虚局时,并非依赖于跨域数据而是基于特定领域内的局部学习。
这样做的目的是系统性地评估其适用性,并通过进一步的数据分析验证其有效性。

在研究中针对部分项目的重叠情况,在我们的研究工作中将‘任何两个领域之间没有项目的重叠’被视为比存在部分项目重叠更为严格的条件。由此可见,在这种情况下,我们提出的方法是适用的,并且无需进行任何调整。

在研究中针对部分项目的重叠情况,在我们的研究工作中将‘任何两个领域之间没有项目的重叠’被视为比存在部分项目重叠更为严格的条件。由此可见,在这种情况下,我们提出的方法是适用的,并且无需进行任何调整。

5.4Potential Limitations of Domain Quantity

在实际应用中,在大多数场景下来说,在各个领域中的数量都是有限制的,在这种情况下,请考虑亚马逊数据集作为一个典型的实例而言,则包含大约20个主要领域。然而,在存在大量子领域的情形下,则需要提出若干可行的应对方案来规避潜在的技术挑战:

在标准配置下,我们采用的是一种名为分布式协同学习的解决方案.该方案通过全连接架构实现各领域间的参数更新.然而,当领域数量较多时,为了优化通信效率,我们建议采用环形拓扑结构进行通信安排[28].这种拓扑下,每个领域仅与相邻领域进行数据交互,从而实现协同更新.具体而言,各个参与方根据自身数据集更新本地模型参数后,会将更新结果传递给相邻领域进行整合汇总.

(2) Domain子采样技术:当处理大规模数据集或领域时, 我们可以设定一个规则来限定每个周期内不同领域之间传递信息的数量。各个参与节点会计算自身参数的变化量; 只有当某个节点计算出显著变化才会参与后续通信

重要程度可通过更新规范等指标或其他相关标准来判断其重要程度 。在第5节中研究了设备子采样的影响 ,并采用了随机域子采样的方法 ,详细探讨了其在设备层面的影响 。

全部评论 (0)

还没有任何评论哟~