Advertisement

论文学习笔记:Federated Heterogeneous Graph Neural Network for Privacy-preserving Recommendation

阅读量:

文章目录

  • ABSTRACT

  • 一、INTRODUCTION

  • 二、PRELIMINARY

    • 2.1Heterogeneous Information Network
    • 2.2Privacy Definition
    • 2.3Task Formulation
  • 三、METHODOLOGY

    • 3.1Overview of FedHGNN
    • 3.2Semantic-preserving User-item Interactions Publishing
    • 3.3Heterogeneous Graph Neural Networks for Recommendation
    • 3.4Privacy Analysis
  • 四、EXPERIMENTS

    • 4.1Experimental Setup
    • 4.2Overall Performance
    • 4.3Ablation Study
  • 五、CONCLUSION


ABSTRACT

异质信息网络(HIN)包含丰富的语义信息,这些信息由元路径(meta-paths)描述,已经成为缓解推荐系统中数据稀疏问题的重要工具 。然而,现有的基于HIN的推荐系统通常假设数据是集中存储和训练的。但是,在现实世界中,由于隐私 问题,数据往往是分布存储的,这导致HIN中的语义破裂问题,并使集中式HIN推荐系统失效。

ps:推荐系统中数据稀疏问题比如现有10000个电影数据和10个观众数据,但这10个观众不一定都看过这10000个电影,并且也不是说看过的电影一定会写评价。而由于缺乏观众对电影的反馈,所以就给推荐系统增加了难度。

本文建议将HIN划分为客户端存储的私有HIN和服务器上的共享HIN。提出了一个基于FedHGNN的框架,用于在保护用户隐私的前提下,利用分布式HIN进行协作训练推荐模型。
在这里插入图片描述
HIN缓解数据稀疏问题举例如下:
在这里插入图片描述

一、INTRODUCTION

推荐系统在缓解各种在线应用中信息过载带来的挑战方面发挥着至关重要的作用。然而,它们的有效性受到用户交互稀疏性的限制。

为了解决这一问题,包含多类型实体和关系的异构信息网络( HIN )被广泛用于增强用户和物品的连接。作为HIN中的基本分析工具,元路径[ 32 ],一种连接节点对的关系序列,被广泛用于捕获HIN的丰富语义。不同的元路径可以描述不同的语义,

如图1所示,HIN中用于电影推荐的元路径UMU表示两个用户观看了同一部电影,UMDMU表示两个用户观看了同一位导演导演的电影。
在这里插入图片描述

大多数基于HIN的推荐方法利用基于元路径的语义来学习有效的用户和项目嵌入。其中,早期的工作将基于元路径的语义融入到用户-项目交互建模中,以增强其表示。

近年来,图神经网络( graph neural networks,GNNs )的出现为自动捕获基于元路径的语义提供了强有力的方法。

这些基于GNN的方法沿着元路径聚合节点嵌入来融合不同的语义,称为基于元路径的邻居聚合,为基于HIN的推荐提供了一个更加灵活的框架。

现有的基于HIN的推荐方法的基本假设是数据集中存储 。如图1 ( a )和( c )所示:
在这里插入图片描述

在此假设下,整个HIN是可见的,可以直接用于捕获基于元路径的语义进行推荐。然而,由于用户-物品交互数据具有高度隐私敏感性,且集中存储会泄露用户隐私 ,这一假设在现实中可能并不成立。

因此,集中式数据存储在未来可能是不可行的。作为一种更现实的学习范式,联邦学习( FL )应运而生 ,使用户能够在本地保留个人数据,并通过仅传递中间参数的方式联合训练一个全局模型。

联邦推荐( FedRec )是FL在推荐场景中的一个重要应用,近年来许多工作致力于FedRec的研究。大多数研究集中在传统的基于矩阵分解( Matrix Factorization,MF )的FedRec [ 3、18],其中用户嵌入保持局部更新,项目嵌入的梯度上传至服务器进行聚合

最近,一些研究探索了基于GNN的FedRec。他们在用户-项目二分图上训练局部GNN模型,并传递嵌入和模型参数的梯度。尽管他们取得了成功,它们仍然受到数据稀疏性问题的困扰,而分布式数据存储进一步加剧了这一问题。

一个自然的解决方案是利用HINs来丰富稀疏的交互 。然而,开发基于HIN的FedRec并非易事。它面临着两个重大的挑战。
1 )如何在基于HIN的FedRec中给出隐私的正式定义?
在基于HIN的FedRec中,传统的基于用户-项目交互的定义可能是不可行的。除了私有的用户-项目交互,基于HIN的FedRec还可以利用额外的共享知识,这些知识不包含隐私,可以在用户之间共享( (例如图1中的电影类型和电影导演关系( a ) ),这也可能会暴露用户的高阶模式,例如他们最喜欢的电影类型。
在这里插入图片描述
因此,我们应该仔细考虑基于HIN的FedRec的现实隐私约束,并给出严格的隐私定义,从而使隐私得到严格的保护。

2 )如何在保护定义隐私的同时,恢复基于HIN的FedRec的破损语义?
HIN在FedRec中以分布式的方式存储,如图1 ( b )所示,用户只能访问其一跳邻居(交互的物品)。因此,元路径所描述的整体语义被破坏,导致无法进行基于元路径的邻居聚合,而这正是基于HIN的推荐的关键部分。
在这里插入图片描述

如图1 ( c )和( d )所示,由于语义UMU和UMDMU被破坏,基于元路径的邻居聚合失败。
在这里插入图片描述

然而,由于隐私限制,直接交换用户交互数据是不现实的。因此,恢复具有隐私保证的语义具有一定的挑战性。

为了应对这些挑战,我们深入研究了基于HIN的FedRec,并提出了一种用于隐私保护推荐的联邦异构图神经网络( FedHGNN )。

1 )为了明确应该保护的隐私,我们给出了基于HIN的FedRec的正式隐私定义。我们建议一个现实的设置,即将整个HIN划分为存储在客户端的私有HIN和存储在服务器端的共享HIN。

在此背景下,我们根据差分隐私[ 6 ]严格地形式化了基于HIN的FedRec的两种隐私,包括从共享HIN中反映用户高阶模式的隐私和在私有HIN中具有特定模式的用户-项目交互的隐私。

2 )为了在保护隐私的同时恢复被破坏的语义,我们提出了一种语义保护的用户交互发布算法,其核心是一个二阶段的扰动机制。

第一阶段 通过一个专门设计的指数机制( EM )从共享HINs中扰动用户的高阶模式[ 6 ]。为了保持扰动数据的可用性,我们以更高的概率选择与用户真实模式相关的共享HIN。
在这里插入图片描述

第二阶段 在每个选择的共享 HIN 内,以保持度数的方式扰动用户-物品交互,避免引入更多噪声,同时增强交互的多样性。

用户通过两阶段扰动机制在本地对其交互进行扰动,并上传至服务器进行语义恢复。

基于恢复的语义,我们进一步提出了一个通用的异构GNN推荐模型,该模型通过两级元路径引导的聚合来捕获语义。
在这里插入图片描述

二、PRELIMINARY

2.1Heterogeneous Information Network

在这里插入图片描述
在这里插入图片描述

2.2Privacy Definition

在这里插入图片描述
在这里插入图片描述
如图1 ( a )和( b )所示,在联邦设置下,电影网络被划分为存储在每个客户端的用户级私有HIN和存储在服务器的共享HIN。用户级私有HIN包含用户的私有交互,而共享HIN包含共享知识,如电影导演关系。
在这里插入图片描述

用户u可以基于交互项与多个共享HIN相关联。
例如,图1 ( a )和( b )描述了两个共享HIN与Tom有关,一个共享HIN与Mary有关。这些与用户相关的共享HIN反映了用户(例如,最喜欢的电影类型)的高阶模式,应该受到保护。

我们将这种隐私称为语义隐私,记为一个与用户相关的共享HIN列表g = ( g1 , · · · , g | Gs |)∈{ 0,1 }^| Gs |,其中Gs表示整个共享HIN集合。然后,我们将语义隐私形式化为如下形式:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单来说就是经过扰动机制M后生成的扰动数据g=g~的概率/ g~生成相同输出 g~的概率小于 e𝜖
就可以让攻击者无法清楚某些数据是否是真实数据。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3Task Formulation

在这里插入图片描述

三、METHODOLOGY

在这一部分中,我们对提出的模型FedHGNN进行了详细的介绍。我们首先对FedHGNN进行了概述。然后介绍了Fed HGNN的两个主要模块:语义保持的用户-项目交互发布和用于推荐的异构图神经网络( HGNN )。最后,我们对提出的发布过程进行隐私分析。

3.1Overview of FedHGNN

与现有的FedRec系统仅利用用户-项目交互不同,FedHGNN还将HINs融入到用户和项目建模中,这可以在很大程度上缓解由数据稀疏性引起的冷启动问题。此外,作为FedHGNN的核心组件,语义保持的用户-项目发布机制恢复了具有严格隐私保证的语义,在技术上可以应用于所有基于元路径的FedRec系统。

ps:冷启动——当新用户或新项目刚进入系统时,由于缺乏足够的交互数据,很难为其提供准确的推荐。

FedHGNN的总体框架如图2所示。
在这里插入图片描述

可以看出,主要包括用户-项目交互发布和基于HGNN的联邦训练两个步骤。

用户-项目交互发布 阶段,每个客户端使用我们的二阶段扰动机制对本地交互进行扰动,然后将扰动后的结果上传到服务器。服务器收到所有客户端的本地交互后,可以形成一个整体扰动的HIN,然后将其分发到每个客户端,以恢复基于元路径的语义。

HGNN-based联邦训练阶段 ,各客户端利用分发的扰动HIN进行节点级和语义级聚合(图中Embedding layer部分)。

节点级聚合:对元路径邻居(如UMU,UMTMU,MUM,MTM)进行嵌入和聚合。
ps:UMU(User-Meta-Path-User)表示“用户-元路径-用户”的聚合方式.
UMTMU 表示“用户-元路径-元路径-用户”的聚合方式。这种方法通过两个元路径在用户之间传递信息,可以捕捉更复杂和间接的用户关系

语义级聚合:将节点级聚合结果进行进一步的语义级聚合。

排名预测器(Ranking predictor)利用这些聚合结果计算损失(Loss),然后上传嵌入梯度和模型参数到服务器进行全局模型更新。

服务器收到所有客户端的本地交互后,可以形成一个整体扰动的HIN,然后将其分发到每个客户端,以恢复基于元路径的语义。

值得注意的是,在整个联邦训练过程中,发布步骤只进行了一次
在这里插入图片描述

在联合训练阶段,客户端协同训练一个基于恢复邻居的全局推荐模型,该模型执行节点级邻居聚合和语义级邻居聚合。然后采用排序损失来优化嵌入和模型参数。

每个通信轮,每个参与的客户端在本地训练模型,并将嵌入和模型梯度上传到服务器进行聚合。为了进一步保护上传梯度时的隐私,我们将局部差分隐私( LDP )应用到上传的梯度中。

3.2Semantic-preserving User-item Interactions Publishing

下面,我们将详细介绍了我们提出的用户-项目交互发布的两阶段扰动机制
如图3所示,它首先扰动与用户相关的共享HINs,然后在选定的共享HINs中扰动用户-项目的交互,这不仅实现了语义保护,而且满足定义的隐私。
在这里插入图片描述
与用户相关的共享HIN扰动。基于上述分析,我们提出了一个两阶段的扰动机制。

第一阶段进行与用户相关的共享HIN扰动,利用EM选择共享HIN进行发布。真正与用户相关的共享HIN应该以较高的概率被选择
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
灵敏度 Δ𝑞: 是衡量的是函数输出对单个输入变化的敏感程度,即当输入数据发生细微变化时(如修改或删除单个元素),函数输出变化的最大幅度。
在这里插入图片描述
通过上述的第一阶段扰动,对比RR(随机扰动)可以有效针对和用户相关的共享HIN。
ps:如果简单使用随机扰动会使得图数据更加稠密(不一定是扰动到用户关联的HIN),并且引入更多边HGNN性能会下降,也降低了训练速度

第二阶段进行用户-物品交互扰动
在这里插入图片描述
ps:由于共享HIN在第一阶段已经被扰动,我们可以直接应用RR来扰动Iu,不过这里实验证明Iu数量仍然较大,RR进行相关改进成了DPRR
在这里插入图片描述
在这里插入图片描述
这里度保持不变,比如下图,虽然用户的交互物品变了,但是用户交互的度还是2个
在这里插入图片描述

整体流程简介如下图:
在这里插入图片描述
质量计算:(使用余弦相似度)对所有组进行与Gsu中组的相似度,简单来说就是交互越多相似度越大,也就是质量越大。
在这里插入图片描述
计算扰动概率 EM_p:
将隐私预算 eps1 平均分配到每个组,并计算扰动概率 EM_p。
使用 Softmax 函数将这些扰动概率标准化。

选择组:
使用 np.random.choice 函数基于 EM_p 的概率分布,选择一些组进行扰动处理。
在这里插入图片描述
在第二次扰动中,根据Gsu,优先保证原先用户有交互的组,先在这些组里进行选择,剩下的度不够或者度超了,再用之前没有交互的组多退少补。

多退的情况:
原先有A组:A1,A2,A3,A3;B组:B1,B2;C组:C1,C2,C3
比如原先用户交互为A组:A1,A2,A3;B组:B1;C组:无
第一次扰动选择了A组和C组
第二次扰动优先满足A组,在A组里选择了A1,A2,A3,那么尽管选择了C组,为了度相同,则舍弃C组中的交互。

ps:如果用户与所有项目都没有交互,也就是所谓的冷启动问题,本文是将所有组的质量设为1,然后随机选择一个组作为 gsu

3.3Heterogeneous Graph Neural Networks for Recommendation

给定一条恢复的元路径,我们的HGNN首先利用节点级 别的注意力来学习元路径下不同邻居的权重。然后将加权聚合嵌入输入到语义级 别的注意力机制中,以关注不同元路径下的聚合嵌入。按照这个过程,我们给出一个获取用户嵌入的例子,项目嵌入也是如此。

Node-level aggregation
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Semantic-level aggregation
在这里插入图片描述
在这里插入图片描述

节点级聚合主要在每条元路径 (meta-path) 内部进行,旨在融合同一元路径上的邻居节点的信息。
语义级聚合是在不同元路径之间进行的,它旨在融合不同元路径上获得的节点嵌入。

Ranking loss
在这里插入图片描述
在这里插入图片描述

3.4Privacy Analysis

这部分主要是对上述一些公式应用的证明,不做过多解释,读者可自行查看下面的原文。
在这里插入图片描述
在这里插入图片描述

四、EXPERIMENTS

4.1Experimental Setup

数据集。本文使用了4个真实的HIN数据集,包括2个学术数据集( ACM和DBLP)和2个电子商务数据集( Yelp和豆瓣书),其基本信息如表1所示。用户节点和私有链路类型用粗体标出。对于ACM和DBLP,项目节点是指作者。
在这里插入图片描述
实施细则。对于所有的基线,节点特征被随机初始化,隐藏维度设置为64。我们对其他超参数进行调优,以报告最佳性能。对于所有基于HIN的方法,我们保持可用的异构信息( e.g . ,元路径)不变。我们将损失函数修改为与我们相同的BPR损失。在FedHGNN中,学习率设置为0.01,ε 1和ε 2均设置为1。对于每个数据集,我们首先基于共享知识进行项目聚类,使得每个项目只属于一个共享HIN。

对于所有数据集,共享HIN (聚类数目)的数量设置为20。批次大小(每轮参与的客户数)设定为32。对于LDP和伪交互项,超参数的设置与[ 22 ]相同。在[ 24 ]的基础上,我们使用留一法进行评估,并使用HR @ K和NDCG @ K作为度量。我们还将提供一个基于GammaGL的实现

4.2Overall Performance

表2展示了所有基线在四个数据集上的总体结果。从表2中可以得出以下结论:

( 1 ) FedHGNN比所有的FedRec模型都高出( HR @ 10高达34 % , NDCG @ 10高达42 %),这证明了我们模型的有效性。令人惊讶的是,FedHGNN也优于几个中心化模型(特别是基于非HIN的方法,如NGCF),表明了在FedRec中利用HIN丰富语义的重要性。我们还假设扰动可以被看作是一种有效的数据增强来缓解冷启动问题。由于我们发现部分不活跃用户的交互量在扰动后略有增加。

( 2 )在集中式基线中,基于HIN的方法表现更好,特别是在稀疏数据集(例如DBLP )上,由于引入额外的语义信息来缓解冷启动问题。此外,还观察到基于GNN的方法( HAN、RGCN和HGT)比基于非GNN的方法( HERec )取得更好的结果,这表明GNN在捕获语义信息方面更有效。

( 3 )在联邦基准中,FedMF由于忽略了对冷启动推荐有重要意义的高阶交互而表现不佳。其他联邦模型( FedGNN、FedSog、PerFedRec和SemiDFEGL)通过隐私保护的图扩展( FedSog假定社会关系是公共的)对此进行了改进。
在这里插入图片描述

4.3Ablation Study

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、CONCLUSION

在本文中,我们首先探讨了基于HIN的FedRec的挑战性问题。我们对联合HIN中的隐私进行了形式化描述,并提出了一种具有严格隐私保证的语义保护的用户-项目发布方法。将该发布方法融入到先进的异构图神经网络中,我们提出了一个用于推荐的FedHGNN框架。实验表明,该模型在可接受的隐私预算下达到了满意的效用。

全部评论 (0)

还没有任何评论哟~