PPCDR:Privacy-Preserving Cross-Domain Recommendation with Federated Graph Learning
Privacy-Preserving Cross-Domain Recommendation with Federated Graph Learning
ACM-Changxin Tian, Yuexiang Xie, Xu Chen, Yaliang Li, Wayne Xin Zhao-2024
(仅为方便查看)
思路
CDR越来越受到关注, 但是,日益增长的隐私问题限制了现有的CDR模型的实际应用,因为这些模型都假设全部或部分数据可以在不同的域之间进行访问,目前的方法忽略了多个领域数据的异质性,没有实现CDR的一致性改进。提出PPCDR,主要思想是为给定用户的多个领域之间的全局偏好和特定领域的局部偏好建模,它表征了用户对交互项目的共享和特定领域的偏好。为每个域设计了一个图转换模块,融合全局和局部偏好,并根据本域进行更新(LDP)。
问题公式化
与普通CDR不同的是,域内项目I和交互矩阵R不能直接使用,为保护用户隐私,设置了虚拟用户集U~,与用户集中的用户一一对应,通过这些虚拟用户在共享跨域信息时实施隐私保护。最终通过函数
计算偏好得分,其中只有来自域d的本地数据是直接访问的,并且来自其他域的信息在隐私保护下通过虚拟节点使用。
模型使用分散式联邦学习框架来利用跨域知识进行推荐,这样不会泄露隐私。
本地用户偏好基于域内数据学习,全局用户偏好跨域协同更新,这两种用户偏好通过全局用户节点相关联。基于GNN得到的方法可以学习全局和局部用户偏好,并捕捉它们之间的关系,也就是既考虑每个本地域内的私有更新过程,又考虑跨域的全局联合更新过程。(但是私有更新过程中,不仅考虑到全局用户偏好,还更新本地用户偏好)。
对于每个d,我们考虑本地差分隐私技术LDP, LDP在学习到的全局用户偏好上进行隐私保护,并将这些受保护的全局信息分享给其他域。然后设计了一个个性化的聚合方法为特定的域适应收到的全局偏好信息。
本模型用集中式多域数据做近似训练,并以隐私保护的方式学习跨域知识尽心推荐。另外提出周期性的同步机制,减少全局偏好的共享带来的通信成本。
隐私保护
在本文中代表,在私有更新的过程中,域内数据存储在本地,不会直接被其他域使用。尽管我们会利用全局用户偏好来更新本地用户偏好,但我们会对全局用户偏好实施信息保护,这一部分将在全局表示的构建过程中阐述。
PPCDR中单域的私有更新
(在本地融合全局和本地用户偏好,并根据域内数据更新它)
-
局部-全局信息建模:为每个域都构建了一个局部用户-项目图,并将虚拟全局用户节点与原始局部用户节点配对。这两类节点的嵌入相关联,并通过交互图中的边进行衔接。通过扩展GNN的传递模块,实现全局和局部用户偏好之间的消息转换和用户-项目图中的消息传播。图转换模块可概念化为多层转换,在第l层,涉及启动一个双向嵌入传输促进全局和局部用户偏好的传输。此过程表示为

β控制传递中的保留率,其中的传递函数为
这个式子是通过超参数和连接结构计算的,对于后一项,假设用户在一个域中跟它交互的项目越少,那么从全局表示中获得的信息越多,以模拟用户的偏好进行推荐。 -
领域特定交互图上的消息传播:在1之后,继续利用标准消息传播机制来捕获G中的高阶连接,根据LightGCN中的方法,通过在传播操作中省略变换矩阵和非线性激活函数来实现轻量级GNN,表示为

因为涉及到了虚拟全局用户节点,所以这一步骤还增强了全局和本地偏好之间的融合。多层转换之后,将所有曾产生的表示连接起来,以获得最终的用户和项目表示,即
最终的用户表示封装了全局和局部用户的偏好,沿着从G中提取的高阶信息。 -
使用本地用户-项目交互数据学习:根据2中得到的用户表示,做内积运算来生成分数,以预测用户与项目交互的可能性。

然后,我们采用BPR损失来更新基于单域交互数据的局部和全局用户嵌入,定义为
我们借助全局用户偏好作为桥梁,融合和利用用户的多域的跨域信息。
跨域联合更新
采用联合更新过程来协作学习基于多域数据的全局用户偏好,并通过个性化聚合使这些全局偏好适应异构数据。
-
隐私保护下的偏好共享:采用分散式联邦学习来协作更新来自多个域的数据上的这些全局用户嵌入,即全局用户嵌入是在多个域之间共享的,但由于隐私保护不能直接共享,要应用一个本地差分隐私LDP技术。LDP通过对私有值应用随机化机制M,从理论上保证了私有信息的泄露是有界的(这个意思是信息泄露是可以控制的?)对于任何两个相邻的私有值,所有可能的输出S是

其中ε是隐私预算,越小越代表更好的隐私保护,δ代表失败概率,允许隐私保护机制的小概率失败。不采用添加噪声的方式,采用高斯机制来保证LDP,其中确保差分隐私所需的噪声量取决于各个示例的灵敏度,具体为
其中C是限幅阈值
是高斯分布的标准差。之后,每个域都发送受保护的嵌入并且接收共享的其他域的全局用户嵌入。 -
用于异构数据融合的个性化聚合:标准的联邦学习提倡在多个客户端上使用统一的参数,但为确保对CDR场景中每个域的独特特征的有效适应,实现了一种个性化的聚合策略,其中设计了一个注意力机制来执行每个域中的个性化偏好聚合,当域接收到用户的受保护嵌入,应用具有可学习变换矩阵W的自注意力机制计算注意力系数,

其中这个W的维度是
注意力系数用于联合聚合的权重,得到用户的全局嵌入
其中的β是在[0,1]中设置的超参数,控制保留率,后一项自适应地组合来自不同领域的知识。
通信成本优化
提出周期性同步机制来减少联合更新过程带来的通信成本,并提供了一个定量分析的通信成本。此机制在固定数量的私有更新之后跨域同步联合更新。通过减少通信轮数降低训练过程的整体通信成本。但周期性同步可能会影响CDR的收敛性和整体效率,所以一定要仔细调整。
实验
选择的baseline有BPRMF、LightGCN、FCF、CMF、MTCDR、BiTGCF、FedCT、FedCDR。
总结
PPCDR优于一些有竞争力的单域和跨域基线,同时保护隐私。虽然它已经有效解决了隐私保护的跨域推荐问题,但仍然有可发展方向,比如考虑更复杂的跨域推荐场景,或利用更多类型的信息,比如文本、图像、视频,来提高隐私保护的跨域推荐的性能。
