Advertisement

Federated graph machine learning: A survey of concepts, techniques, and applications

阅读量:

图联邦机器学习:概念、技术和应用概览

Abstract

然而,在众多现实场景中,例如医疗保健系统中的住院预测问题,在很多情况下图数据会被分布于多个数据所有者手中,并且由于隐私保护的问题以及监管上的限制因素,在这种情况下外部机构无法直接获取这些图数据。

联邦图机器学习方案(FGML)展现出显著潜力,在该研究中提出了一种创新方法以实现基于联邦学习的图机器学习模型训练

因此该篇综述就对FGML相关文献进行了回顾。

提出分类为两类:

FL with structured data(具有结构化数据的联邦学习)

structured FL(结构化联邦学习)

然后,在分析各领域所采用的主要技术后,并深入阐述了这些技术如何克服FGML所带来的难题

此外

在此,我们揭示了现有研究工作所存在的局限性及不足之处,并将主要精力聚焦于未来研究的方向和重点。

1.Introduction

虽然这些图机器学习技术已经经历了长足的发展,但其中多数方法仍需要将大量图数据集集中存储于单台设备上。

然而这一要求往往难以实现。相反地,在实际操作中难以整合全局的数据(即所谓的数据隔离)。这些组织各自拥有独立的数据集(即所谓的数据隔离)。例如,在金融领域的一个具体挑战在于:基于机构间的本地客户关系图和结构信息,在不直接访问单个机构本地客户的详细信息的情况下训练适用于金融犯罪检测的图机器学习模型。

联邦学习(FL)[76]是一种分布式学习方案,通过协作训练来解决数据隔离的问题.它使得参与者(即客户)能够在不共享私人数据的前提下共同构建机器学习模型.因此,将 FL 与 图机器学习相结合被视为解决上述挑战的一种具有潜力的方法.本文所指的就是 FGML.第一种情况 是涉及结构化数据的 FL.在这种情况下,客户端基于各自的图数据进行协同训练以建立图机器学习模型,并将其本地存储起来.第二种情况 是纯结构化的 FL,其中客户端之间存在结构性的信息关系,形成了客户机级别的图结构.通过利用客户机图来设计更为高效的联邦优化方案是一种可行的方法.

虽然FGML提供了一个很有前途的范例,但也出现了以下需要解决的挑战。

Cross-client information deficiency**: Within the context of FL, a typical scenario involves each client possessing a subgraph representing part of the global graph. Some nodes may have neighbors belonging to other clients, but privacy concerns restrict their ability to access features from outside their own client's scope, leading to incomplete node representations [11];88;129;[135].

Information leakage in graphical data structures

Client-side data diversity exists across different clients.(跨客户端的数据多样性存在于不同的客户端中。)

Parameter utilization strategies(参数利用策略)

在本次研究过程中, 我们系统性地介绍了FGML体系中所涉及的两个核心问题设定概念. 接着, 我们深入探讨了每种设定下当前技术的发展动态, 同时也对FGML框架的实际应用场景进行了详尽阐述. 然后, 我们对可供应用于FGML框架的可获取图数据集及其相关平台进行了系统性地整理. 最后展望未来 FGML技术的发展前景.

2.Problem formulation

2.1 graph machine learning

Graphs

按照节点的不同种类以及关联关系的多少来划分的话,则一张图可被归为两种类别:一类是同质图(仅包含单一的一种类型节点及单一的一种类别的关联关系),另一类则是异构图(涉及多于一种类别的节点或关联关系)。

本文提到的两种典型的异构图是knowledge graphs和user-item graphs。

Knowledge Graphs

异构图。

each edge:(h,r,t)

User-item Graphs

Graph Machine Learning Model

模型学习节点表示。

然后针对节点级分类、图级分类(从节点表示池化得到)。

**Readout(·)**是一种聚合操作(包括均值池化和加性池化),它将图中的所有节点嵌入聚合成一个单一的嵌入向量。

为了保持普遍性,我们聚焦于图神经网络(GNNs),其中包括如GCN [54]、GAT [105]以及GraphSage [37]等作为图机器学习模型。

2.2 Federated Learning

Federated Learning

M个客户端集合C = \{c_{k} \}_{k=1}^{M}

数据集D_{k} = \{ (x_i,y_i)_{i=1}^{N_k}\},数据样本数N_k.

FL的目标是优化整体目标函数,同时保持局部私有数据集。

FedAvg[76] 是一种典型的联邦学习框架,在保障数据隐私的同时显著提升了整体性能。在 fedag 算法中,仅通过中央服务器向客户端发送模型参数。具体而言,在第 t 轮中,中央服务器会选择一组客户端节点,并向这些节点分配当前版本的全局模型参数副本 w^t 用于其本地学习过程。每个被选中的客户端节点 c_k 会采用随机梯度下降法(SGD)等优化算法在其本地数据集 D_{k} 上反复迭代更新自己的参数副本值 w_{k}^{t} 。随后, 中央服务器会收集所有选定节点返回的最新版本参数值, 并通过聚合运算计算出新的全局版本参数值 w^{t+1} 。最后, 中央服务器将最新计算出的全局版本参数值 w^{t+1} 发送给各个客户端节点, 以便在第 t+1 轮继续迭代训练过程.

在该调查综述中, 我们为了表征不同层次特征的不同特征提取机制, 分别采用了GNN与FL的聚合方式.

2.3 Federated Graph Machine Learning

与标准FL不同,联邦图机器学习涉及联邦优化中的结构信息。

FL with Structured Data

联邦学习架构中涉及的结构化数据,在本例中如本例所示:各参与方基于自身本地存储的图数据进行协同训练,并同步本地存储这些图相关的数据副本。其中每个参与方可能管理一个独立的子网络模块或多个子网络模块。在实际应用中,则是根据其业务需求决定采用何种方式组织计算资源:若某参与方拥有多个子网络模块,则会针对相应的多模态特征进行联合优化;反之则专注于单模态任务处理

在这里插入图片描述

Structured FL

结构化的联邦学习算法在如图所示的情况下展现出显著的效果,在这种情况下各参与方之间的关系被明确定义为边与节点之间的连接关系并具有结构性关系。当将每个客户端视为一个节点时 这些参与方之间形成的网络即为由多个节点组成的全局网络(即所谓的客户机级网络)。基于此 我们可以开发出更加高效的联邦学习优化策略以提高系统的整体性能与收敛速度。值得注意的是 在这种情况下各参与方所拥有的数据集并不一定局限于单一类型的非结构性数据

在这里插入图片描述

参考:

分布式图机器学习系统的综述研究

全部评论 (0)

还没有任何评论哟~