Advertisement

【论文阅读】Exploiting Label Skews in Federated Learning with Model Concatenation

阅读量:

论文地址:https://doi.org/10.1609/aaai.v38i10.29063

摘要

Federated Learning (FL) has emerged as a promising solution to perform deep learning on different data owners without exchanging raw data. However, non-IID data has been a key challenge in FL, which could significantly degrade the accuracy of the final model. Among different non-IID types, label skews have been challenging and common in image classification and other tasks. Instead of averaging the local models in most previous studies, we propose FedConcat , a simple and effective approach that concatenates these local models as the base of the global model to effectively aggregate the local knowledge. To reduce the size of the global model , we adopt the clustering technique to group the clients by their label distributions and collaboratively train a model inside each cluster. We theoretically analyze the advantage of concatenation over averaging by analyzing the information bottleneck of deep neural networks. Experimental results demonstrate that FedConcat achieves significantly higher accuracy than previous state-of-the-art FL methods in various heterogeneous label skew distribution settings and meanwhile has lower communication costs. Our code is publicly available at https://github.com/sjtudyq/FedConcat.

总结:

  • 为解决标签偏斜,提出FedConcat,concatenates 局部模型作为全局模型的基,以有效地聚合局部知识。
  • 为了减少全局模型的规模,采用聚类技术,根据客户的标签分布对客户进行分组,并在每个簇内协同训练一个模型。
  • 通过分析深度神经网络的信息瓶颈,从理论上论证了连接方法相较于平均方法的优势。
  • 实验结果表明,在各种异构标签偏斜分布设置下,FedConcat的准确率显著高于之前最先进的联邦学习方法,同时具有更低的通信成本。

其他讲解:[Exploiting Label Skews in Federated Learning with Model Concatenation——利用模型级联的联邦学习中的标签偏移_联邦学习 标签偏移-博客]( "Exploiting Label Skews in Federated Learning with Model Concatenation——利用模型级联的联邦学习中的标签偏移_联邦学习 标签偏移-博客")

Introduction**(简略)**

尽管现有的联邦学习(FL)方法已经在处理数据异构性问题上取得了一定进展,但它们依然面临标签偏斜问题的挑战。在标签偏斜的情况下,不同客户端之间的标签分布差异会显著降低FL模型的性能,尤其在极端的标签偏斜情况下,现有的基于模型平均的算法效果并不理想。

为了应对这一问题,本文提出了一种新的方法——FedConcat,通过模型连接而非传统的平均方法来解决标签偏斜问题。具体来说,FedConcat通过聚类将客户端根据标签分布划分为若干组,在每组内应用FedAvg训练模型,并将各组的编码器进行连接,从而充分利用不同客户端的标签分布信息。实验表明,FedConcat在多种标签偏斜设置下,相较于现有方法显著提高了准确率,尤其在极端标签偏斜情况下表现尤为突出,同时还在降低通信和计算成本方面展现了优势。

Introduction(与Method中内容重复)

问题

数据异构性是 FL 中的一个具有挑战性的问题,因为 FL 客户端之间的非独立同分布(non-IID)数据分布可能会降低 FL 模型的性能并减缓模型收敛(Karimireddy 等 2020;Li 等 2020b;Hsu, Qi, 和 Brown 2019;Li 等 2021)。根据 Li 等(2021)的研究,非独立同分布数据包括标签偏斜、特征偏斜和数量偏斜。在本文中,我们重点关注标签偏斜 (即不同客户端的标签分布不同),这在现实中非常常见(例如,不同地区的疾病分布存在差异)。

相关研究

FedProx(Li et al. 2020a)使用本地模型与全局模型之间的L2距离来正则化本地训练。MOON(Li, He, and Song 2021)通过本地模型与全局模型表示之间的相似度来正则化本地训练。FedRS(Li and Zhan 2021)限制了本地训练期间未见类别的更新。FedLC(Zhang et al. 2022)进一步校准logits以减少少数类别的更新。现有研究的关键思想通常是减少本地训练中产生的漂移(Li et al. 2020a; Li, He, and Song 2021; Karimireddy et al. 2020; Li and Zhan 2021; Zhang et al. 2022)或在服务器端设计更好的联邦平均方案(Wang et al. 2020b,a)。

这些算法基于平均框架,试图通过减轻联邦平均中的副作用来解决 label skews 问题。

效果不理想。在 label skews 的情况下,平均方法可能没有太大意义 ,因为每个参与方可能拥有非常不同的模型来预测不同的类别。特别是在极端 label skews 情况下 ,每个客户端拥有完全不同的类别(例如,人脸识别),由于局部最优解相距甚远 ,对这些本地模型进行平均会导致显著的准确率下降 。更糟糕的是,由于实践中 label skews 的多样性,难以量化 label skews 对模型的影响。

本文创新

在本文中,我们跳出了模型平均方案的框架,提出使用模型连结(model concatenation) 作为聚合方法。由于每个局部模型 由于标签/标记偏差而擅长对某些类别的样例进行分类 ,我们建议连结局部模型学成的特征,以结合来自局部模型的知识 。例如,在标签/标记偏差的情景中,一个客户端拥有大量关于猫的数据,但关于狗的数据很少,而另一个客户端则拥有大量关于狗的数据,但关于猫的数据很少。然后,每个客户端可以训练一个擅长预测某一类别的局部模型。直观上,连结这些模型可以汇集所有关键信息,从而帮助训练一个适用于所有客户端类别的良好分类器。这一看似简单的想法从根本上改变了现有方法将标签/标记偏差视为需要避免或缓解的问题的方式。

基于这一想法,我们提出了一种名为FedConcat 的新型联邦学习算法,以解决标签偏斜问题。

  1. 首先,服务器根据客户端 的标签分布将其划分为几个不同的聚类 。为了解决上传标签分布信息的隐私问题,我们开发了一种有效的方法,直接从模型中推断标签分布
  2. 其次,在每个聚类内使用FedAvg算法 ,以学习适用于每种标签分布的模型。
  3. 第三,服务器将所有聚类的模型编码器 (即除最后一层外的神经网络)进行拼接
  4. 最后,在固定拼接编码器参数的情况下,服务器与客户端共同 使用FedAvg算法在其上训练 一个分类器

我们从理论上证明,通过应用信息瓶颈理论,拼接比在特征空间中进行平均保留了更丰富的互信息。

在每个聚类内,客户端具有相似的标签分布。由于聚类内部的标签偏斜问题得到了缓解,FedAvg能够胜任在轻微标签偏斜的情况下为每个聚类训练出良好的模型。由于拼接的编码器已经提取了良好的特征,最终阶段训练线性分类器的任务变得更加简单。因此,FedAvg能够在简化任务上实现较高的准确率。此外,通过聚类,我们可以通过调整聚类数量来控制全局模型的大小。

我们在多种标签/标记偏斜设置下进行了广泛的实验。实验结果表明,与其他最先进的联邦学习(FL)算法(包括FedAvg(McMahan等,2016)、FedProx(Li等,2020a)、MOON(Li、He和Song,2021)、FedRS(Li和Zhan,2021)以及FedLC(Zhang等,2022))相比,FedConcat能够显著提高准确率。在极端标签/标记偏斜的情况下,这种改进尤为显著。此外,与基准方法相比,FedConcat能够在通信和计算成本大幅降低的情况下实现更好的准确率。我们的贡献可以总结 如下:

  • 我们提出了一种新的联邦学习聚合方法,通过连接本地模型而非平均化。此外,我们应用聚类技术来缓解标签/标记偏斜并控制全局模型的大小。
  • 我们从信息瓶颈的角度理论上证明了连接比平均化保留了更多的信息,从而保证了我们方法的有效性。
  • 我们通过大量实验展示了FedConcat的有效性和通信效率。在一个流行的联邦学习基准(Li等,2021)中,FedConcat在各种标签/标记偏斜设置下,平均在CIFAR-10上优于基准方法4%,在CIFAR-100上优于8%,在TinyImageNet上优于2%,在FMNIST和SVHN数据集上优于1%。

**设D^i = 为客户 i 的本地数据集。标签/标记偏斜意味着P在不同客户之间存在差异。**根据Li等人(2021)的研究,标签/标记偏斜可能导致全局模型的准确率显著下降。这种情况在现实场景中也非常普遍。例如,不同地区的疾病分布不同,这导致在训练全局自动疾病诊断系统时出现标签/标记偏斜。

先前的研究如FedAvg(McMahan等人,2016)对所有客户提交的模型进行平均。然而,在非独立同分布(non-IID)数据分布的情况下,每个客户都会朝着其局部最优训练出一个良好的局部模型。虽然这些局部最优可能相距甚远,但简单地平均局部模型可能会产生一个同样远离全局最优的全局模型。有许多现有研究旨在基于FedAvg(McMahan等人,2016)解决非独立同分布数据分布问题。

一种流行的方法是改进局部训练,使得局部模型不会离全局最优太远。例如,FedProx(Li等人,2020a)添加了一个正则项,用于衡量局部模型与全局模型之间的距离。MOON(Li, He, 和 Song 2021)具有类似的动机,通过对比损失进行正则化,以衡量局部模型与全局模型表示之间的距离。这两种方法都在损失函数中添加了一个额外的项,并且比FedAvg需要更多的计算。SCAFFOLD(Karimireddy等人,2020)通过为每个客户保持一个校正项来调整局部梯度,因此其通信代价翻倍。Wang等人(2021)提出基于上传的梯度以及一个小型公共数据集来监控每个客户的类别不平衡。然后,他们通过其Ratio Loss来缓解这种不平衡。FedRS(Li和Zhan 2021)提出通过对缺失类别的logits进行下缩放来限制其更新,然而它仅处理缺失类别。为了进一步处理少数类别,FedLC(Zhang等人,2022)提出基于本地训练数据的标签/标记统计量来校准logits。FedOV(Diao, Li, 和 He 2023b)引入了“未知”类别,并在局部训练中训练开放集分类器以实现更好的集成。更多技术在我们完整版本(Diao, Li, 和 He 2023a)的附录A.1和A.2中讨论。

Our Method: FedConcat

问题陈述

联邦学习的目标是在不暴露原始数据的情况下,在多个客户端上训练一个全局模型。设D^i为客户端i的本地数据集。假设有K个客户端,每个客户端的本地损失函数为athcal{L}。形式上,我们的目标是训练一个全局模型f,以最小化以下目标。

Motivation

**现有方法在标签偏斜中的缺陷 :**在标签/标记偏差的情况下,由于本地模型是在不同类别上进行训练的,因此它们之间可能存在显著差异。因此,对这些任务差异较大的模型的每个参数进行平均几乎没有意义。举例来说,我们在CIFAR-10数据集的两个客户端上训练FedAvg,这两个客户端存在标签偏斜。第一个客户端仅包含类别0和2的样本,而第二个客户端仅包含类别1和9的样本。对于这两个客户端,我们每轮训练10个本地周期。我们在图1中展示了两轮训练后本地模型和平均全局模型的准确率。可以看出,在本地训练过程中,本地类别的准确率有所提高,而平均操作则导致准确率显著下降。这个例子说明了在极端标签偏斜情况下对本地模型进行平均所存在的问题。
图1:在 label skews 情况下,两个客户端上本地模型和平均模型的准确率。

An alternative view of label skews将神经网络视为一个特征提取器(feature extractor)(网络中除最后一层外的所有层)和一个分类器(classifier)(最后一层) 。由于每个客户端的模型在其自身数据集上已经得到了良好的拟合,我们已经拥有了许多在本地训练良好的特征提取器。直观上,将来自不同本地提取器的特征进行拼接可以为标签偏斜提供更好的特征表示 。因此,我们提出了拼接特征提取器并训练一个全局分类器的想法。

如果我们连结所有客户端的模型,当客户端数量较多时,最终模型的大小可能会显著增加,并且训练全局分类器的开销也会更加昂贵。实际上,尽管标签/标记偏差普遍存在,但某些参与方可能具有相似的标签/标记分布。例如,同一区域的医院可能会遇到相似类型的疾病。因此,我们在训练之前采用了聚类方法。通过根据标签/标记分布将所有客户端聚类为少数几个组,我们可以控制全局模型的大小 。在每个组内,由于分组后的客户端具有相似的标签/标记分布,训练后的模型能够很好地捕捉这类数据。

简而言之,我们通过为每个组单独生成解决方案来解决标签/标记偏差问题。接下来,我们将这些解决方案结合起来,以较小的通信代价获得更好的全局模型。

Proposed Algorithm

图2:FedConcat的工作流。(1) 聚类阶段:客户端基于标签分布进行聚类;(2) 平均阶段:每个簇使用FedAvg训练一个模型;(3) 训练后阶段:所有训练良好的特征提取器(E1, E2)被连接起来。所有客户端在特征提取器固定的情况下共同训练一个全局分类器(C)。对于FedConcat-ID,标签分布在聚类阶段被推断出来。

我们的框架如图2所示,包含三个阶段:聚类、平均和后训练。首先,将具有相似标签分布的客户端分组到相同的簇中。然后,每个簇执行联邦学习(FL)以训练一个适合该簇的模型。最后,服务器收集所有簇的特征提取器,并固定其参数,在所有客户端之间训练一个全局分类器。整体算法如算法1所示。接下来,我们将详细阐述这些阶段。

阶段1-A:基于标签分布的聚类。

为了缓解标签不平衡问题,我们基于标签分布进行聚类,使得每个簇包含具有相似标签分布的客户端。形式上,对于客户端i,假设类别j的样本数为N_{i,j},总样本数为N_{i} = um_j N_{i,j}。其标签分布定义为向量:

其中m为全局类别数。在本文中,我们使用K-均值算法 (Lloyd 1982)进行聚类。对于超参数K,可以使用肘部法(elbow method)选择最佳值。(参考[吴恩达机器学习(二十五)K-均值算法_elbow method 手肘法是谁提出-博客]( "吴恩达机器学习(二十五)K-均值算法_elbow method 手肘法是谁提出-博客"))。我们选择K-均值算法是因为其简单、流行且足以满足我们的研究需求。通过聚类,我们可以控制客户端生成的不同模型的数量,这有助于减少后续拼接中的模型大小。

阶段1-B:无标签分布的聚类。

如果客户端由于隐私问题无法上传标签分布,我们建议利用第一轮上传的本地模型来推断每个客户端的近似标签分布。通过这种方式,我们仅上传像FedAvg这样的训练模型,不会导致任何额外的隐私泄露。

在本地训练过程中,如果某个类别出现频率较高,模型倾向于为该类别输出更高的概率。许多研究(Johnson 和 Khoshgoftaar 2019;Bahng 等人 2020)观察到,深度学习模型的预测偏向于训练集中的多数类别 。直观上,如果我们将大量随机输入放入客户端模型,平均预测可以反映训练数据的标签分布。因此,我们生成随机数据 (即每个像素从零到一范围内随机生成的图像),并将这些随机数据输入每个客户端模型 。然后,我们计算每个类别的平均预测概率,作为每个客户端的推断标签分布 。形式上,将客户端 i 的模型表示为 fi。我们随机生成 r 个输入 X1, ..., Xr,客户端 i 的推断分布

其中 σ 是 Softmax 函数。

我们将此变体称为 FedConcat with Inferred Distribution(FedConcat-ID)。神经网络分类器可以视为在其训练数据上学成的函数 p(Y |X)。在理想情况下,如果输入 X 与 Y 相互独立,则等式 p(Y ) = p(Y |X) 成立。公式 (3) 的潜在直觉是利用无信息输入来近似 p(Y )。

阶段2:簇内平均。

在每个簇内,我们使用FedAvg(McMahan等,2016)训练一个适合该簇的模型。由于簇内客户端的标签分布相似,我们期望全局模型在该簇的主导类别上表现良好。

阶段3:训练后阶段。

在我们拥有K个模型,我们将它们的编码器(除最后一层外的所有层)堆叠为全局特征提取器。然后,我们将全局特征提取器一次性广播给所有客户端,并要求客户端使用FedAvg联合训练一个分类器,同时固定全局特征提取器。由于编码器的训练已停止,我们可以仅通过一次前向传递计算原始数据的特征。在其他训练轮次中,我们可以直接将特征输入线性分类器进行训练。因此,在此阶段,我们的主要计算和通信仅发生在线性分类器上。

Theoretical Analysis and Discussion

Experiments

我们进行了大量实验以评估我们的方法。通过全面的实验,我们发现我们的技术在各种标签偏斜情况下始终优于基准方法,提供了更高的准确率和更稳定的收敛性。重要的是,我们的方法在部分客户端参与、大型模型和客户端数量增加的场景中仍然有效。引入的标签推断和聚类组件既简单又有效。由于篇幅限制,我们将以下实验放在完整版本的附录中(Diao, Li, 和 He 2023a)。

Datasets: 我们的实验使用了CIFAR-10(Krizhevsky, Hinton等,2009)、FMNIST(Xiao, Rasul和Vollgraf,2017)、SVHN(Netzer等,2011)、CIFAR-100(Krizhevsky, Hinton等,2009)以及Tiny-ImageNet数据集(Wu, Zhang和Xu,2017)来评估我们的算法。Li等人(2021)提出的划分策略生成了多种非独立同分布(nonIID)设置,重点关注标签/标记偏斜,因为其会导致显著的准确率下降(Li等人,2021)。在实验中,#C = k表示 clients with k unique labels,而p_k im Dir表示每个客户端分配的每个类别样本的狄利克雷分布采样比例。默认情况下,我们将整个数据集划分为40个客户端。

Baselines: 我们的方法与一些知名的开源联邦学习方法进行了比较,包括FedAvg(McMahan等,2016)、FedProx(Li等,2020a)、MOON(Li、He和Song,2021)、FedRS(Li和Zhan,2021)以及FedLC(Zhang等,2022)。基准设置复现了Li等(2021)的研究,运行50轮,每轮中每个客户端进行10次本地训练,批量大小为64,学习率为0.01,使用随机梯度下降(SGD)优化器,权重衰减为10⁻⁵。

Models: 为了研究不同客户端容量下的多样化场景,我们实验了三种不同的神经网络:简单的CNN、VGG-9和ResNet-50。默认情况下,我们使用简单的CNN。我们全版本(Diao, Li, and He 2023a)的附录D.1提供了关于实验设置的更多细节。

Effectiveness

我们评估了FedConcat和FedConcatID与其他基线方法的性能。默认情况下,我们的配置包括将40个客户端划分为K = 5个聚类,并为训练分类器分配200轮。为了使FedConcat的通信代价与50轮FedAvg的通信代价相等,我们将编码器的训练轮数设置为31轮。对于FMNIST数据集,由于其图像大小与CIFAR-10和SVHN不同,我们在分类器第173轮时记录测试准确率,以保持相似的通信代价。
表1:我们的方法与基准方法在相同通信代价下的实验结果对比。基准算法的模型是FedConcat中一个簇的模型。我们运行了三种不同的随机种子,并报告了平均准确率。

表1中的结果表明,FedConcat在大多数场景中始终优于其他五种联邦学习算法。具体而言,在具有挑战性的CIFAR-10数据集中,FedConcat和FedConcat-ID平均提升了约4%。在考虑划分类型时,更复杂的#C = 2和#C = 3划分中表现出显著的改进。对于SVHN和FMNIST数据集的基于Dirichlet的标签分布,由于标签偏差较小,基准算法在集中式训练中的准确率下降幅度较小。在这种情况下,我们的方法与基准算法表现出相当的准确率。

Scalability

在本节中,我们评估了FedConcat的可扩展性。我们保持聚类数量K = 5不变。在每一轮中,随机选择50%的客户端参与联邦学习训练。结果如表2所示,证实了在200个客户端和部分参与设置下,FedConcat和FedConcat-ID继续优于基准算法。
表2:FedConcat和FedConcat-ID与基线方法在CIFAR-10数据集上的可扩展性对比,200个客户端。

Experiments on Larger Model

在本节中,我们对更大的模型、更多的客户端以及更复杂的任务进行了实验,即在CIFAR-100和Tiny-ImageNet上训练ResNet-50。实验中共有200个客户端,每轮训练中随机选择20%的客户端参与训练。对于基准算法,我们进行了500轮通信训练。对于FedConcat和FedConcat-ID,我们分别进行了480轮编码器训练和500轮分类器训练,以匹配通信代价。由于ResNet-50具有巨大的记忆和计算开销,我们将聚类的数量设置为2,以限制记忆和计算成本。

在使用ResNet-50在CIFAR-100和Tiny-ImageNet上训练FedConcat时,出现了新的问题。首先,由于每个本地簇所见的训练数据比在所有客户端上训练时要少,本地簇模型容易过拟合。其次,由于标签分布在100维或200维的高维空间中变得更加稀疏,簇的大小变得非常不平衡。某些点可能离其他点太远,以至于它们被分配到一个非常小的簇中。第三,由于ResNet-50比简单的CNN拥有更多的隐藏神经元,最终分类器层的训练过程更难收敛。

为了解决这些问题,我们增加了权重衰减因子以应对过拟合。将多数簇的客户端成员重新分配,以强制每个簇保持平衡。在后训练阶段的开始,全局分类器使用簇分类器的参数进行初始化,以加速收敛。我们在完整版本(Diao, Li, and He 2023a)的附录D.8中详细讨论了这些调整,并进行了消融研究。

如表3所示,通过解决这些问题,我们的方法在CIFAR-100上比基线平均提高了8%的准确率,在Tiny-ImageNet上提高了2%。

Effect of Clustering

如果我们不进行聚类而将所有客户端的模型连结起来,当客户端数量较多时,全局模型可能会变得非常庞大。庞大的最终模型会导致高昂的通信和计算成本。此外,由于每个客户端的训练样本可能有限,将所有客户端的模型连结起来可能会导致收敛不稳定和测试准确率较低的问题。

图3展示了在CIFAR-10数据集上的实验结果,其中我们展示了在训练100轮编码器后,每一轮分类器的测试准确率。无聚类的情况下,每个客户端训练一个模型供服务器连结,每个客户端模型仅使用少量样本进行训练,容易过拟合。由于这些模型没有得到充分训练,连结它们的编码器很难提取出良好的特征。从图3中可以看出,聚类不仅减少了通信代价,还通过使用更多样本有效提高了模型质量。

FedConcat将小模型连结为一个大模型。作为基准,我们直接在等效于FedConcat连结模型大小的模型上训练先前的联邦学习算法。图4展示了CIFAR-10上的训练曲线,表明FedConcat在与连结模型相比时仍保持其优势。

Comparing with Other Clustered FL

在本节中,我们在聚类阶段采用了其他聚类联邦学习(FL)算法。我们进行了三种基于聚类的方法的实验,包括IFCA(Ghosh等人,2020年)、最近提出的FedSoft(Ruan和Joe-Wong,2022年)以及FeSEM(Long等人,2023年)。CIFAR-10数据集的结果如表4所示。可以观察到,FedConcat和FedConcat-ID在性能上优于其他聚类策略。FeSEM在本地训练过程中引入了一个额外的近端损失项,这导致了类似于FedProx的额外计算负担。IFCA和FedSoft则需要多次通信代价,因为所有簇模型都需要传输到客户端。

Conclusion

在本文中,我们提出通过连接来缓解联邦学习(FL)中由标签/标记偏斜引起的准确率衰减问题。我们表明,在大多数情况下,我们的方法能够显著优于各种最先进的FL算法,并且通信成本更低。FedConcat能够缓解准确率衰减,因为它将困难问题(在极端标签/标记偏斜下在所有客户端之间训练一个模型)分解为多个简单问题(在每个簇中在缓解的标签/标记偏斜下训练一个模型)。然后,它收集简单问题的线索(即提取的特征)来解决原始的困难问题。我们的方法为FL社区带来了新的见解,促使他们寻找其他聚合方法,而不是简单地使用平均法。

全部评论 (0)

还没有任何评论哟~