Advertisement

论文《Federated Recommendation with Additive Personalization》阅读

阅读量:

论文《Federated Recommendation with Additive Personalization》阅读

  • 一点总结

今天报道的是第37届国际深度学习与计算机视觉大会(ICLR 2024)上的一篇论文《Federated Recommendation with Additive Personalization》。该论文由悉尼科技大学Zhiwei Li及其团队与美国马里兰大学帕克分校(UMD)的Tianyi Zhou共同完成。研究工作发表在ICLR 2024Proceedings上,并重点针对联邦推荐场景中的两个主要问题:(1)在不同用户与服务器之间上传下载各自的embedding gradient时存在信息偏见;(2)面对海量数据传输时对传输效率造成了显著影响。为此他们提出了名为FedRAP的新型模型:Federated Recommendation with Additive Personalization机制。

论文链接

论文概况

FedRAP本质上是在每个客户端中对与其相关的用户嵌入向量与物品嵌入矩阵间的运算进行分解,并具体而言是将物品嵌入矩阵分解为C和D^i两个部分。

针对挑战 C1 :主要采用FRS方法将所有的item embedding 在全局嵌入空间中进行共享,并未考虑到不同物品间的偏好关系问题。研究者通过分离\mathbf{C}\mathbf{D}^{i}来有效解决这一问题。在联邦推荐机制中存在较高的通信消耗问题特别是在物品数量较多的情况下表现得尤为明显为此研究者引入了一个正则化项来进行约束以降低通信开销并提高推荐效果。此外在构建全局向量\mathbf{C}的过程中引入了渐进递增的权重函数以逐步提升模型的学习精度并优化推荐性能

Preliminaries

  • rating 矩阵 \mathbf{R} = [\mathbf{r}_1, \mathbf{r}_2, \cdots, \mathbf{r}_n ]^{\top} \in \{0,1\}^{n\times m}n表示用户数量,m表示物品数量。
  • 用户表示 \mathbf{U} \in \mathbb{R}^{n\times k},每个客户端 i 只保存自己的那一份 \mathbf{u}_{i}
  • 作者对于物品表示使用了两份矩阵,local item embedding \mathbf{D}^{(i)}\in \mathbb{R}^{m\times k},这部分用户只保存在自己的client端,不进行传输,用于保存用户的个性化信息。
  • 另一份用于保存global item 信息的 embedding 是 \mathbf{C} \in \mathbb{R}^{m \times k}。在整个FedRAP中,用于传播的只有 \mathbf{C} 这部分而已。
  • 为标记每个用户的 interaction records,使用\boldsymbol{\Omega} = \left\{(i,j): \text{the} \ i\text{-th user has rated the}\ j\text{-th item} \right\}

下面介绍具体的方法论部分。

Methodology

FedRAP 的主要创新是在 client 端进行的。

客户端维护了用户嵌入矩阵和所有物品的嵌入矩阵,并新增了一个全局嵌入矩阵。同时,在预测交互时采用内积与sigmoid函数结合的方法。如上所示:

\hat{r}_{ij} = 1/(1 + e^{-<\mathbf{u}_i, (\mathbf{D}^{(i)} + \mathbf{C})_j>}) \tag{1}

损失函数使用 交叉熵损失,如下所示:

\min_{\mathbf{U}, \mathbf{C}, \mathbf{D}^{(i)} } \sum\limits_{(i,j)\in \boldsymbol{\Omega}} -( r_{ij} \log ({\hat{r}}_{ij}) + (1 - r_{ij}) \log(1 - {\hat{r}}_{ij})). \tag{2}

另外,添加一个正则化项用于约束 \mathbf{C} ,使得 \mathbf{C} 能够 与 每个客户端的 个性化信息 扩大差距,加入下式:

\max_{\mathbf{C}, \mathbf{D}^{(i)}} \sum\limits_{i=1}^{n} \|\mathbf{C} - \mathbf{D}^{(i)} \|_{F}^{2} \tag{3}

为了促进早期阶段能够更充分地学习 user-item 之间的 interaction 协同过滤信息,在正则化项中引入了两个 权重因子 \lambda_{(a, v_{1})}\mu_{(a, v_{2})}。其中 a 表示迭代轮次坐标,而 v_1v_2 被视为宏参数。具体的Loss如下:

最小化问题中的累加项包括交叉熵损失项以及两个正则项的组合

在这里最后一项被应用为 1-范式约束。该约束通过总绝对值最小化来衡量空位数量的变化程度,并由此可减少通信开销。其中参数 \lambda\mu 均遵循相同的计算规则,在这里均基于双曲正切函数进行计算。具体而言,在公式中我们有:\lambda = \tanh(a/10) \cdot v_1\mu = \tanh(a/10) \cdot v_2(注:此处v_2可能是v_2或其他变量,请根据上下文确定)。

Server端与常规FRS类似, 但FedRAP仅进行\mathbf{C}的交互.整个流程图如图所示.

FedRAP Architecture

对FedRAP整个算法流程进行总结,如下算法所示,简单高效:

FedRAP Algorithm

Experiments

本文的一大特点是实验部分以图形占据主要版面,在数据呈现形式上相对较少(虽然放置在附录中以便查阅具体的数值信息)。具体如下:

Overall Comparisons

另外,在实验部分的描述中采用了更加简洁明了的语言,并按照系统性的方式将所有variants归纳在一起,在各个分析区域逐一比较其特性与效果差异

消融实验

Ablation

Convergence

Convergence

Curriculum分析

研究不同组合的参数设置时发现 FedRAP 采用双曲正切函数作为基础模型

Curriculum

结果如下:

Analysis of Curricula

可视化

Visualization

一点总结

此外,在文中作者讲述了关于联邦推荐系统中某个客户端在连续两次参与梯度aggregation过程中会泄露隐私的相关证明。

整体而言,本文提出的方案相对简单,然而有效。simple yet effective。

全部评论 (0)

还没有任何评论哟~