【综述阅读】Graph Neural Networks for Recommender Systems: Challenges, Methods, and Directions
学习总结
文章目录
学习回顾
- 三、应用GNN面临的问题
-
3.1 图构建问题
- 3.2 网络架构开发
- 3.3 模型调优
- 3.4 计算性能
-
四、Existing Mthods
-
-
4.1 不同阶段中
-
- (1)召回层
- (2)排序层
- (3)再排序层
-
4.2 不同场景中
-
- (1)社交推荐
- (2)序列推荐
- (3)会话推荐
- (4)捆绑推荐
- (5)跨域推荐
- (6)多行为推荐
-
4.3 推荐系统的不同目标
-
-
五、Open Problems and Future Directions
-
我们掌握着推荐系统中的大规模数据及其多样化的特征,在处理复杂应用场景时展现出独特的优势;为了生成足够的交叉性以提高模型表现能力,GNN类模型被公认为这一领域的重要解决方案:
- 该方法具备处理结构化图数据的能力;
- 消息传递机制通过传播和聚合过程有效地引入了高阶关联关系;
- 通常情况下,用户的购买行为呈现较为稀疏的特点;在表示学习过程中,基于半监督的学习策略有助于缓解监督信号不足的问题。

论文题目:基于图神经网络的推荐系统研究:面临的挑战与解决方法
发布期刊:ACMTransaction on Information Systems
论文链接:https://arxiv.org/abs/2109.12843
仓库地址:https://github.com/tsinghua-fib-lab/GNN-Recommender-Systems
一、Inroduction
综上所述,本文全面阐述了GNN在推荐系统中的发展轨迹,并按应用场景对各类推荐模型进行了细致分类。研究者们最终探讨了该领域的发展前景及面临的挑战。首先,在回顾阶段主流算法时发现可将其分为三个阶段:浅层模型[74,125,126]、神经模型[26,48,56]和基于GNN的模型[55,153,188].其中早期的经典模型通过评估用户交互间的相似性来模拟协同过滤机制

经典推荐系统(阶段、场景、目标和应用)
二、Background
2.1 Recommender Systems
在工业界领域中, 推荐系统的构建一般涉及三个关键环节: 相似性召回机制(matching)、排序机制(ranking)以及再排序优化机制(re-ranking). GNN模型已在电商、新闻、音乐和电影等多个领域取得应用.

- Matching 匹配阶段:该阶段将从海量(甚至数十亿量级)的候选项目库中筛选出数百个初步匹配结果。该过程的特点包括数据规模庞大以及受实时服务延迟限制的事实,在此前提下模型通常会选择较简单的算法架构(如非深度学习类算法)。工业界实践中通常会采用多种途径进行初步匹配,并分别部署不同的模型类型。
- Ranking 排序阶段:将来自不同来源的初步匹配结果整合到统一的候选列表中,并按照预设规则进行排序筛选。由于输入数据中包含丰富的特征维度,在排序过程中需要综合考虑多维度信息以确保筛选精度。
- Re-ranking 重排序阶段:为了平衡多维度指标的需求,在初步排序的基础上进一步优化推荐结果的质量与多样性。这一过程需要深入分析各物品间的复杂关联性,并通过动态调整其在最终展示中的位置。
2.2 Graph Neural Networks
在处理具有复杂层次结构的数据时(传统),神经网络难以提取相关特征(挑战)。相比之下(对比),基于图神经网络(GNN)的消息传播机制能够有效地综合考虑相邻节点的信息(优势)。

三、Challenges of applying GNNs
3.1 Graph Construcion
GNN模型主要基于下面的三种图结构:
Homogeneous graph: 均匀分布网络中的一个概念,在这种网络中所有的顶点都属于同一类型,并且所有的关系(即边)也都是相同的属性。
Heterogeneous graph: 在复杂网络领域中被称为异构网络模型,在这种模型中存在不同类别的顶点以及不同性质的关系。
Hypergraph: 特指一种特殊的超图结构,在这种结构中一条关系可以同时关联多个顶点。
3.2 Network Design
GNN模型主要包含两种类型:一种是基于频域的谱聚类方法(GCN),另一种则是基于空间域的设计(GraphSAGE)。其中GCN方法通过以下步骤实现其核心功能:第一种方法视其为图数据,并在频域中执行图卷积运算。具体而言,在这种方法中...首先对输入的图数据进行傅里叶变换(FT),将其转换为频域中的表示形式;接着对该频域中的信号施加滤波操作;最终将经处理后的结果还原回空间域。这一过程可以用滤波器 g 对输入图像 x 进行操作来描述:\mathrm{g} \star \mathrm{x} = \mathcal{F}^{-1}\left( \mathcal{F}(g) \odot \mathcal{F}(x) \right)其中\mathcal{F}即代表傅里叶变换。
(2)后者空域模型类似CNN,对图结构进行卷积,通过加权聚合提取局部特征。
Network Design:
- 过浅的深度难以有效地建模复杂图结构,在这种情况下,默认的节点嵌入可能会出现过度的Laplacian smoothing特性。
- 叠加传播与融合层级的应用能够显著地促进节点对更高阶邻居信息的学习。
- 不同种类的融合函数(如均值融合、基于LSTM的信息融合以及分段池化等方式)可以根据具体应用场景的需求进行灵活配置。
3.3 Model Optimization
主流的GNN模型包括以下几种:具有开创性意义的图卷积网络(GCN),广泛应用于推荐系统的图神经网络框架(GraphSAGE),以及依赖注意力机制的图注意力网络(GAT)。

几种典型GNN模型的对比
3.4 Computation Efficiency
相较于传统的推荐算法(包括NCF、因子分解机模型(Factorization Machine)即FM等),GNN模型的计算复杂度更高。通过邻居采样策略或基于图结构的剪枝优化手段,例如GraphSAGE,则可显著提升计算效率。
四、Existing Mthods
4.1 不同阶段中
不同阶段(召回、排序、再排序层)的顶会paper分类:

(1)召回层
召回机制注重快速性,在这一阶段所构建的模型基本未采用基于用户的商品互动数据来构建偏好模型。未引入其他相关属性(例如:user\_age, item\_price, app\_stay\_time),仅依赖基础的数据输入。

(2)排序层
在排序层中候选项数量较少的情况下, 可以采用更为精准的模型架构, 同时引入了更多维度的信息. 传统的排序层方法多通过独热编码技术将零散特征转换为one-hot表示形式, 继而转化为密集型的嵌入向量表示.

(3)再排序层
为了实现精准的推荐目标,在二次排序层中采用固定的排序标准,并更加贴合用户需求进行筛选与排列。具体研究可参考刘老师的文章《基于商品间关系的个性化重排方法》。
4.2 不同场景中
(1)社交推荐
可以基于用户的商品互动和社交关系进行推荐。由于人们往往倾向于与具有相似偏好的人建立社交联系(这属于一种社会同质效应)。

社交推荐,用户交互受到自身偏好和社会因素的双重影响。
该场景的主要论文:

(2)序列推荐

序列推荐,根据用户的历史顺序,推荐系统的目标是预测下一个item。
主要挑战:分析用户的互动历史数据以识别其兴趣偏好,并基于此预测下一个特定的items;当一个用户或系统涉及多个不同的时间序列或数据流时,需深入挖掘这些多维度数据间的关联模式
该场景的主要论文:

(3)会话推荐
一些零售商和移动流媒体(如YouTube、微信等)在存储资源有限的情况下,并不必要实时追踪用户动态行为;相反,在这种情况下更关注的是匿名用户的短暂会话记录。因此,在这种场景下,传统的推荐系统算法(例如协同过滤)无法提供理想的性能。

会话推荐,基于一个匿名的短会话,推荐系统的目的是预测下一个item。
该场景的主要论文:

(4)捆绑推荐
打包推荐在生活中十分普遍,在众多应用中都能见到它的身影。例如,在音乐应用中常见的推荐列表、视频平台上的热门合集展示以及IKEA这样的家居套装店也都在采用这一策略。

关联推荐策略采用该研究中的模型架构基于该研究论文探讨了图神经网络在推荐系统中的应用挑战方法及未来方向
该场景的主要论文:

(5)跨域推荐
在当前环境下,大量来自不同平台的智能设备相互作用日益频繁。同时,在研究领域中交叉领域推荐(cross-domain recommendation, CDR)表现出极佳的效果,并且显示出极大的潜力来解决 cold start problem 和 data sparsity issue。

跨领域推荐基于论文《Graph Neural Networks for Recommender Systems: Challenges, Methods, and Directions》
该场景的主要论文:

(6)多行为推荐

主要挑战:精确模拟不同行为对目标行为的作用;掌握不同行为的表征学习 embedding。
该场景的主要论文:

4.3 推荐系统的不同目标
目标:accuracy、diversity、explainability、fairness。
- 准确性和多样性:为用户提供不同类别的物品。挑战在于需强化劣势主题的信息,在准确性和多样性方面进行权衡。
- 解释性:阐述为何向用户提供该物品。挑战在于依赖于图结构属性分析,并基于知识图谱外部信息进行推理。
- 公平性划分:分为两方面考虑——一是算法在特征群体上的偏差问题,二是影响商品展示程度的因素。
该场景的主要论文:


五、Open Problems and Future Directions
- Go Deeper:更深层的GNN,GNN加深可以捕获更高阶的关联,但是存在过平滑等问题,同时在GNN加深的过程中,需要保证计算量是可以接受的。最近也看到一篇DeepGCNs论文,在对应官网上有对应代码和ppt展示。
- Dynamic GNN:动态的GNN推荐,应用场景中很多图是一直在动态变化的,例如在序列推荐或者会话推荐中,用户的数据就是以动态方式收集。
- KG-enhanced Recommendation:知识图谱增强的GNN推荐,利用知识图谱引入更多外部知识,提高推荐质量的同时也能考虑多样性,公平性更多指标。
- Efficiency and Scalability:效率和可扩展性,早期的GNN模型是使用full-batch梯度下降来更新权重,但是大规模工业系统中的边数和节点数是灰常巨大的,所以要考虑效率和大数据量。
- Self-supervised GNN:自监督GNN,利用自监督缓解数据稀疏问题。
- Conversational Recommendation:会话推荐,用户可以与系统进行聊天,明确传达自己的消费需求,或者对推荐的商品给出正面或负面的反馈。
- AutoML-enhanced GNN:自适应GNN推荐,推荐目前有很多场景,如何结合Auto ML等技术,创建通用的GNN推荐系统。
