Advertisement

论文翻译: Adaptive implicit friends identification over heterogeneous network for social recommendation

阅读量:

该系统通过自适应隐式朋友识别方法,在异构网络环境中实现了社交推荐的效果。(CIKM 2018)获取链接:https://dl.acm.org/citation.cfm?id=3271725)

在审阅一篇论文之前,在必要时最好已经对这些概念的基本知识有一定了解。

双分图(bipartite graph) 指的是一个顶点集合可以分为两个不相交的独立集U和V,在这种情况下,任何边都是从U集合中的一个顶点连接到V集合中的一个顶点。数学上可以用符号表示为:给定图G=(V,E),其中V被划分为两个不相交的部分U和W(即V=U∪W),并且对于所有的边(u,w)∈E来说,u∈U且w∈W。

异构信息网络 (Heterogeneous Information Network) :
T_V定义为节点v所属的类别集合,而T_E则定义为边e所属的类别集合。当类别数量之和超过2(即|T_E| + |T_V| > 2)时,则称该网络为异构信息网络(Heterogeneous Information Network)。元路径是从起始节点经过多个中间节点到达目标节点的一条通路(具体细节见3.1节)。需要注意的是,在这种情况下:
如果两条边连接同一类型的起始节点与终止节点,则这两条边被视为同一类。

ABSTRACT

Abstract

在本文著作中,作者阐述了一种新型的方法用于自适应地识别潜在的朋友,进而推导出更具可信度的用户关联关系。潜在朋友(implicit friends)被定义为那些具有相似偏好但在社交网络拓扑结构上可能较为疏远的人。

为了识别出每个用户的隐性好友关系[1] ,我们将整个系统建模为一个异构信息网络(HIN) ,随后利用这一网络架构开展后续分析与计算工作[2] 。在这个过程中 ,我们主要关注的是如何通过嵌入表示学习(EIL)技术来提取用户的相似性特征[3] 。具体而言 ,我们的研究重点在于设计一种能够有效捕捉用户间复杂关联关系的方法[4] 。研究发现 ,通过引入动态权重机制 ,我们可以更加灵活地平衡不同类型的关系强度[5] 。最终 ,我们的方法自适应地将不同数量的相似邻居整合为每个用户的隐性好友集合[6] ,从而缓解不可靠社交关系带来的负面影响[7] ,最终显著提升了推荐系统的性能[8] 。
实验结果表明,在多个真实世界数据集上评估后,该方法显著优于现有方案,并对为何隐性好友能够提升社会推荐性能给出了深入分析。

我的观点是说,在存在不可靠关系的情况下(即不稳定的关联中),unreliability(不稳定性)具体指的是那些地理上相近但又拥有不同审美观点的人群之间存在的关系状态。因此这类信息不宜作为推荐依据

1 INTRODUCTION

推荐系统的演变与完善成功地有效缓解了信息爆炸(information overload)的问题。然而,在传统推荐系统中,大多数用户通常只消耗数百万个项目(items)中的很小一部分数量,在这种情况下由于数据稀疏性而导致推荐精度较低(inferior recommendation accuracy)。随着在线社交平台迅速发展使得观察到的社交关系日益丰富,在此背景下我们可以通过清晰可辨的社会关系来辅助解决这一问题(直观的感受就是user-item矩阵呈现高度稀疏性),因为用户偏好可以从他们朋友的朋友圈或共同好友的行为模式中进行合理推断(例如协同过滤方法不再关注于计算用户间的相似度而是直接利用好友之间的关联进行偏好预测)。

Social recommender systems 的出现源于这一核心理念。值得注意的是,当前的研究发现:Social recommender systems 主要面临三个关键挑战:其一是在常见推荐系统中,并非总能找到明显且可靠的显式社会关系数据;其二是在真实场景下存在大量垃圾邮件发送者(spammers)和机器人(bots),这会导致高度噪声;其三则是这些因素可能导致社会关系网络呈现稀疏性特征。

除了上述之外,在不同的情境中,社会关系可能有不同的解读。例如 ,two close friends may reach consensus in a movie context but hold differing opinions on clothing choices. Without additional filtering, explicit social ties may lead to negative outcomes.

大多数基于 矩阵分解(matrix factorization) 的社交推荐系统主要将 显式的社会联系 整合起来。因此它们往往面临这样的局限

此外,在这种情况下,上述方法基本上建立在这样一个假设上:相连的用户具有相近的兴趣;而非相连的用户可能会有不同的喜好。

实际上,在社交网络中,彼此之间没有直接联系的用户群体(即指那些在现实中完全不相识的人),即被称为"隐性好友"(implicit friends)的用户,在实际生活中可能会具有更为接近的生活圈。

然而用户参与的不同领域之间存在高度的相关性

通过这种方式, 我们将更有效地捕捉到系统内用户的互动行为. 例如, 如果 相连的两个用户 在社交网络上互为好友并且购买了同一类商品, 那么他们之间的联系将会更加紧密.

已有研究表明,在一般推荐场景中对异构信息网络(HIN)的应用进行了初步探索。然而这些研究未能意识到显式链接(explicit links)问题的重要性以及潜在风险。在此背景下,在线社交平台上的用户行为数据被广泛收集并分析。一种新型的基于HIN的社会推荐方法被提出:该方法分为两个核心步骤:第一阶段是构建用户的隐性好友关系模型;第二阶段是利用该模型提升物品推荐的效果。

上述方法包含两个核心环节:首先,在第一环节中对每个用户进行分析以识别出其最接近的社会联系者;其次,在第二环节中研究如何充分利用这些隐性好友以提升整体效率。

在第一阶段中面临的挑战是如何发现潜在关系存在于HIN中,并为了应对这一问题而采取行动。为此,研究者特意设计了一组具有意义的meta-paths(元路径),这些meta-paths基于user-item以及user-user的社会关系与用户-物品的关系结合使用。(元路径是异构信息网络中的概念)。

这些巧妙设计的元路径,在社交网络中即便相隔遥远也能帮助我们筛选出Top-K个最相近的兴趣爱好者。具体而言,在这种场景下我们采用的学习算法构建了独特的嵌入模型以实现这一目标。(换言之,则是基于word2vec的方法)

当识别出每个用户的Top-K个隐式朋友后,在将这些隐式朋友整合进排序模型时,默认情况下每个用户的隐式朋友数量是固定的这一做法可能会降低推荐效果。

当前阶段,在处理用户个性化需求时,可以采用基于EM算法的学习策略。这种策略能够动态更新用户的个性化相似度阈值(通过该阈值确定用户的隐式好友)。

这篇文章的主要贡献总结如下

  • 系统性地将implicit friends的概念整合到社会推荐领域,并在该研究方向上进行了深入探索。通过巧妙设计元路径和嵌入表征学习机制,在HIN框架下实现了对implicit friends的有效识别。
  • 对用户的反馈信息进行分类处理后,在社会推荐领域构建了新型BPR模型,在提升用户体验的同时实现了更高效的推荐效果。
  • 采用基于EM算法的学习策略,在动态优化每个用户的隐式好友选择时实现了精准匹配,在多个评估指标下显著提升了推荐性能。
  • 通过实验验证了该方法的有效性,并深入解析了隐式好友机制在提升推荐质量中的关键作用。

2 PRELIMINARIES

U代表user集合而I代表item集合接着定义G_r作为基于user-item的二分图网络即bipartite network其中G_s则表示用户间的社交关系网络这里将两者结合起来构建一个复合型的知识传播网络模型在这个模型中Gr=(Vr,Er)由两类节点组成:用户节点与物品节点当(u,i)∈Er时则表示用户u对项目i进行了评分或购买而Gs=(Vs,Es)仅包含类型为用户的单体节点其中(u1,u2)∈Es意味着用户u1信任并认同用户的评价能力u2这种关系具有不对称性即连接关系(u1,u2)与(u2,u1)是不相同的

本文将这两个网络进行整合,并将其作为一个 异构信息网络 H 整合在一起。这样我们就能捕获两者之间所共有的丰富信息。

Heterogeneous Information Network(异构信息网络):
T_V表示节点v所属的集合类型,则边e所属的集合类型由T_E定义。当节点集合类型数与边集合类型数之和超过2时(即|E|-type数目+V-type数目>1),该网络则被称为异构信息网络。(注:若两条边连接同一始末端节点对且其type一致,则此两条边属于同一类

如图1所示展示了两类不同的节点及其相互连接关系,并分为三种不同的边类型。其中G_s是一个具有社交性质的网络模型包含四个用户节点。而G_r则是一个典型的二分图结构拥有4个用户节点与3个物品节点。右图则展示了两者的整合结果形成了一个异构信息网络整合了两类基本元素:用户节点与物品节点之间存在多种关联关系其中一种是 trust 关系 trust 关系通过蓝色线条标记出来另一种则是基于正向反馈的行为关联即正向购买行为(Purchase-P)这种关联采用红色线条表示而负向购买行为(Purchase-N)则采用灰色线条标记

在这里插入图片描述

与现有基于隐性反馈(implicit feedback)的推荐系统相比,这篇文章采用了负反馈。显性(explicit)Feedback通常表现为直接评分行为;常见的正向(positive)行为包括打高分、收藏等。相反地,在这种情况下缺乏直接(direct)的偏好信号;例如用户浏览网页记录、聆听歌曲日志等行为由于缺乏明确的标准来衡量用户的喜好。

例如,在网上听一首歌时可能会发生这样的情况:用户可能在网上播放了一首歌后发现并不喜欢这种音乐风格,并因此选择关闭该播放列表。然而,在大多数推荐系统中认为这种情况属于负面反馈(作者认为)这是考虑不周的。在本文的模型中尝试利用了(隐性反馈的)负反馈作为输入特征。

这篇文章的目的是:

  1. 找到社交网络中的implicit friends
  2. 利用这些 implicit friends 做推荐。

3 IDENTIFYING THE IMPLICIT FRIENDS OVER HIN

在当前阶段中, 首先采用基于 biased-based meta-path 的随机游走方法进行数据生成, 进而利用异构skip-gram模型学习 node embeddings, 最后针对每个 user 输出其 Top-K 个 implicit friends.

3.1 Generating Social Corpora over HIN

在现实中采用HIN建模构建推荐系统的规模往往非常庞大,在这一过程中识别隐式朋友的第一个挑战是如何在保留原始网络信息的前提下降低计算成本。借鉴于network embedding models的研究成果,在这项研究中作者引入了一系列具有意义价值的关键路径,并通过基于偏置元路径(Biased Meta-paths)的方式展开随机游走过程。随后通过这一系列操作从而生成一系列节点序列以有效解决这一计算成本问题。

元路径用这种形式来表示:

在这里插入图片描述
在这里插入图片描述

其中

在这里插入图片描述

阐述了一种新型的 composite relationship 从类型 V_1 到类型 V_q。具体而言用于描述用户间的关系。作者构建了Table 1中的六种元路径。

经过精心设计的元路径能够定位那些尽管在两个网络中彼此不近但又具有潜在关联性的节点。例如,在基于P_5构建的元路径上以U_2为根节点进行两步计算后,我们能够精准定位那些与U_2没有直接连接却可能具有潜在交互关系的商品I_1I_3。通过这种机制能够有效衡量用户间距离较远但潜在相关的商品对之间的相似程度。具体来说就是通过计算两个用户的共同邻居数量来判断它们之间的相似程度。

精心设计的元路径被用于执行随机游走以生成一系列节点。然而, 而社会关系往往充满噪声, 因此迫使我们需要识别具有偏向概率的社会可靠系列。在这里, 作者展示了如何通过元路径引导性地促进随机游走, 以生成带有偏向性的节点系列, 同样也被称作社会语料库。

。。。 (先看一下实验结果)

5 实验结果

本实验旨在探讨以下几个关键问题:

  1. 是否能够通过动态调整学习隐式朋友的数量来提升推荐效果?
  2. 相较于现有方法,IF-BPR 是否能够带来显著的性能提升?
  3. 是否能够有效缓解冷启动推荐问题?(冷启动涵盖新用户、新物品或新网站上线时的社会推荐系统设计)
  4. 在社交推荐领域中, 隐式朋友与显式朋友各自扮演着怎样的角色?

5.1实验设计

涉及了三个数据集:Last-FM、Douban与Epinions。本文旨在专注于top-N推荐技术的研究。对于该系统中的Douban与Epinions数据集而言,在评分等级为1至5的情况下,4星与5星评价被视为积极反馈;而1星与2星评价被视为消极反馈。对于该系统中的Last-FM数据集,则仅包含那些被唯一用户收藏过的歌曲作为负面反馈样本进行分析。详细的统计数据如表2所示

在这里插入图片描述

在实验过程中,在数据集中将80%用于训练阶段,并从中随机提取10%的数据用于验证集的构建;通过验证集的性能评估结果进行参数优化;随后采用五折交叉验证方法进行模型评估,并重复该过程十次以获得更稳定的评估结果;取其平均值作为最终评估指标

采用本论文构建的IF-BPR模型以及当前最受欢迎的排序算法进行对比分析。与BPR等算法相比,在现有研究中大多数基于显式的推荐算法主要基于单个关系矩阵。然而TBPR则将显式关系划分为强度不同的类别,并在此基础上提出了改进型算法。CUNE则是通过从同构网络中提取Top-K implicit friends来实现推荐。然而CUNE仅依赖于单一异构空间中的信息获取机制而无法充分挖掘用户间的潜在关联性;而本研究提出的方法则是整合了user-user社交网络与user-item二分图这两种数据结构的基础上构建了一个多模态的信息融合框架

评价指标:
Precision@K 和 Recall@K。 MAP@K 。
Map指的是 mean average precision。

配置
这部分阐述实验的超参数设置。例如Embedding_size ,即训练embedding时所使用的window size. 同时说明了各分类器所使用的参数设置是统一的. 例如CUNE与IF-BPR两个分类器均采用相同的Embedding_size设置为25,在Negative sampling过程中各自选取5次采样.

5.2 Adaptive refining vs. Top-K

简单来说,在推荐系统中为每位用户选取相同数量的隐式朋友可能会导致性能不佳。(我的理解是每位用户的隐式朋友数量因人而异)为此,作者提出了一种根据需要调整Top-K值的方法。为了验证自适应调节的必要性,通过实验比较了固定与可变Top-K数量的表现。采用自适应调节后的模型称为IF-BPR+ 。具体来说,在计算过程中取了Top-150中相似度值的中位数作为初始阈值(这里可能存在笔误?因为取中位数相当于选择了75个数值作为基准)。

如图3所示,在横轴上标记的ada指标代表了自适应的数量。能够观察到三种指标的表现均优于固定数量设置下的所有指标。另外,在douban和epins数据集上的测试中发现:随着隐性朋友数量(即implicit friends)的增加(即implicit friends的数量),模型性能持续提升直至趋于稳定。但在LastFM数据集中发现:IF-BPR的表现初期会随着隐性朋友数量的增加而提升;但随后出现性能下降现象。当K值较小时,则由于过拟合导致模型性能不佳——这是因为训练过程中对k的数量进行了限制

在这里插入图片描述

且为确保IF-BPR+ 每位学习者获得不同数量的隐式朋友信息,在各个数据集基础上抽取了1,000名用户样本,在模型运行后统计并展示了隐式朋友数量的变化情况。

在这里插入图片描述

5.3 推荐效果

在这里插入图片描述

该方法不仅在多个数据集中表现优异,在Last.fm和Douban等较密集型的数据集中取得了显著优势。

2)主要针对隐式朋友推荐的方法中,CUNE以及IF-BRP、IF-BRP+展现出更好的性能。主要原因在于被embedding learning在量化衡量相距较远的用户相似度方面发挥了关键作用,隐式朋友更能反映当前用户的偏好特点。然而,这两种网络嵌入方法的效果并不理想,尤其是在Douban数据集上的应用中表现欠佳。作者认为归因于这些模型未能有效建模用户偏好顺序这一关键因素。

3)与BPR相比,在显著性比较中未能体现出优势。值得注意的是,在Douban数据集上进行实验后发现,BPR实际上表现出色,甚至在某些情况下超越了SBPR的表现效果,这主要归因于用户的自我反馈无法完全匹配他们的偏好需求,即其中社交网络中的噪音可能对模型性能产生负面影响,这进一步说明了显式的社会关系并非总能带来积极影响

5.4 对冷启动用户的推荐

部分个体仅限于提供有限的反馈信息。其中一部分,在线注册的新用户群体中进行了实验性研究。以验证该算法是否能够有效缓解冷启动现象的问题

在图5中,观察到IF-BPR+方法在实验结果中表现出色.研究者也未能找出其他可能的原因,反而认为该隐式朋友方法在冷启动问题中的优异表现可能与较低水平的噪声有关.

该研究方法在性能上超越了CUNE模型,并对其优越性的原因进行了深入分析。一个关键的原因在于CUNE模型仅局限于user-item网络中的节点连接,在嵌入学习过程中相对较少涉及冷启动用户的影响。为此,研究者随机抽取了CUNE和IF-BPR+在嵌入训练过程中各1000个节点进行对比分析(如图6所示)。通过观察发现,在数据集中高频出现的用户所学到的嵌入表示更为优秀。

在这里插入图片描述

5.5 explicit friends vs implicit friends

上面的实验通过构建隐性邻居模型对推荐系统进行了系统评估。那么,在社会推荐过程中,隐性和显性朋友各自扮演着什么样的角色呢?首先,在这项研究中作者对隐性和显性的邻居关系进行了深入分析,并评估了两者之间的相似度差异。此外,在实际应用中作者还对一个典型用户的社交网络进行了深入研究:随机选取了一个用户id,并生成了他的社交网络图示(如图7)。从图中可以看出:显性和隐性的邻居之间具有较强的关联性;而与这些显性朋友孤立的节点很少是隐性邻居(这表明大部分隐性邻居实际上是间接关系)。如果将这些孤立的存在视为噪声干扰,则显然显性的邻居集合包含了更多的噪声信息;而相比之下我们的模型则完全排除了这些噪声点的影响。

在这里插入图片描述

一般来说, 社会关系遵循幂法则分布。换言之, 一小部分用户的网络拥有了 majority 的显式连接. 社会推荐系统关注的就是显式连接, 因此传统的社会推荐系统实际上主要聚焦于那些拥有 high degree centrality的用户(即社交广泛的人群),却忽视了尾部用户的特殊性(即分布在长尾区域的群体)。
在图8中, 作者绘制了 explicit friends 和 implicit friends 跟踪者的分布图(一种特殊的图表)。
可以看到, implicit friends 分布更为均匀地覆盖了更多的人群。
这表明, implicit friends 能够覆盖到更多的用户群体, 而不是仅仅集中在少数人身上。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~