Advertisement

个性化推荐算法实战第01章个性化推荐算法综述

阅读量:

文章目录

      • 个性化推荐算法实战第01章个性化推荐算法综述
    • 1、主要涉及分析用户行为模式的技术手段。
      2、其核心功能是根据用户偏好提供个性化内容。
      3、评估其效果及其对用户体验的影响。
      4、深入解析各种主流推荐算法及其工作原理。
      5、基于准确性和相关性等维度构建完整的评估体系。

      • 个性化召回
        • 1、什么是个性化召回?
      • 2、召回的重要作用

个性化推荐算法实战第01章个性化推荐算法综述

1、什么是推荐系统?

在介绍推荐算法之前需要先介绍一下什么是信息过载。

信息过载也就是指信息的数量远远超过了普通的手工处理能力范围。例如,在没有明确目标导向的情况下浏览超市货架上的商品,则难以全面了解各种商品的具体情况;无论是访问书店购买书籍还是通过网络平台观看电影,在缺乏明确目标和需求的情况下都会面临大量数据的信息处理问题。

那么什么是推荐系统呢?

当用户的目的是模糊不清且使用的服务会带来信息过载时,则表示该服务无法有效支持决策过程;然而,在某些情况下若系统遵循一套规范对物品进行排序后呈现,则这种系统便被称为推荐系统。这正是推荐系统的本质特征。

举例来说,在线购物的过程中

2、个性化推荐算法在系统中所起到的作用

广泛应用于工业领域的推荐系统应用取得了显著成效的三大典型产品包括电子商务平台、实时信息流以及基于地理位置的服务应用

目前在工业界取得显著成效的推荐系统主要包括三种类型:电子商务平台(简称电商)、地图服务以及基于地理位置的服务(简称LBS)。例如,在电子商务平台上(即电商),用户会面临数十万条新闻资讯和短视频内容;而在地图服务领域(即地图),用户则会接触到数百万家餐厅等信息。然而,在实际应用中,并非所有内容都会呈现给用户体验。通常只会在初始页面展示几十条到几百条相关内容。而实现这一目标的核心技术正是个性化推荐算法。

当推荐精准时(即)该推荐系统精准契合用户的使用场景或满足其潜在需求),则会促进用户体验并提升购买行为(如浏览商品信息停留时间或阅读相关内容)。因此,在现代电子商务中的推荐系统设计中,个性化算法构建已成为核心要素。

3、如何衡量个性化推荐算法在产品中起到的作用

该系统可从多个维度进行功能划分:划分为线上与线下的两大类。
在 Offline 段落中,则主要依赖于模型自身的评价指标如个性化召回算法中的准确率等关键指标。
In Online 段落中,则主要基于业务的核心指标如信息流产品中的平均阅读时长等。

信息流中的点击率 ctr 与停留时长 dwell time

电商中的 GMV(Gross Merchandise Volume,网站成交金额)

4、推荐算法介绍

包括:个性化召回算法、个性化排序算法

在这里插入图片描述
5、评估指标:

包括:在线评估指标和离线评估指标

在这里插入图片描述

个性化召回

1、什么是个性化召回?

在item全集中选取一部分作为候选集。

这里就存在一个关键问题: 即为何要筛选出一部分作为一个候选集合而非选择全体?其原因在于: 首先, 不同的用户群体对各类商品不会有相同的喜好; 其次, 从服务性能的角度出发, 如果将全体商品纳入候选集合, 则后续排序所需的时间将是十分庞大的; 对于整个推荐系统的后端而言, 这无疑将导致服务响应时间陷入灾难性状态。

基于用户的行为主特征和背景信息等数据点,在商品全集中筛选出其感兴趣的物品作为候选集合

下面举例说明:

在该推荐系统中,默认项目的池共有9个项目如图所示。其中包含两位用户A和B。他们各自关注不同类别的items。为了说明问题我们以信息流产品为例进行说明假设用户A关注体育资讯领域而用户B则倾向于娱乐资讯领域通过简单的分类召回策略可以得到最终的结果如图所示

在候选集{a,b,c,…,g,h,i}中为User A,User B选取一部分item作为候选集。

在这里插入图片描述
2、召回的重要作用

1、召回决定了最终推荐结果的天花板

那么为什么这样表述呢?我们先来探讨一下推荐系统的整体架构,在工业环境下构建个性化推荐系统时,默认策略部分的整体架构主要包括以下三个关键环节:其中召回环节涉及各类型个性化算法对items进行初步筛选;随后经过排序环节对经召回的items展示顺序进行优化;最后在策略调整阶段完成一些辅助性操作如信息流场景中的控制重复作者数量等步骤;由此可见,在个性化推荐系统中,候选集的质量直接影响着最终推荐效果;因此就有疑问:为什么不直接对所有items进行排序以满足用户体验需求呢?

在这里插入图片描述

与用户最近的是客户端,在移动互联网时代主要分布于移动应用或者网站前端。通过Web API层实现前后端之间的数据通信。Web层负责向客户端提供API服务,并对客户端发送的请求进行解析及处理后返回结果给前端界面。Web API层应避免处理策略性业务逻辑,并通过执行诸如实时日志队列等非核心功能来辅助后续的数据分析及模型训练。

最后是后端的RPC服务。个性化推荐算法主要发挥作用的部分。

RPC服务的三大策略部分。

  • 第一部分:个性化召回机制基于用户的活动数据设计,在线学习算法能够精准识别用户的兴趣偏好,在此基础上构建动态变化的个性化推荐模型以实现精准匹配目标群体的需求特性或行为特征等关键指标;此外还可以依据用户的标签特征推荐与之相关的商品;举个栗子例如某位用户的浏览历史主要集中在体育领域,则系统会优先展示近期相关的体育资讯内容;

2、个性化召回解析

个性化召回算法分为哪几大类?

以用户的活动为基础,在推荐系统中展示给用户的物品(具体来说,则指当系统推荐某物品时,用户可能点击或未点击)。

CF(基于邻域的方法包括用户相似度CF和物品相似度CF)、矩阵分解(一种有效的数据降维技术)、基于图的知识模型——利用图中的节点和边进行分析得出个性化推荐算法(PersonalRank)。

这一类个性化召回算法整体上表现为推荐效果较为直观且易于理解,在可解释性的方面表现出了较强的水平。然而,在创新性和独特性的层面则存在一定的局限

基于user profile的

基于用户的特征信息以及其行为特征分析的基础上进行分类匹配,则可依据该分类结果进行推荐系统中的物品召回操作。该算法在推荐性能上表现较为理想,在扩展性方面存在明显局限。具体而言,在对用户进行分类标记时若将其分配到某一类或多个类别标签后,在迁移至其他类别时会面临诸多限制

基于用户的偏好的统计的类别类召回。效果不错,可扩展性比较差。

隐语义模型Latent Factorization Model(LFM)

新颖性、创新性十足,但是可解释性不是那么强。

3、工业界个性化召回架构

在这里插入图片描述

整体的召回架构可以分为两大类:

首先涉及的是离线模型。依据用户的活动数据,在离线状态下从model file中计算出推荐结果;这些输出包括用户偏好相关的物品集合以及物品间的相似度文件夹;系统会针对特定分类标记计算具有排序功能的结果;随后将排序结果保存到KV存储中;在服务接入时检索模块直接从KV存储中读取数据;由于存储的是item ID信息,在读取id后需通过Detail Server获取相应物品详情;最后将所有详情整合后传递给Rank模块处理

第二大类是深度学习模型,在实际应用中需要考虑以下几点:首先,在离线训练阶段需要生成并预处理好商品(item)嵌入表示,并将其存储于本地KV结构中;其次,在线上服务系统(如推荐系统)运行时,客户端从我们的KV服务中获取数据时会调用深度学习模型服务(recall server),获取用户的显式或隐式反馈表示(User embedding)。随后系统会自动计算用户嵌入层与商品嵌入层之间的相似度信息完成相似商品召回。

全部评论 (0)

还没有任何评论哟~