Advertisement

www‘18文献阅读分享 DRN: A Deep Reinforcement Learning Framework for News Recommendation

阅读量:
标题 期刊 年份 关键词 研究背景 创新点
DRN: A Deep Reinforcement Learning Framework for News Recommendation WWW 2018 2018 Reinforcement learning, Deep Q-Learning, News recommendation 在线个性化新闻推荐面临新闻特征和用户偏好的动态变化,现有方法仅关注当前奖励(如点击率),忽略了长期影响和用户反馈的多样性,且容易推荐相似内容导致用户疲劳。 1. 提出基于深度强化学习(DQN)的框架,显式建模未来奖励。
2. 将用户返回模式作为用户反馈的补充,以捕捉更多用户反馈信息。
3. 引入有效的探索策略(Dueling Bandit Gradient Descent),避免推荐完全不相关的内容,提高推荐多样性。

📖 论文背景

在快速传播的时代中,在海量信息面前,新闻推荐系统扮演着关键的角色

传统不足:

只关注当前奖励(Current Reward)

问题描述
大多数现有的在线推荐系统主要关注的是用户的即时互动水平(Click-Through Rate, CTR),即是否会对推荐的内容产生即时点击行为。然而这种基于短期优化的设计忽视了当前推荐对未来行为模式的影响。

用户反馈信息有限(Limited User Feedback)

问题描述
现有的推荐系统往往主要局限于通过用户的点击行为(如点击/未点击标签)来获取反馈信息,并忽视了其他重要的用户互动形式。

推荐内容单一化(Homogeneous Recommendations)

问题描述
现有的推荐系统习惯性地为用户提供大量相近的新闻资讯,并可能引发用户的厌倦感(User Boredom)。

探索策略的不足(Ineffective Exploration Strategies)

问题描述
大多数现代推荐系统主要依赖于基础性的\epsilon-greedy策略或Upper Confidence Bound(UCB)方法来进行探索。然而,在这种情况下使用\epsilon-greedy可能导致推荐内容与当前搜索结果无关;相反地,在这种情况下使用UCB则会更加稳健地评估其潜在价值。

🛠️ 相关工作

  • 新闻推送体系 :主要包括基于内容的方法、协同过滤技术与混合策略。其中基于内容的方法主要通过计算文本间的相似度与流行度指标来构建用户的画像,并在此基础上实现个性化的内容展示;协同过滤技术则通过分析用户的评分行为或商品属性信息来进行预测与推荐;而混合策略则旨在融合上述两种方法的优势特点以达到更高的推荐效果。值得注意的是,在这一领域的发展中,
    • 强化学习的应用 :主要可分为两类:一种是基于上下文的多臂老虎机模型;另一种则是马尔可夫决策过程框架下的动态规划算法。具体而言,在前者中,
      • 上下文多臂老虎机模型以用户的属性信息及商品特性作为状态信息,并假设奖励函数是状态特性的线性组合;
      • 而后者则能够同时考虑当前状态下的即时奖励以及后续状态中的潜在收益,
        但其面临的挑战包括大规模的状态空间以及数据稀疏性问题导致难以实现有效的学习优化。

🧠 模型图输入输出转变

  • 输入 :被点击的新闻(如其标题被访问的情况、发布机构以及位置信息等)、文章标题(如分类信息及其浏览量情况)、与用户的互动频率(如其历史访问实体的相关性程度)以及时效性(如请求发生的时间点及其更新频率等).
    • 输出 :根据模型预测的结果筛选出最佳奖励分值较高的候选文章集合,在考虑了用户点击概率及活跃度的基础上进行排序,并最终选取排名靠前的文章向用户提供推荐服务.

该系统致力于解决在线个性化新闻推荐问题,并充分注意到新闻特征及其动态变化。此外,在有效利用用户的反馈信息方面表现突出。通过巧妙结合离线学习与在线学习的方法,在实现高效的训练与实时更新过程的同时提供了良好的用户体验

离线部分

特征提取

  • 新闻特征 :基于新闻数据提取了417维的独热编码信息,并涉及多个维度如标题、来源机构等。这些编码不仅反映了新闻的基本属性还包括其在不同时间段内的受欢迎程度.
  • 用户特征 :分析了用户在过去不同时间段内点击的新闻情况,并记录了包括来源机构在内的多个属性指标。这些指标共涵盖了2065个维度.
  • 用户-新闻交互 :通过25个维度描述了用户与特定新闻之间的互动频率,并据此评估用户的偏好倾向.
  • 上下文 :通过32个维度捕捉了影响阅读行为的各种上下文信息如时间点以及新鲜度等关键因素.

模型训练

  • 基于多层次深度Q网络(Deep Q-Network, 缩写DQN)的技术框架,在分析用户的潜在奖励评估方面具有显著优势。该技术能够精确估算出用户点击特定新闻的概率值以及用户的活跃度指标。
  • DQN算法通过深入挖掘并建模复杂的关系网络,在特征提取与奖励预测之间建立了高效映射关系。
  • 在离线训练阶段, 采用用户的点击日志作为训练数据集, 通过监督学习机制优化模型参数, 从而实现对用户的点击行为与活跃度反馈的有效预测。

在线部分

推荐过程

  • PUSH阶段:当用户提交新闻请求时,系统代理G接收当前用户的特征向量和候选新闻的特征向量作为输入,并运用预训练模型生成一个包含前k条最优新闻的推荐列表L。这一过程结合了对现有数据的有效利用(exploitation)与对新可能性的探索(exploration)。

  • 利用:基于已训练好的DQN模型框架,系统能够计算出每个候选新闻所蕴含的价值评估指标,并依据这些指标值筛选出排名最高的前k条新闻作为最终推荐结果。

  • 探索:研究团队采用了双层_bandit梯度下降法构建探索网络Q̃,该网络参数W̃通过在原有参数W基础上叠加微小扰动ΔW获得。随后借助概率性交错机制整合利用网络与探索网络产生的推荐结果,从而实现对推荐准确性和多样性的平衡优化。

  • FEEDBACK阶段 :当用户响应推荐新闻列表L时, 通过交互行为提供反馈信息B. 这些反馈信息包括用户的点击情况以及其活跃度的变化情况.

    • MINOR UPDATE阶段 :每当时间戳t1、t2、t3等出现后, 推荐代理G会对比当前基于探索网络Q̃的推荐性能与现有策略网络Q的表现. 如果发现Q̃能产生更好的推荐效果, 则会更新当前的网络参数为Q̃的参数; 否则维持原有参数不变. 这种更新机制能够定期执行,从而有效适应用户的动态行为变化.
      • MAJOR UPDATE阶段 :每隔一段时间(如1小时), 推荐代理G会从内存中提取一批历史记录, 并利用这些数据通过经验回放技术对DQN网络进行参数优化. 具体而言, 系统会随机抽取若干批历史数据样本, 并在此基础上对DQN模型进行迭代优化以适应最新的用户体验模式与新闻特征.

模型优势

  • 动态适应能力:基于在线学习算法设计的动态调整机制,在线追踪新闻热点及用户兴趣的变化趋势,并持续优化内容更新频率及推送时间间隔参数设置。
  • 全面评估用户体验反馈:不仅参考用户的点击数据作为重要依据,并结合用户的活跃度指标展开深入分析;同时将用户的活跃度作为关键评估指标。
  • 协调算法开发与应用间的平衡点:采用双重对偶梯度下降法的智能探索方案,在确保能够发现新兴热点的同时又能保证推荐质量不受影响。

📊 实验

  • 数据集:基于商业新闻推荐应用收集的一份抽样离线数据集,在六个月内积累了大量数据用于离线实验;随后将该系统部署至App平台运行一个月。
    • 评估指标:通过点击率(CTR)、Precision@k以及nDCG三个关键指标来评估推荐效果。
    • 实验结果:在离线实验中发现该模型在CTR与nDCG两项指标上表现明显优于传统方法(例如逻辑回归模型、因子分解机及Wide & Deep模型)。而在实际运行中的在线实验结果显示,在CTR、Precision@5以及nDCG等多个关键指标上均有显著提升,并且观察到用户的新闻点击量呈现明显多样化特征。

🚀 方法介绍与创新

  • 方法:
  • 构建了一个基于深度Q学习(DQN)的推荐系统框架,并能够综合考虑即时反馈与长期收益。
  • 该框架通过将用户行为与新闻内容作为输入特征,并利用多层DQN模型预测潜在收益。
  • 该系统架构包含离线训练阶段与在线交互阶段:离线阶段用于特征提取与模型训练;在线阶段则实时接收用户互动并持续更新模型参数。
  • 创新点:
  • 明确建模长期收益:相比传统方法,《该框架》采用了更为直接的方式关注于长远利益。
  • 高效活跃度评估:通过生存模型评估用户的活跃度,并将其作为点击/未点击行为的补充指标。
  • 精准探索策略:运用双重策略进行探索,在保证推荐效果的同时显著提升了多样性。

全部评论 (0)

还没有任何评论哟~