www‘18文献阅读分享 DRN: A Deep Reinforcement Learning Framework for News Recommendation

阅读量：

标题	期刊	年份	关键词	研究背景	创新点
DRN: A Deep Reinforcement Learning Framework for News Recommendation	WWW 2018	2018	Reinforcement learning, Deep Q-Learning, News recommendation	在线个性化新闻推荐面临新闻特征和用户偏好的动态变化，现有方法仅关注当前奖励（如点击率），忽略了长期影响和用户反馈的多样性，且容易推荐相似内容导致用户疲劳。	1. 提出基于深度强化学习（DQN）的框架，显式建模未来奖励。 2. 将用户返回模式作为用户反馈的补充，以捕捉更多用户反馈信息。 3. 引入有效的探索策略（Dueling Bandit Gradient Descent），避免推荐完全不相关的内容，提高推荐多样性。

📖 论文背景

在快速传播的时代中，在海量信息面前,新闻推荐系统扮演着关键的角色

传统不足：

只关注当前奖励（Current Reward）

问题描述 ：
大多数现有的在线推荐系统主要关注的是用户的即时互动水平（Click-Through Rate, CTR），即是否会对推荐的内容产生即时点击行为。然而这种基于短期优化的设计忽视了当前推荐对未来行为模式的影响。

用户反馈信息有限（Limited User Feedback）

问题描述 ：
现有的推荐系统往往主要局限于通过用户的点击行为（如点击/未点击标签）来获取反馈信息，并忽视了其他重要的用户互动形式。

探索策略的不足（Ineffective Exploration Strategies）

问题描述 ：
大多数现代推荐系统主要依赖于基础性的 $\epsilon$ -greedy策略或Upper Confidence Bound（UCB）方法来进行探索。然而，在这种情况下使用 $\epsilon$ -greedy可能导致推荐内容与当前搜索结果无关；相反地，在这种情况下使用UCB则会更加稳健地评估其潜在价值。

🛠️ 相关工作

新闻推送体系 ：主要包括基于内容的方法、协同过滤技术与混合策略。其中基于内容的方法主要通过计算文本间的相似度与流行度指标来构建用户的画像，并在此基础上实现个性化的内容展示；协同过滤技术则通过分析用户的评分行为或商品属性信息来进行预测与推荐；而混合策略则旨在融合上述两种方法的优势特点以达到更高的推荐效果。值得注意的是，在这一领域的发展中，
- 强化学习的应用 ：主要可分为两类：一种是基于上下文的多臂老虎机模型；另一种则是马尔可夫决策过程框架下的动态规划算法。具体而言，在前者中，
  - 上下文多臂老虎机模型以用户的属性信息及商品特性作为状态信息，并假设奖励函数是状态特性的线性组合；
  - 而后者则能够同时考虑当前状态下的即时奖励以及后续状态中的潜在收益，
    但其面临的挑战包括大规模的状态空间以及数据稀疏性问题导致难以实现有效的学习优化。

🧠 模型图输入输出转变

输入：被点击的新闻（如其标题被访问的情况、发布机构以及位置信息等）、文章标题（如分类信息及其浏览量情况）、与用户的互动频率（如其历史访问实体的相关性程度）以及时效性（如请求发生的时间点及其更新频率等）.
- 输出：根据模型预测的结果筛选出最佳奖励分值较高的候选文章集合，在考虑了用户点击概率及活跃度的基础上进行排序，并最终选取排名靠前的文章向用户提供推荐服务.

该系统致力于解决在线个性化新闻推荐问题，并充分注意到新闻特征及其动态变化。此外，在有效利用用户的反馈信息方面表现突出。通过巧妙结合离线学习与在线学习的方法，在实现高效的训练与实时更新过程的同时提供了良好的用户体验

离线部分

特征提取

新闻特征 ：基于新闻数据提取了417维的独热编码信息，并涉及多个维度如标题、来源机构等。这些编码不仅反映了新闻的基本属性还包括其在不同时间段内的受欢迎程度.
用户特征 ：分析了用户在过去不同时间段内点击的新闻情况，并记录了包括来源机构在内的多个属性指标。这些指标共涵盖了2065个维度.
用户-新闻交互 ：通过25个维度描述了用户与特定新闻之间的互动频率，并据此评估用户的偏好倾向.
上下文 ：通过32个维度捕捉了影响阅读行为的各种上下文信息如时间点以及新鲜度等关键因素.

模型训练

基于多层次深度Q网络（Deep Q-Network, 缩写DQN）的技术框架，在分析用户的潜在奖励评估方面具有显著优势。该技术能够精确估算出用户点击特定新闻的概率值以及用户的活跃度指标。
DQN算法通过深入挖掘并建模复杂的关系网络，在特征提取与奖励预测之间建立了高效映射关系。
在离线训练阶段, 采用用户的点击日志作为训练数据集, 通过监督学习机制优化模型参数, 从而实现对用户的点击行为与活跃度反馈的有效预测。

在线部分

模型优势

动态适应能力：基于在线学习算法设计的动态调整机制，在线追踪新闻热点及用户兴趣的变化趋势，并持续优化内容更新频率及推送时间间隔参数设置。
全面评估用户体验反馈：不仅参考用户的点击数据作为重要依据，并结合用户的活跃度指标展开深入分析；同时将用户的活跃度作为关键评估指标。
协调算法开发与应用间的平衡点：采用双重对偶梯度下降法的智能探索方案，在确保能够发现新兴热点的同时又能保证推荐质量不受影响。

📊 实验

数据集：基于商业新闻推荐应用收集的一份抽样离线数据集，在六个月内积累了大量数据用于离线实验；随后将该系统部署至App平台运行一个月。
- 评估指标：通过点击率（CTR）、Precision@k以及nDCG三个关键指标来评估推荐效果。
- 实验结果：在离线实验中发现该模型在CTR与nDCG两项指标上表现明显优于传统方法（例如逻辑回归模型、因子分解机及Wide & Deep模型）。而在实际运行中的在线实验结果显示，在CTR、Precision@5以及nDCG等多个关键指标上均有显著提升，并且观察到用户的新闻点击量呈现明显多样化特征。

🚀 方法介绍与创新

方法：
构建了一个基于深度Q学习（DQN）的推荐系统框架，并能够综合考虑即时反馈与长期收益。
该框架通过将用户行为与新闻内容作为输入特征，并利用多层DQN模型预测潜在收益。
该系统架构包含离线训练阶段与在线交互阶段：离线阶段用于特征提取与模型训练；在线阶段则实时接收用户互动并持续更新模型参数。
创新点：
明确建模长期收益：相比传统方法，《该框架》采用了更为直接的方式关注于长远利益。
高效活跃度评估：通过生存模型评估用户的活跃度，并将其作为点击/未点击行为的补充指标。
精准探索策略：运用双重策略进行探索，在保证推荐效果的同时显著提升了多样性。

全部评论 (0)

还没有任何评论哟~

www‘18文献阅读分享 DRN: A Deep Reinforcement Learning Framework for News Recommendation

标题期刊年份关键词研究背景创新点 DRN:ADeepReinforcementLearningFrameworkforNewsRecommendationWWW20182018Reinforcemen...

论文阅读：DRN: A Deep Reinforcement Learning Framework for News Recommendation

文章目录摘要一、Introduction 1、引入原因 2、结构框架二、相关工作 1、新闻推荐算法 2、推荐中的强化学习 3、问题定义三、实现原理 1、模型框架 2、特征构造 3、深度强化推荐...

DRN: A Deep Reinforcement Learning Framework for News Recommendation理解

这篇文章是微软18年发的基于强化学习来做推荐系统的文章。研究推荐系统一个月有余，总觉得自己的模型过分简单，单纯的无脑过FC把人都整的蠢蠢的，于是就搜寻了一下有没有别的方式来做推荐，就发现了这一篇文章...

论文阅读7-----基于强化学习的推荐系统 DRN: A Deep Reinforcement Learning Framework for News Recommendation

论文阅读7基于强化学习的推荐系统DRN:ADeepReinforcementLearningFrameworkforNewsRecommendation ABSTRACT Inthispaper,we...

[文献阅读]DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY

摘要 1.基于深度学习的异常检测的研究方法进行结构化和全面的概述 2.回顾这些方法在各个领域这个中的应用情况，并评估他们的有效性。 3.根据基本假设和采用的方法将最先进的深度异常检测技术分为不同的类别...

【论文阅读分享】AndroidEnv- A Reinforcement Learning Platform for Android

AndroidEnvAReinforcementLearningPlatformforAndroid 论文阅读分享 https://arxiv.org/pdf/2105.13231.pdf 【背景】 ...

【文献阅读】RL经典：Benchmarking Deep Reinforcement Learning for Continuous Control

BenchmarkingDeepReinforcementLearningforContinuousControl Brief paper链接paper 开源代码 https://github.com...

【文献阅读03】Deep Reinforcement Learning Based Resource Allocation for V2V Communications

DeepReinforcementLearningBasedResourceAllocationforV2VCommunications（点击可见原文） p.s.此文19年发表，到20年8月被引199...

推荐系统遇上深度学习(十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》...

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学...

[论文阅读] Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

googledeepmind 使用DeepRL训练一个具有20个驱动关节的类人机器人来玩简化的一对一（1v1）足球比赛。我们发现，足够高频的控制、有针对性的动力学随机化和模拟训练过程中的扰动相结合，...

www‘18文献阅读分享 DRN: A Deep Reinforcement Learning Framework for News Recommendation

📖 论文背景

只关注当前奖励（Current Reward）

用户反馈信息有限（Limited User Feedback）

推荐内容单一化（Homogeneous Recommendations）

探索策略的不足（Ineffective Exploration Strategies）

🛠️ 相关工作

🧠 模型图输入输出转变

离线部分

特征提取

模型训练

在线部分

推荐过程

模型优势

📊 实验

🚀 方法介绍与创新

全部评论 (0)

是否确定退出登录?

www‘18文献阅读分享 DRN: A Deep Reinforcement Learning Framework for News Recommendation

📖 论文背景

只关注当前奖励（Current Reward）

用户反馈信息有限（Limited User Feedback）

推荐内容单一化（Homogeneous Recommendations）

探索策略的不足（Ineffective Exploration Strategies）

🛠️ 相关工作

🧠 模型图输入输出转变

离线部分

特征提取

模型训练

在线部分

推荐过程

模型优势

📊 实验

🚀 方法介绍与创新

全部评论 (0)

相关文章推荐

www‘18文献阅读分享 DRN: A Deep Reinforcement Learning Framework for News Recommendation

论文阅读：DRN: A Deep Reinforcement Learning Framework for News Recommendation

DRN: A Deep Reinforcement Learning Framework for News Recommendation理解

论文阅读7-----基于强化学习的推荐系统 DRN: A Deep Reinforcement Learning Framework for News Recommendation

[文献阅读]DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY

【论文阅读分享】AndroidEnv- A Reinforcement Learning Platform for Android

【文献阅读】RL经典：Benchmarking Deep Reinforcement Learning for Continuous Control

【文献阅读03】Deep Reinforcement Learning Based Resource Allocation for V2V Communications

推荐系统遇上深度学习(十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》...

[论文阅读] Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning