[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

阅读量：

[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

论文地址
主要思想：
问题
问题
Actor
Critic Framework
整体算法
- 架构图
- 整体训练过程
Online User-Agent Interaction Environment Simulator
问题

论文地址

https://arxiv.org/pdf/1801.00209.pdf

主要思想：

1、一次推荐多个item

2、状态s 为之前用户动作果的N个item的顺序集合。
状态定义
更新方法：每次推荐之后，将用户动作过的item放入其中。没有动作果的item相当于丢弃掉了。

3、动作a 为某次推荐的K个item。
Action Space
比如在 $t$ 时刻的动作 $a=\{a_t^1, a_t^2, ... a_t^K\}$

问题

1、k变化的时候，网络结构需要调成，整个网络需要重训。
2、直接输出 $k*dim_(w)$ 的向量，这些向量的表达能力可能需要打个问号。准确性的评估方法？
3、使用 $w_1, w_2, w_3,...$ 与所有候选集中的embeding来进行点乘，性能上是个问题。

4、 $r(s_t, a_t)$ 为某次动作 $a$ 之后用户的行函数。
Reward

问题

1.没有找到 $r$ 的计算方式，是把a中个每个item的reward直接加起来，还是按权重加起来呢？

Actor

1、 $f$ 函数计算K个权重向量。
2、使用这些权重向量与候选集中的所有item的embedding进行点乘，计算出item的score。
3、由于要返回K个item，先计算第一个item的 $\mathop{\arg \max}_{i\in \mathcal{A}^i} ^k w_t^1e_i^\mathsf{T}$ , 再计算第二个，第三个。。。
f函数
score_i
actor

Critic Framework

critic和普通的critic没有什么差别：

$a_{t+1}$ 搜索空间太大，直接使用actor返回的 $a$ 作为 $a_{t+1}$ , 当做t+1时刻的Q的a输入。公式修改为：
Qapproximate func
损失函数定义为：

整体算法

架构图

整体训练过程

更新参数时，使用DDPG算法。
训练过程

Online User-Agent Interaction Environment Simulator

文中提出一种模拟线上用户反馈的 $r$ 计算模拟方式。主要思想是使用线上数据的 $r$ 。
模拟时，返回 $s^` ,a^`$ 的 $r^`$ 时，返回与线上相似的 $s,a$ 对应的 $r$ ，作为模拟的 $r^`$ 返回。

1、计算当前 $p_t =<s_t, a_t>$ 与历史上 $s_i, a_i$ 之前的相似程度：
cos相似度
2、计算当前 $P_t$ 的reward $r_t = r_i$ 的概率：

3、由于历史 $i$ 很多，简易方法是将 $r$ 相同的历史 $p_i$ 的reward统一考虑，聚合在一起 $U_x$ , 预估当前的 $r$ .

4、之后将一次刷新中的单个item的 $r^{k}$ 加权求和。 $\Gamma\in(0, 1]$
在这里插入图片描述

问题

1.论文中这一部分 $a_i$ 的意义不明，像是具体某一个item，但之前论文中的 $a_i$ 为一次推荐的K个item的集合。 $a_t^i$ 才代表一次action中的第i个item。

全部评论 (0)

还没有任何评论哟~

[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

[2017JD]DeepReinforcementLearningforListwiseRecommendations 论文地址主要思想：问题问题 Actor CriticFramework 整...

论文阅读：(LIRD)Deep Reinforcement Learning for List-wise Recommendations

文章目录摘要一、Introduction 1、基本介绍 2、ListwiseRecommendations 3、ArchitectureSelection（结构选择） 4、OnlineEnviro...

论文阅读6-----基于强化学习的推荐系统 Deep Reinforcement Learning for List-wise Recommendations

论文阅读6基于强化学习的推荐系统DeepReinforcementLearningforListwiseRecommendations ABSTRACT Recommendersystemsplaya...

Deep Reinforcement Learning for Natural Language Generation

作者：禅与计算机程序设计艺术 1.简介一、任务描述 NaturallanguagegenerationNLG，即自然语言生成，是指从计算机系统生成自然语言的能力。自动文本生成引擎能够帮助人们更好地沟...

Improving Deep Reinforcement Learning for Continuous Co

作者：禅与计算机程序设计艺术 1.简介当今最火热的AI学习任务之一就是连续控制（ContinuousControl）。其中，深度强化学习（DeepReinforcementLearning，DRL）...

●Deep Reinforcement Learning in Minecraft for Building

作者：禅与计算机程序设计艺术 1.简介近年来，基于机器学习和强化学习RL的智能体AIagent取得了令人瞩目的成果，尤其是在游戏领域。此类智能体能够在没有人类的参与下完成各种复杂任务，是现实生活中的...

A Guide Resource for Deep Reinforcement Learning

AGuideResourceforDeepReinforcementLearning 1\.Aboutthiswork: Thisdeepintensivelearningdatabasewasini...

Imagination-Augmented Agents for Deep Reinforcement Learning

文献目录本篇论文是谷歌投的一篇NIPS2017的论文，提出了一种想象力增强的modelbased强化学习方法，思路非常新颖，GitHub上可以搜到不少对I2A的复现代码。由于这篇论文写得比较抽象，个...

Contrastive learning-based agent modeling for deep reinforcement learning

这篇论文提出了一种名为ContrastiveLearningbasedAgentModelingCLAM的新方法，用于在多智能体系统中进行深度强化学习。以下是论文的主要内容总结：问题背景：多智能体...

Deep learning for NLP around 2017

Originalpost:https://handong1587.github.io/ Tutorials PracticalNeuralNetworksforNLP intro:EMNLP2016 ...

是否确定退出登录?

[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

论文地址

主要思想：

问题

问题

Actor

Critic Framework

整体算法

架构图

整体训练过程

Online User-Agent Interaction Environment Simulator

问题

全部评论 (0)

相关文章推荐

[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

论文阅读：(LIRD)Deep Reinforcement Learning for List-wise Recommendations

论文阅读6-----基于强化学习的推荐系统 Deep Reinforcement Learning for List-wise Recommendations

Deep Reinforcement Learning for Natural Language Generation

Improving Deep Reinforcement Learning for Continuous Co

●Deep Reinforcement Learning in Minecraft for Building

A Guide Resource for Deep Reinforcement Learning

Imagination-Augmented Agents for Deep Reinforcement Learning

Contrastive learning-based agent modeling for deep reinforcement learning

Deep learning for NLP around 2017