Continuous control with Deep Reinforcement Learning与DDPG(Deep Deterministic Policy Gradient)的理解
发布时间
阅读量:
阅读量
Actor-Critic算法
该算法属于动态规划的一种代表方法,在强化学习领域具有重要地位
Actor-Critic算法架构图
DDPG算法
具体算法伪代码如下:
DDPG算法
参考文献:
基于深度强化学习的连续控制研究论文全文(http://pan.baidu.com/s/1qYeE14K)
- 完整阐述Deterministic Policy Gradient Algorithms论文全文内容
该文探讨了基于深度强化学习的连续控制方法。
全部评论 (0)
还没有任何评论哟~
