DRL前沿之：Hierarchical Deep Reinforcement Learning

阅读量：

1 前言

若已掌握过DQN的相关知识，则人们自然会认识到，在DeepMind进行针对其40余款游戏的测试后发现，在某些特定类型的游戏里无论如何进行训练都无法取得显著成绩的具体情况。
其中存在一些游戏，在经过任何程度的训练后仍无法取得显著成绩。
即表明DQN在这些游戏中表现非常糟糕。
具体有哪些游戏呢？

如图所示,这款游戏被命名为《蒙泽马斯的复仇》(Montezuma's Revenge)。它类似于超级玛丽系列,它的难度体现在哪里呢?必须依赖高阶策略才能完成任务,例如图中所述,玩家需要获取钥匙并打开门锁。对于我们来说,这一过程是通过先验知识获得的经验积累而完成的。然而,很难设想计算机仅仅凭借图像感知能力就能理解这些细节。如果无法感知到关键信息,那么这类问题也就无从解决。

这篇论文：

时间：2016年4月20号
来源： arXiv.org

尝试解决这种问题。

2 文章思路

该方法的工作原理不复杂。它通过构建一个两层神经网络架构来实现目标预测与执行。上层负责决策判断，并预判并确定下一步的目标；而下层则负责具体的执行操作。

不得不说，这个想法显而易见（本人也想过啦）但是，问题的关键是

如何确定内在的目标？？？

作者在论文中提到以下一段话：
“We posit the availability of an object detector offering plausible object candidates.”
其含义等同于手动指定目标对象。随后我们便展开训练。（实际上这一过程涉及嵌套式的DQN架构）

那就没什么意思了。

这样从直观感觉可以训练出来。

但是意义就比较小了。

小结

这篇文章夸大其词地提出了一种称为层次DRL的方法来缓解反馈稀疏性的问题。然而，在实际应用中，并不能说实现了真正意义上的解决方案。其中的目标设定过于主观，并不具备普适性。此外，在实现上也不太可能如同作者所言专门为此类游戏设计一套目标检测算法。

然而这篇文章的价值并非没有意义。
例如，在自动驾驶汽车领域中，
Nvidia通过全面地端到端训练实现了完整的自动驾驶，
即使在引入物体检测作为顶层决策环节的情况下，
也有可能显著提升整体控制水平。

而针对image caption这类问题，则同样遵循这一原则。首先需要进行物体识别工作，在此基础上通过RNN模型生成相应的文字描述内容。

不过，个人却不喜欢这种做法。虽然会work，但不智能。

全部评论 (0)

还没有任何评论哟~

DRL前沿之：Hierarchical Deep Reinforcement Learning

1前言如果大家已经对DQN有所了解，那么大家就会知道，DeepMind测试的40多款游戏中，有那么几款游戏无论怎么训练，结果都是0的游戏，也就是DQN完全无效的游戏，有什么游戏呢？比如上图这款游戏...

DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control

1前言 DeepReinforcementLearning可以说是当前深度学习领域最前沿的研究方向，研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物，比如蜜蜂...

Hierarchical deep reinforcement learning (H-DQN)

论文简述原论文：http://papers.nips.cc/paper/6233hierarchicaldeepreinforcementlearningintegratingtemporalabs...

深度强化学习（Deep Reinforcement Learning, DRL）

深度强化学习（DeepReinforcementLearning,DRL）是一种结合了深度学习（DeepLearning,DL）和强化学习（ReinforcementLearning,RL）的机器学习...

DRL-ISP: Multi-Objective Camera ISP with Deep Reinforcement Learning

摘要在本文中，我们提出了一个多目标摄像头ISP框架，利用深度强化学习DRL和摄像头ISP工具箱，由基于网络的和传统的ISP工具组成。所提出的基于drl的相机ISP框架迭代地从工具箱中选择适当的工具，...

深度强化学习（Deep Reinforcement Learning, DRL）

深度强化学习（DRL）是强化学习（ReinforcementLearning,RL）与深度学习（DeepLearning）相结合的一种方法，能够在复杂环境中通过试错学习最优策略。它广泛应用于机器人控制...

Hierarchical Object Detection with Deep Reinforcement Learning论文笔记

这是一篇NIPS2016中有关目标检测的文章，虽然有点老，但是其freeanchor的思想还是值得借鉴。尤其今年和freeanchor相关的目标检测研究大火，但其大多是从先探测物体的中心点或者是关键点...

Hierarchical Object Detection with Deep Reinforcement Learning代码解读

论文类型：使用强化学习进行目标检测中推荐区域的生成论文地址：https://imatgeupc.github.io/detection2016nipsws/ github:https://githu...

DRL前沿之：End to End Learning for Self-Driving Cars

前言如果大家关注上个月NvidiaGTC，那么大家应该会注意到Nvidia老大黄仁勋介绍了他们自家的无人驾驶汽车，这个汽车的无人驾驶技术和以往的方法不一样，完全采用神经网络。这个系统取名为DAVE。...

【论文阅读】Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motiv

【2016NIPS】任务：层次强化学习本文提出了层次强化学习，顶层使用价值函数让策略模型学习到内在目标，底层则决定具体的动作，从而来满足顶层提出的给定目标内在目标可以提供更多的探索，从而缓解稀疏...

是否确定退出登录?

DRL前沿之：Hierarchical Deep Reinforcement Learning

1 前言

2 文章思路

小结

全部评论 (0)

相关文章推荐

DRL前沿之：Hierarchical Deep Reinforcement Learning

DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control

Hierarchical deep reinforcement learning (H-DQN)

深度强化学习（Deep Reinforcement Learning, DRL）

DRL-ISP: Multi-Objective Camera ISP with Deep Reinforcement Learning

深度强化学习（Deep Reinforcement Learning, DRL）

Hierarchical Object Detection with Deep Reinforcement Learning论文笔记

Hierarchical Object Detection with Deep Reinforcement Learning代码解读

DRL前沿之：End to End Learning for Self-Driving Cars

【论文阅读】Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motiv