Advertisement

DRL前沿之:Hierarchical Deep Reinforcement Learning

阅读量:

1 前言

若已掌握过DQN的相关知识,则人们自然会认识到,在DeepMind进行针对其40余款游戏的测试后发现,在某些特定类型的游戏里无论如何进行训练都无法取得显著成绩的具体情况。
其中存在一些游戏,在经过任何程度的训练后仍无法取得显著成绩。
即表明DQN在这些游戏中表现非常糟糕。
具体有哪些游戏呢?

这里写图片描述

如图所示,这款游戏被命名为《蒙泽马斯的复仇》(Montezuma's Revenge)。它类似于超级玛丽系列,它的难度体现在哪里呢?必须依赖高阶策略才能完成任务,例如图中所述,玩家需要获取钥匙并打开门锁。对于我们来说,这一过程是通过先验知识获得的经验积累而完成的。然而,很难设想计算机仅仅凭借图像感知能力就能理解这些细节。如果无法感知到关键信息,那么这类问题也就无从解决。

这篇论文:

时间:2016年4月20号
来源: arXiv.org

尝试解决这种问题。

2 文章思路

该方法的工作原理不复杂。它通过构建一个两层神经网络架构来实现目标预测与执行。上层负责决策判断,并预判并确定下一步的目标;而下层则负责具体的执行操作。

这里写图片描述

不得不说,这个想法显而易见(本人也想过啦)但是,问题的关键是

如何确定内在的目标???

作者在论文中提到以下一段话:
“We posit the availability of an object detector offering plausible object candidates.”
其含义等同于手动指定目标对象。随后我们便展开训练。(实际上这一过程涉及嵌套式的DQN架构)

那就没什么意思了。

这样从直观感觉可以训练出来。

但是意义就比较小了。

小结

这篇文章夸大其词地提出了一种称为层次DRL的方法来缓解反馈稀疏性的问题。然而,在实际应用中,并不能说实现了真正意义上的解决方案。其中的目标设定过于主观,并不具备普适性。此外,在实现上也不太可能如同作者所言专门为此类游戏设计一套目标检测算法。

然而这篇文章的价值并非没有意义。
例如,在自动驾驶汽车领域中,
Nvidia通过全面地端到端训练实现了完整的自动驾驶,
即使在引入物体检测作为顶层决策环节的情况下,
也有可能显著提升整体控制水平。

而针对image caption这类问题,则同样遵循这一原则。首先需要进行物体识别工作,在此基础上通过RNN模型生成相应的文字描述内容。

不过,个人却不喜欢这种做法。虽然会work,但不智能。

全部评论 (0)

还没有任何评论哟~