NOISY NETWORKS FOR EXPLORATION
NoisyNet是一种深度强化学习代理,通过在神经网络的权值中加入参数噪声来增强探索能力。与传统方法不同,NoisyNet通过梯度下降法学习噪声参数,同时更新网络权值,实现高效探索。该方法在Atari游戏中表现出色,甚至超越人类水平,显著提升了代理性能。与现有技术相比,NoisyNet在计算复杂度上与激活乘法的权值控制相当,且适用于策略梯度方法如A3C。其创新点在于通过自适应噪声注入能力,动态调整探索强度,同时避免了高斯噪声的固定限制。该方法在监督学习和优化领域已有研究,但NoisyNet通过梯度下降调整噪声量,提供了新的探索思路。实验结果表明,NoisyNet在多个任务中表现优异,证明了其有效性。
我们开发了一种深度强化学习代理,名为NoisyNet,在其权重参数中加入了参数噪声。该代理策略通过引入随机性,有助于更高效地进行探索。通过梯度下降法学习噪声参数的同时,学习剩余的网络权重。NoisyNet的实现较为简便,其计算开销增加极少。研究表明,用NoisyNet取代传统的A3C、DQN和Dueling代理(分别基于熵奖励和ε-贪心策略)的探索方法,在广泛的游戏测试中能够显著提升得分,在某些情况下,其性能可以从次优水平提升至超越人类水平。
阅读者总结:这篇论文通过添加噪声来增强网络的鲁棒性。这一方法需要重视相关的代码实践,文中的原理阐述得非常清晰。
背景:
主要问题之一是,这些方法将泛化机制与探索机制进行划分; 内在奖励的度量标准是,其相对于环境奖励的权重必须由实验者自行设定,而非通过与环境的交互来学习。
最优策略可能会受到内在奖励的影响,甚至可能被其掩盖;此外,抖动扰动和内在奖励通常是必要的,以确保策略空间的探索(Ostrovski等人,2017)。探索策略空间,例如,可以采用进化算法或黑箱算法(Moriarty等人,1999; Fix & Geist, 2012; Salimans等人,2017),这些方法通常需要与环境进行多次长时间的互动,以确保策略的有效探索。
方法:
该方法提出了一种简单的替代方案,称为NoisyNet,通过学习的网络权重扰动来实现探索。其关键创新点在于,通过单次权重向量的微调即可诱导策略中一致且可能高度复杂的、受状态影响的多步变化,这与抖动方法不同。在E-greedy策略中,抖动方法在每一步都引入状态独立的去相关噪声。这些扰动从预先定义的噪声分布中随机采样生成,其方差参数被设计为控制噪声能量。通过强化学习损失函数的梯度信息以及代理模型的其他参数,这些方差参数实现了自适应学习。与参数压缩方案(如变分推断、平滑最小化搜索等)相比,NoisyNet在训练过程中不显式维护权重分布,而是通过在参数空间中注入噪声并自动调整其强度来实现探索。这与汤普森抽样方法也不同,因为NoisyNet中参数的分布假设不一定收敛到后验分布的近似。
在NoisyNet方法中,网络线性层中的参数数量翻倍,但因为权值是噪声的简单仿射变换,计算开销主要由激活乘法的权值决定,而非生成权重的成本。此外,该方法适用于策略梯度方法,如A3C现成使用(Mnih等人,2016)。最近,Plappert等人(2017)提出了一种类似的技术,将恒定的高斯噪声引入网络参数。值得注意的是,该方法的独特之处在于其能够自适应地随时间注入噪声,并不受高斯噪声分布限制。我们强调,引入噪声以改进优化过程的想法已在监督学习和优化文献中得到深入研究,采用不同名称(如神经扩散过程(Mobahi, 2016)和分级优化(Hazan等人,2016))。这些方法通常基于不可训练、逐渐消退的噪声,而NoisyNet通过梯度下降动态调整噪声量。
NOISYNETS FOR REINFORCEMENT LEARNING
该神经网络为NoisyNets,其参数(权值和偏差)受到噪声参数函数的干扰。这些参数通过梯度下降法进行优化。

增加噪音


噪音应用在网络中
在多种任务中,噪声的大小可以通过人工调节(如DQN和A3C等通用代理中的做法)进行手动微调,也可以根据任务需求进行扩展。本文提出了一种自适应调节的方法,通过训练噪声网络来动态控制(降低或提高)神经网络参数中的噪声量。
在每一步优化后,该代理都会采样一组新的参数。在不同优化步骤之间,智能体始终使用一组固定的参数(权重和偏差)进行操作,这确保代理始终基于当前噪声分布中提取的参数进行操作。
4 RESULTS



