Advertisement

人工智能(2)PG策略梯度

阅读量:

EMMMM拖了好久又回来啦。还是得整理完的。FLAG不能倒

Policy Gradient

该算法的基本思路是每次操作都有相应的奖励,在greedy algorithm的基础上寻求最佳解决方案。(当存在随机因素时,在一定程度上可能会选择一个局部非最优解以达到全局最优效果)
此外,在使用episode进行分批处理的过程中能够显著提升效率。
对于严格的数学证明部分,在这里不做详细展开。

奖励表

在实例中使用的神经网络结构中的层以及模型参数配置(如神经元数量等)都具备自主调节能力,其实就是参数调整的过程

在这里插入图片描述
在这里插入图片描述

上面分别是记录函数,动作函数,奖励,训练函数。

在这里插入图片描述
在这里插入图片描述

主函数部分见上
每一个episode输出一次当前得分

运行的时候记得用TPU,GPU优化,不然很费时间。

其他

此外还有PSO(粒子群算法),以及一些基本的方法(如深度搜索与宽度搜索)这边暂时不作介绍。例如,在AI GYM中存在几个典型的环境及其对应的算法程序,在GitHub上都可以找到。几次小测的题目与解法也不会放出给读者们参考(因为看起来每一期的内容都大同小异),因此建议大家自行解决比较好!

全部评论 (0)

还没有任何评论哟~