人工智能(2)PG策略梯度
发布时间
阅读量:
阅读量
EMMMM拖了好久又回来啦。还是得整理完的。FLAG不能倒
Policy Gradient
该算法的基本思路是每次操作都有相应的奖励,在greedy algorithm的基础上寻求最佳解决方案。(当存在随机因素时,在一定程度上可能会选择一个局部非最优解以达到全局最优效果)
此外,在使用episode进行分批处理的过程中能够显著提升效率。
对于严格的数学证明部分,在这里不做详细展开。
奖励表
在实例中使用的神经网络结构中的层以及模型参数配置(如神经元数量等)都具备自主调节能力,其实就是参数调整的过程


上面分别是记录函数,动作函数,奖励,训练函数。


主函数部分见上
每一个episode输出一次当前得分
运行的时候记得用TPU,GPU优化,不然很费时间。
其他
此外还有PSO(粒子群算法),以及一些基本的方法(如深度搜索与宽度搜索)这边暂时不作介绍。例如,在AI GYM中存在几个典型的环境及其对应的算法程序,在GitHub上都可以找到。几次小测的题目与解法也不会放出给读者们参考(因为看起来每一期的内容都大同小异),因此建议大家自行解决比较好!
全部评论 (0)
还没有任何评论哟~
