Advertisement

李宏毅机器学习课程-DeepReinforcementLearning0218

阅读量:

B站 李宏毅2021春机器学习课程 P94

目录

1、深度强化学习

2、设置偏置


1、深度强化学习

奖励计算过程:

为了最大化R,寻找Actor:



2、设置偏置

保证R不会永远为正!

全部评论 (0)

还没有任何评论哟~