Advertisement

Actor-Critic 网络

阅读量:

对战
下一步怎么走?

走这一步的价值如何?

当前的地图 -> Critic网络 -> y1
当前的地图 + 选中的动作 -> Critic网络 -> y2

value1 = y1
value2 = r*y2 + reward
loss1 = (value1 - value2)^2

当前地图 -> Actor网络 -> 4 个动作概率(yi)
loss2 = -sum(y_truth * log(yi))

样本:(当前地图,随机走一步)
loss3 = sum(loss1 * log(yi))

TD_error

全部评论 (0)

还没有任何评论哟~