蒙特卡罗策略评估

阅读量：

用蒙特卡罗方法来实现策略评估，即给定一个策略，找出价值函数。

重点是：

复制代码

    for _ in range(100):
        # generate an episode using pi
        states, rewards = play_game(grid, policy)
        G = 0
        T = len(states)
        for t in range(T - 2, -1, -1):
            s = states[t]
            r = rewards[t + 1]
            G = r + GAMMA * G  # update return
    
            # we'll use first-visit Monte Carlo
            if s not in states[:t]:
                returns[s].append(G)
                V[s] = np.mean(returns[s])
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/dSV6tr0pDoAqHuce9fzTOL71Kk4G.png)

描述：蒙特卡罗解决的是，不知道环境的状态转移概率分布的问题。

实际上从过去的经验里学习。更符合强化学习实际上的定义。

play_game函数类似于进行一次游戏操作。该函数会生成整个游戏过程的状态序列及奖励序列

接下来通过收获的期望公式来更新收获。

防止重复状态被访问以达到相同的最终状态可以通过设置一个机制来阻止重复状态的添加。

整体而言，在每一次游戏循环中会生成完整的一轮游戏数据；随后通过计算该轮游戏中各个状态的价值并将其记录到字典中对应的状态字段中；最后调用np.mean()函数来获取这些价值的平均值

重复玩游戏的次数越多，得到的价值函数越准确。

那这是怎么起作用的？
不断的迭代，准确的值不断变多

复制代码

    G = r + GAMMA * G  # update return
    
    
    python

由于终止状态的奖励被设定为0，并且相应的收获也为0，在每次回合结束后生成的状态序列中（即在终止状态之前），我们可以通过一次价值迭代运算精确确定其价值估计。从而得到了这一更新的价值信息，并在此基础上进行后续迭代运算以逐步提高其准确性。最终算法将收敛于稳定的解。

全部评论 (0)

还没有任何评论哟~

蒙特卡罗策略评估

用蒙特卡罗方法来实现策略评估，即给定一个策略，找出价值函数。重点是： forinrange100: generateanepisodeusingpi states,rewards=playgameg...

蒙特卡罗学习之策略评估（附实例及代码）

从本趴开始将讲述免模型控制，在没人告诉我们环境信息的情况下，agent如何找到行动的最优方案。第一种方法就是蒙特拉罗学习，它是在不知道环境模型的情况下，由信息遍历整个状态链直到终端状态之后通过观察其回...

无模型策略评估：蒙特卡洛（MC）方法估计

无模型策略评估：蒙特卡洛（MC）方法估计一、蒙特卡洛（MC）方法可以解决什么强化学习问题 MC基于统计（大数）原理，可解决无模型的强化学习问题。核心思想为：智能体不断与环境交互，产生一系列历史轨迹（...

蒙特卡罗（MC）策略评估：强化学习中的简单高效方法

蒙特卡罗（MC）策略评估：强化学习中的简单高效方法在强化学习中，策略评估是一个关键步骤，用于估算在特定策略下，智能体在不同状态的预期回报。蒙特卡罗（MonteCarlo,MC）策略评估是一种简单而有...

蒙特卡罗（MC）策略评估：理解首次访问与每次访问方法

蒙特卡罗（MC）策略评估：理解首次访问与每次访问方法在强化学习中，策略评估是一个关键步骤，用于估算特定策略下不同状态的预期回报。蒙特卡罗（MonteCarlo,MC）策略评估是一种通过模拟多个完整轨...

蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估

蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估目录基于离轨策略的蒙特卡洛策略评估基于普通重要性采样的离轨策略方法基于普通重要性采样的离轨策略方法总结基于加权重要性采样的离轨策...

SAS ——VAR的蒙特卡罗估计法及评价

SAS——VAR的蒙特卡罗估计法及评价【程序一】 datac; setsjk71a; sgm=0; ifn<1; procmeansdata=sjk71a; outputout=c1meanrlog...

18 .蒙特卡洛强化学习之增量式策略评估

文章目录 1\.批量式策略评估方法的缺陷 2.什么是增量式方法 3.增量式策略评估算法流程 3.1输入 3.2处理过程 3.3输出 1\.批量式策略评估方法的缺陷上一篇讨论的批量式策略评估方法表明，...

17.蒙特卡洛强化学习之批量式策略评估

文章目录 1\.是什么 2\.为什么直接估计Q而不是V 2\.根据多条完整轨迹计算Qs,a 3\.初访法和每访法哪个更好？ 1\.是什么智能体利用完整轨迹数据估计出Q\pis,a的过程 2\.为什么...

蒙特卡洛方法求解强化学习任务——策略评估

蒙特卡洛方法求解强化学习任务——策略评估目录回顾概念介绍蒙特卡洛方法采样方式首次访问型与每次访问型首次访问型算法示例蒙特卡洛方法样本存储方式目录上一节简单介绍了蒙特卡洛方法的基本思想...

是否确定退出登录?

蒙特卡罗策略评估

全部评论 (0)

相关文章推荐

蒙特卡罗策略评估

蒙特卡罗学习之策略评估（附实例及代码）

无模型策略评估：蒙特卡洛（MC）方法估计

蒙特卡罗（MC）策略评估：强化学习中的简单高效方法

蒙特卡罗（MC）策略评估：理解首次访问与每次访问方法

蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估

SAS ——*VAR*的蒙特卡罗估计法及评价

18 .蒙特卡洛强化学习之增量式策略评估

17.蒙特卡洛强化学习之批量式策略评估

蒙特卡洛方法求解强化学习任务——策略评估

SAS ——VAR的蒙特卡罗估计法及评价