Advertisement

2. 多臂老虎机问题

阅读量:

多臂老虎机问题是一个经典的研究领域,在强化学习中具有广泛应用。该问题涉及多个选项(即“手臂”),每个选项对应一个未知的奖励分布。研究者旨在通过选择不同的选项来最大化累积奖励或最小化遗憾值(regret)。本节系统地探讨了这一领域的核心概念及其扩展形式:
强化学习基本概念:介绍了强化学习的基本框架和术语。
多臂老虎机与遗憾值:探讨了如何衡量算法性能的标准——累积遗憾值。
随机多臂老虎机:研究了所有手臂的奖励分布固定不变的情况。
对抗性场景:分析了在对手干扰下优化策略的方法。
上下文信息:考虑外部环境变化时如何动态调整策略以提高收益。
这些扩展形式丰富了传统多臂老虎机的研究框架,并推动了更智能的决策算法发展。

多臂老虎机问题

  • 探索-利用困境:多臂老虎机问题
    • 强化学习基础
      • 基于后悔值的多臂老虎机研究
      • 随机化处理下的多臂老虎机模型
      • 抗衡受环境中的多手臂策略选择
      • 含上下文信息的动态马尔可夫决策过程建模

2. 多臂老虎机问题

2.1 强化学习基本概念

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 多臂老虎机与regret值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 随机多臂老虎机

在这里插入图片描述
在这里插入图片描述

2.4 对抗多臂老虎机

在这里插入图片描述
在这里插入图片描述

2.5 上下文多臂老虎机

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~