2. 多臂老虎机问题
发布时间
阅读量:
阅读量
多臂老虎机问题是一个经典的研究领域,在强化学习中具有广泛应用。该问题涉及多个选项(即“手臂”),每个选项对应一个未知的奖励分布。研究者旨在通过选择不同的选项来最大化累积奖励或最小化遗憾值(regret)。本节系统地探讨了这一领域的核心概念及其扩展形式:
强化学习基本概念:介绍了强化学习的基本框架和术语。
多臂老虎机与遗憾值:探讨了如何衡量算法性能的标准——累积遗憾值。
随机多臂老虎机:研究了所有手臂的奖励分布固定不变的情况。
对抗性场景:分析了在对手干扰下优化策略的方法。
上下文信息:考虑外部环境变化时如何动态调整策略以提高收益。
这些扩展形式丰富了传统多臂老虎机的研究框架,并推动了更智能的决策算法发展。
多臂老虎机问题
- 探索-利用困境:多臂老虎机问题
- 强化学习基础
- 基于后悔值的多臂老虎机研究
- 随机化处理下的多臂老虎机模型
- 抗衡受环境中的多手臂策略选择
- 含上下文信息的动态马尔可夫决策过程建模
- 强化学习基础
2. 多臂老虎机问题
2.1 强化学习基本概念





2.2 多臂老虎机与regret值



2.3 随机多臂老虎机


2.4 对抗多臂老虎机


2.5 上下文多臂老虎机

全部评论 (0)
还没有任何评论哟~
