《强化学习》-读书笔记-总目录
发布时间
阅读量:
阅读量
书籍百度网盘:https://pan.baidu.com/s/1miP38tM
原书籍地址:http://incompleteideas.net/sutton/book/bookdraft2017nov5.pdf
课程代码链接:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
课程资料地址:http://incompleteideas.net/sutton/book/the-book-2nd.html
一. 导论
- 1.1 强化训练方法
- 1.2 案例研究概述
- 1.3 强化学习的关键要素解析
- 1.4 强化学习的局限性及其适用场景分析
- 1.5 深入案例分析:井字棋强化策略研究
- 1.6 章节总结与回顾
- 1.7 探讨强化学习的发展历程
I 表格型求解方法
第I部分阐述简单问题的求解方法及其适用场景。这类问题的特点在于其状态空间和动作空间相对较小,在这种情况下我们可以将价值函数以数值表格的形式系统地记录下来。随后我们将依次阐述以下三个关键概念及其实现原理:多臂赌博机模型、有限状态空间下的马尔可夫决策过程(MDP),以及针对有限马尔科夫过程所设计的最优控制方法框架——包括动态规划技术、蒙特卡洛方法以及时序差分学习算法等基本方案。
- 基于严格的数学理论框架进行动态规划设计,在经过长期深入研究的基础上实现了高效的求解能力
- 不依赖于任何环境模型描述的蒙特卡洛算法不具备单步更新的能力
- 不需建立完整环境模型描述的时序差分学习方法具有全增量式学习特性
在接下来的两章中,我们计划将这三种方法有机地结合起来,并构建出一个适用于多步自举方法与表格型强化学习问题的完整统一解决方案。
二. 多臂赌博机
- 2.1 K臂赌博机
- 2.2 动作-价值方法
- 2.3 10臂测试平台
- 2.4 增量式实现
- 2.5 跟踪一个非平稳问题
- 2.6 乐观初始值
- 2.7 基于置信度上界的动作选择
- 2.8 梯度赌博机算法
- 2.9 关联搜索(上下文相关的赌博机)
- 2.10 本章小结
全部评论 (0)
还没有任何评论哟~
