斯坦福吴恩达《机器学习》--增强学习

阅读量：

增强学习和控制

在监督学习中,算法旨在模仿训练样本中标记为y的真实结果,每个输入样本x都对应着明确的目标输出y.然而,对于许多需要连续决策或控制的任务,直接为算法提供明确标签变得具有挑战性.例如,在一个四足机器人行走的任务中,起初我们不清楚如何操作机器人使其前进,也不知道如何通过反馈机制将其行为与成功状态联系起来.

在强化学习中,我们将奖励函数作为评估标准来衡量动作的好坏.具体而言,当四足机器人向前行走时我们将给予正向奖励而向后退或摔倒时则给予负面奖励.通过不断优化这些奖励信号强化学习算法将能够识别出能够获得最大奖励的操作序列.

1.MDP

MDP是一个元组（S，A，Psa， $\gamma$ ，R），S是状态集，A是状态集，Psa是处于状态s采用动作a的状态转移概率，是折现因子，R是SA的奖励函数。
MDP过程如下：初始状态 $s_0$ ，采用动作 $a_0$ ，按照Ps0a0转移到状态 $s_1$ ，之后采取动作 $a_1$ ，按照Ps1a1转移到状态 $s_2$ ，如下图所示：

得到的奖励如下：

对于奖励函数只和状态有关的情况：

增强学习的目标是最大化奖励：

在时间t时刻的即时奖励应乘以折现因子 $\gamma^t$ ；为了最大化总奖励，在决策过程中应尽量优先获取正值。策略函数 $\pi$ 是从状态空间S到动作空间A的映射关系；给定状态s时的动作a由策略函数π确定；价值函数V(s)表示在状态s下的预期未来累积奖励

对于给定的策略，价值函数 $V^\pi$ 满足Bellman等式：

由现时奖励与未来奖励按折扣率衰减两部分构成的价值函数 $V^\pi(s)$ 中包含两个关键组成部分：即现时奖励R(s)与未来奖励按折扣率衰减后的总和。其中未来奖励的部分可视为从新状态 $s'$ 出发的价值期望（Es’~Ps(s)[ $V^\pi(s')$ ]），并在其基础上乘以折扣因子γ以反映未来的不确定性或时间偏好。这一过程遵循一定的概率分布规律（遵循概率分布Psa）。
基于贝尔曼方程的方法可用来求解MDP中的价值函数。针对状态数有限的状态空间模型而言，在每个状态s都对应一个贝尔曼方程（Belleman equation），这些方程共同构成了关于价值函数的一个线性方程组（linear system of equations）。通过求解该线性系统即可获得相应的价值函数。
在马尔可夫决策过程中（Markov decision process），最佳策略所对应的最优价值函数定义为：最大化所有可能策略下相应状态下累积回报值的最大值。

最佳价值函数的Bellman等式如下：

最佳策略定义如下：

该最佳策略π在所有实际状态下表现一致,由此可知,在任何起始状态下都采用同一的最佳策略

2.价值迭代和策略迭代

对于有限状态的MDP，我们讨论两种解法，价值迭代和策略迭代。
价值迭代方法如下：

在循环中进行状态更新采用两种方式：第一种是同步更新模式，在每次迭代前计算所有状态下新的V(s)值之后才同步更新；第二种是异步更新模式，在遍历完所有状态后才对单个状态的V(s)进行更新。
策略迭代法按照以下步骤进行：

初始化一个随机的策略π；
重复以下步骤直到收敛：
a. 根据当前策略计算价值函数Vπ(s)，即求解贝尔曼方程；
b. 根据价值函数改进当前策略π；
得到最优策略。

在步骤(a)中对价值函数进行计算时，请参考前文所述的具体方法：每个状态对应的贝尔曼方程构成了一个线性方程组。针对规模较小的马尔可夫决策过程（MDP）来说，策略迭代算法通常具有较高的收敛速度；然而，在面对规模较大的MDP问题，则会导致较为复杂的计算负担

3.MDP学习模型

在已知状态转移概率及奖励函数的情况下讨论MDP及其求解方法。但在现实应用中，在许多情况下需要根据观测到的数据来计算这些未知的状态转移概率及奖励函数。例如以下是一系列实验数据：

其中si(j)为第j次实验第i时刻的状态，ai(j)为采取的行动。转移概率如下：

对于未曾访问过的状态s, 可以认为其转移概率矩阵Psa(s')设定为其状态空间大小|S|的倒数；类似的, 当奖励函数R未知时, 可基于平均值计算得到奖励函数值；随后采用价值迭代法与策略迭代法相结合的方式来进行MDP模型的求解过程

4.连续状态的MDP

上述讨论主要局限于其状态空间为有限维的马尔可夫决策过程（MDP），随后转而探讨状态空间无限的情形。如车辆运行状态、直升机运作模式等实例说明该理论的应用前景。

4.1 离散化

最基本的方式是通过采用离散化手段使用前文所述的方法来实现计算过程。比如对于2D状态来说，可以通过网格离散化来进行处理：

4.2 价值函数近似

4.2.1 使用模型或仿真器

基于现有理论假设我们建立了一个MDP模型或仿真平台，并进而研究并实现价值函数的近似算法。简而言之，在这个过程中，默认将仿真器视为一个黑箱系统，在给定任一状态s_t和动作a_t，并通过预设的状态转移概率矩阵P来推导出下一个状态s_{t+1}。

存在多种途径用于获取上述模型。其中一种方式是通过物理仿真实现；另一种方式则是利用已有的MDP数据训练出该模型。

应用学习算法预测st+1为st和at的函数。

4.2.2 Fitted value iteration

这一部分还未完全搞清楚，后续整理。

欢迎关注微信公众号“翰墨知道”，获取及时更新

![(https://ad.itadn.com/c/weblog/blog-img/images/2025-01-28/9HnVsj0Eiu6cdYpqmDlBUKeMLt3C.jpeg)

全部评论 (0)

还没有任何评论哟~

斯坦福吴恩达《机器学习》--增强学习

增强学习和控制在监督学习中，算法试图模仿训练机的labelsy,训练集中的每一个输入x都有一个确定的对应的y，但是对于很多需要连续作决定的问题和控制问题，给算法提供一个明确的标签是很难的。

coursera-斯坦福-机器学习-吴恩达-第1周笔记

coursera斯坦福机器学习吴恩达第1周笔记文章目录 coursera斯坦福机器学习吴恩达第1周笔记 0前言 1Introduction介绍对应笔记lectur 1Introduction介绍对应...

Coursera 斯坦福吴恩达机器学习课程笔记 (1)

看了课程一周后发现忘光了，决定做一个笔记用作复习。如果涉及到侵权问题请联系我，我会立马删除并道歉。同时，禁止任何形式的转载，包括全文转载和部分转载。如需使用请联系本人422892137@qq.com...

斯坦福CS229（吴恩达授）学习笔记（1）

CS229notes1part1 说明正文 LinearRegression LMSalgorithm（迭代法、梯度下降法） Thenormalequations（解析法）说明此笔记是cs229...

斯坦福CS229（吴恩达授）学习笔记（5）

CS229notes3 说明正文 ProblemSet2:Kernels,SVMs,andTheory 1\.Kernelridgeregression 2\.\ell2normsoftmargin...

斯坦福CS229（吴恩达授）学习笔记（3）

CS229notes1part3 说明正文 ProblemSet1:Supervisedlearning 1\.Newton'smethodforcomputingleastsquares 5\.E...

斯坦福CS229（吴恩达授）学习笔记（6）

CS229notes4 说明正文 ProblemSet2:Kernels,SVMs,andTheory 5\.Uniformconvergence 说明此笔记是cs229notes4讲义中的学习内...

斯坦福吴恩达-深度学习和机器学习全套视频+课件！

这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度...

coursera-斯坦福-机器学习-吴恩达-第8周笔记-无监督学习

coursera斯坦福机器学习吴恩达第8周笔记无监督学习文章目录 coursera斯坦福机器学习吴恩达第8周笔记无监督学习 1聚类算法clutering 1.1聚类算法简介 1.2Kmeans 1....

coursera-斯坦福-机器学习-吴恩达-第11周笔记-ORC系统

coursera斯坦福机器学习吴恩达第11周笔记ORC系统 coursera斯坦福机器学习吴恩达第11周笔记ORC系统 1图像ORC 1问题描述 2滑动窗slidingwindows 3获取大量的图片...

是否确定退出登录?

斯坦福吴恩达《机器学习》--增强学习

增强学习和控制

1.MDP

2.价值迭代和策略迭代

3.MDP学习模型

4.连续状态的MDP

4.1 离散化

4.2 价值函数近似

4.2.1 使用模型或仿真器

4.2.2 Fitted value iteration

全部评论 (0)

相关文章推荐

斯坦福吴恩达《机器学习》--增强学习

coursera-斯坦福-机器学习-吴恩达-第1周笔记

Coursera 斯坦福吴恩达机器学习课程笔记 (1)

斯坦福CS229（吴恩达授）学习笔记（1）

斯坦福CS229（吴恩达授）学习笔记（5）

斯坦福CS229（吴恩达授）学习笔记（3）

斯坦福CS229（吴恩达授）学习笔记（6）

斯坦福吴恩达-深度学习和机器学习全套视频+课件！

coursera-斯坦福-机器学习-吴恩达-第8周笔记-无监督学习

coursera-斯坦福-机器学习-吴恩达-第11周笔记-ORC系统