强化学习基础知识第三章_个人笔记

阅读量：

课程资源源自bilibili平台上的西湖南大智能无人系统：西湖南大智能无人系统的个人空间 - 西湖南大智能无人系统个人主页 -哔哩哔哩视频 (bilibili.com)

Optimal Policy and Bellman Optimality Equation

旨在确定最佳状态价值以及最佳策略 —> 通过应用贝尔曼最优方程(Bellman optimality equation)来实现。

1.Motivating examples

在这样一个2x2的grid-world中，基于贝尔曼方程系统地推导出每个状态下的state values以及action values

若一个policy表现不佳，则可通过基于action value的方法进行政策提升：具体而言，在此方法中我们选择具有最高值的那个action values来确立新的策略（如图所示）。

2.Definition of optimal policy

如果某个state value被所有其他state value超越，则该行为被视为最佳策略

3.Bellman optimality equation

最优方程就是在普通形式前面添加一个max：

4.Maximization on the right-hand side

如何求解一个含有两个或者多个未知量的方程呢？

第一步是固定其中一个变量，并对该变量进行极值求解。接着，在此基础上继续针对剩余的变量进行极值优化。

对于贝尔曼最优方程，先固定V ' (s)，对

(a|s)求最值，V(s)也就成为了类似于对f(x) = 2X1+6X2+7X3+10X4 这样的函数。显然，当

前面的系数未知时，对于最大的那个

，使其前面的系数最大.

5.Rewrite as v = f(v)

BOE的格式可以写为函数的形式

6.Contraction mapping theorem

首先介绍收缩映射定理：

不动点：f(x) = x

收缩映射：|| f(x1) - f(x2)||<=γ|| x1 - x2 ||，称f是收缩映射函数

由该定理所得的解不仅满足存在性和唯一性条件，并且经过反复迭代计算后能够趋近于x*值；其收敛速度也非常快。

7.BOE：Solution

对于贝尔曼最优方程，一直迭代下去，Vk就会趋于最优的V*

8.BOE：Optimality

获得V*时候的

就是Optimal policy

9.Analyzing optimal policies

三个因素决定了optimal policy，如下图所示

10.总结性问题

全部评论 (0)

还没有任何评论哟~

强化学习基础知识第三章_个人笔记

课程来源于bilibili西湖大学智能大学无人系统：西湖大学智能无人系统的个人空间西湖大学智能无人系统个人主页哔哩哔哩视频bilibili.com OptimalPolicyandBellmanOpt...

汇编语言个人学习笔记——第一章基础知识

1.1 计算机语言分为三种： 1.高级语言（C语言，C++,python等等） 2.机器语言（计算机能够直接识别的机器码，如：1000100111011000） 3.汇编语言（将机器语言翻译为类似英文...

Python基础知识-pycharm版第三章学习笔记

在Python中，字符串属于不可变对象，不支持原地修改，如果需要修改其中的值，智能创建新的字符串对象。可以使用io.StringIO对象或array模块原地修改字符串： 2.复习基本运算符（比较预算符...

强化学习基础知识笔记[6] - DQN

参考资料 [1]深度强化学习系列第一讲DQN 本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。 DQN 算法引入 DQN算法在QLearning算法上改进而来，具体改进三点：...

Python学习笔记第1章基础知识

Python学习笔记第1章基础知识 1.1使用pip工具管理扩展库 1.列出已安装模块和版本号，使用重定向符把信息保存到xxx.txt文件 pipfreeze[保存文件名.txt] pipfreeze...

Matlab学习笔记第一章基础知识

一．专题一：基础知识 1.3变量及其操作： 1.变量名以字母开头，不能以数字和下划线开头； 2.赋值语句的两种格式：变量=表达式表达式（将表达式的值赋给matlab的预定义变量ans），如果在赋值语句...

强化学习基础知识笔记[7] - Policy Gradient

参考资料 [1]强化学习进阶第六讲策略梯度方法本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。 Valuebased与Policybased Valuebased 值函数方...

学习笔记：第9章标准化和知识产权基础知识

1、标准化活动过程，一般包括标准产生调查、研究、形成草案、批准发布子过程；标准实施宣传、普及、监督、咨询子过程和标准更新复审、废止或修订子过程等。 2、根据标准制定的机构和标准使用的范围，可分为国际标...

强化学习 | 蘑菇书阅读笔记 | 第一章强化学习基础

参考资料：蘑菇书EasyRL 一、基本概念历史是观测、动作、奖励的序列状态是历史的函数 Q：状态和观测有什么关系？ A：状态是对世界的完整描述，不会隐藏世界的信息。观测是对状态的部分描述，可能会遗...

第二章：AI大模型基础知识 2.4 强化学习基础

1.背景介绍 1\.背景介绍强化学习（ReinforcementLearning,RL）是一种机器学习方法，它通过与环境的互动学习，目标是最大化累积回报。强化学习不需要预先标记数据，而是通过试错学习...

是否确定退出登录?

强化学习基础知识第三章_个人笔记

Optimal Policy and Bellman Optimality Equation

1.Motivating examples

2.Definition of optimal policy

3.Bellman optimality equation

4.Maximization on the right-hand side

5.Rewrite as v = f(v)

6.Contraction mapping theorem

7.BOE：Solution

8.BOE：Optimality

9.Analyzing optimal policies

10.总结性问题

全部评论 (0)

相关文章推荐

强化学习基础知识第三章_个人笔记

汇编语言个人学习笔记——第一章 基础知识

Python基础知识-pycharm版第三章学习笔记

强化学习基础知识笔记[6] - DQN

Python学习笔记 第1章 基础知识

Matlab学习笔记第一章基础知识

强化学习基础知识笔记[7] - Policy Gradient

学习笔记：第9章 标准化和知识产权基础知识

强化学习 | 蘑菇书阅读笔记 | 第一章 强化学习基础

第二章：AI大模型基础知识 2.4 强化学习基础

汇编语言个人学习笔记——第一章基础知识

Python学习笔记第1章基础知识

学习笔记：第9章标准化和知识产权基础知识

强化学习 | 蘑菇书阅读笔记 | 第一章强化学习基础