Advertisement

强化学习基础知识第三章_个人笔记

阅读量:

课程资源源自bilibili平台上的西湖南大智能无人系统:西湖南大智能无人系统的个人空间 - 西湖南大智能无人系统个人主页 -哔哩哔哩视频 (bilibili.com)

Optimal Policy and Bellman Optimality Equation

旨在确定最佳状态价值以及最佳策略 —> 通过应用贝尔曼最优方程(Bellman optimality equation)来实现。

1.Motivating examples

在这样一个2x2的grid-world中,基于贝尔曼方程系统地推导出每个状态下的state values以及action values

若一个policy表现不佳,则可通过基于action value的方法进行政策提升:具体而言,在此方法中我们选择具有最高值的那个action values来确立新的策略(如图所示)。

2.Definition of optimal policy

如果某个state value被所有其他state value超越,则该行为被视为最佳策略

3.Bellman optimality equation

最优方程就是在普通形式前面添加一个max:

4.Maximization on the right-hand side

如何求解一个含有两个或者多个未知量的方程呢?

第一步是固定其中一个变量,并对该变量进行极值求解。接着,在此基础上继续针对剩余的变量进行极值优化。

对于贝尔曼最优方程,先固定V ' (s),对

i

(a|s)求最值,V(s)也就成为了类似于对f(x) = 2X1+6X2+7X3+10X4 这样的函数。显然,当

i

前面的系数未知时,对于最大的那个

i

,使其前面的系数最大.

5.Rewrite as v = f(v)

BOE的格式可以写为函数的形式

6.Contraction mapping theorem

首先介绍收缩映射定理:

不动点:f(x) = x

收缩映射:|| f(x1) - f(x2)||<=γ|| x1 - x2 ||,称f是收缩映射函数

由该定理所得的解不仅满足存在性和唯一性条件,并且经过反复迭代计算后能够趋近于x*值;其收敛速度也非常快。

7.BOE:Solution

对于贝尔曼最优方程,一直迭代下去,Vk就会趋于最优的V*

8.BOE:Optimality

获得V*时候的

i

就是Optimal policy

i

9.Analyzing optimal policies

三个因素决定了optimal policy,如下图所示

10.总结性问题

全部评论 (0)

还没有任何评论哟~