深圳大学人工智能概述_实验三（多臂老虎机）

阅读量：

问题描述

你进了一家赌场，假设面前有

台数老虎机（arms）。我们知道，老虎机本质上是运气游戏的一种形式，在这里我们假设每台老虎机

都有一定概率

吐出一块钱，或者不吐钱（概率

）。假设你手上只有

枚代币单位（tokens），每次游戏消耗一枚代币意味着你每次游戏都需要一枚代币。

次，那么如何做才能使得期望回报（expected reward）最大呢？

不同解决思路

设置相关变量

贪心

思路：总是选择当前评估值最高的老虎机进行游戏，并根据游戏结果调整该台老虎机的获奖概率

伪代码：

贪心

在不同情况下选择未被充分探索的老虎机（非基于预测概率的随机选择是一种探索策略），以获取潜在高回报；同时，在持续尝试过程中逐步提高对各老虎机出奖概率的估计精度；另一种策略则直接应用到当前被认为具有最高获奖概率的老虎机上（一种利用策略）。

流程图：

伪代码：

softmax

思路：每一次都采取随机策略（非等概率地进行选择），高奖励概率的老虎机更容易被选中。

伪代码：

程序设计

因为每台老虎机默认设置了出奖概率参数，并且在三种不同的算法中都采用了相同的回报机制。建议首先构建相应的可用类。

老虎机类

属性：奖机数量、各台机器中奖几率（允许用户自行设定初始值，并可采用随机生成的方式初始化参数）以及最优中奖概率值
- 方法：采用根据出奖几率分配奖励机制（仅限于1或0两种结果）

ps:

有0.4的概率出奖即，随机生成一个[0,1]的数，小于0.4的概率

小于0.4时返回1；否则返回0 即可实现

复制代码

 class BernoulliBandit():

    
     def __init__(self, K, probas=None):        #n为摇臂的个数，probas为每个摇臂获得奖励的概率
    
     assert probas is None or len(probas) == K
    
     self.K = K
    
     if probas is None:
    
         np.random.seed(int(time.time()))
    
         self.probas = [np.random.random() for _ in range(self.K)]
    
     else:
    
         self.probas = probas
    
         self.best_proba = max(self.probas)
    
     def generate_reward(self, i):
    
     # The player selected the i-th machine.
    
     if np.random.random() < self.probas[i]:
    
         return 1     #满足发生的概率，就获得奖励1
    
     else:
    
         return 0
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/lsotXKyhPu2wN8rcfpUgIemWax7z.png)

求解算法有关参数设计

：第i台老虎机评估的概率 ------列表即可

:第i台老虎机玩过的次数 --------列表即可

：总获奖积分 ------数即可

：第k台老虎机返回的奖励 ------列表即可

y：平均每步得分（用来衡量算法好坏） ------列表即可

贪心算法代码

复制代码

 def greedy_strategy(bandit,T,r,Q,count):

    
     r=0
    
     y=[]
    
     for t in range(1,T+1):
    
         j=np.argmax(Q)
    
         reward=bandit.generate_reward(j)
    
         r+=reward
    
         y.append(r/t)
    
         Q[j]=(Q[j]*count[j]+reward)/(count[j]+1)
    
         count[j]+=1
    
     print("累积奖励：",r)
    
     print("每个摇臂选择次数： ",count)
    
     print("每个摇臂的估计值： ",Q)
    
     print("每个摇臂真实获奖的概率： ",bandit.probas)
    
     return y
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/GHzo3JiuAhlVS12FxmfaZDOLIrNn.png)

贪心算法代码

复制代码

 def greedy_e_strategy(bandit,K,T,epsilon,r,Q,count):

    
     r=0
    
     y=[]
    
     for t in range(1,T+1):
    
         if np.random.random()<epsilon:
    
             j=np.random.randint(0,K)
    
         else:
    
             j=np.argmax(Q)
    
         reward=bandit.generate_reward(j)
    
         r+=reward
    
         y.append(r/t)
    
         Q[j]=(Q[j]*count[j]+reward)/(count[j]+1)
    
         count[j]+=1
    
     print("累积奖励：",r)
    
     print("每个摇臂选择次数： ",count)
    
     print("每个摇臂的估计值： ",Q)
    
     print("每个摇臂真实获奖的概率： ",bandit.probas)
    
     return y
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/rFuwXTtWciIvRSf1Za0OYGpke9JB.png)

softmax算法代码

复制代码

 def softmax(bandit,K,T,epsilon,Q,r,count):

    
     r=0
    
     y=[]
    
     property_list=np.zeros(K)
    
     for t in range(1,T+1):
    
     Probability_accumulation=0
    
     total_accumulation=sum(pow(e,Q[i]/epsilon) for i in range(K))
    
     random_value=np.random.random()
    
     for i in range(K):
    
         property_list[i]=pow(e,Q[i]/epsilon)/total_accumulation
    
         Probability_accumulation+=property_list[i]
    
         if random_value<Probability_accumulation :
    
             j=i
    
             break
    
     reward=bandit.generate_reward(j)
    
     r+=reward
    
     y.append(r/t)
    
     Q[j]=(Q[j]*count[j]+reward)/(count[j]+1)
    
     count[j]+=1
    
     print("累积奖励：",r)
    
     print("每个摇臂选择次数： ",count)
    
     print("每个摇臂的估计值： ",Q)
    
     print("每个摇臂真实获奖的概率： ",bandit.probas)
    
     return y
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/h2YXg0nxvJm4dBVkPHpDGywTQizO.png)

结果查看

可视化平均奖励

随着尝试次数的增加，平均得分趋于稳定，其中贪心（中间）的结果浮动较大。

每台老虎机估测获奖概率与实际获奖概率比较

整体代码

复制代码

 import numpy as np

    
 import time  
    
 import matplotlib.pyplot as plt
    
 e=2.718
    
  
    
 class BernoulliBandit():
    
     def __init__(self, K, probas=None):        #n为摇臂的个数，probas为每个摇臂获得奖励的概率
    
     assert probas is None or len(probas) == K
    
     self.K = K
    
     if probas is None:
    
         np.random.seed(int(time.time()))
    
         self.probas = [np.random.random() for _ in range(self.K)]
    
     else:
    
         self.probas = probas
    
         self.best_proba = max(self.probas)
    
     def generate_reward(self, i):
    
     # The player selected the i-th machine.
    
     if np.random.random() < self.probas[i]:
    
         return 1     #满足发生的概率，就获得奖励1
    
     else:
    
         return 0
    
     
    
 #参数K：摇臂个数，T：试验次数，epsilon：探索概率,r:累积奖励,Q:每个摇臂的估计值,count:每个摇臂的选择次数
    
 def greedy_e_strategy(bandit,K,T,epsilon,r,Q,count):
    
     r=0
    
     y=[]
    
     for t in range(1,T+1):
    
         if np.random.random()<epsilon:
    
             j=np.random.randint(0,K)
    
         else:
    
             j=np.argmax(Q)
    
         reward=bandit.generate_reward(j)
    
         r+=reward
    
         y.append(r/t)
    
         Q[j]=(Q[j]*count[j]+reward)/(count[j]+1)
    
         count[j]+=1
    
     print("\n贪心-ε策略：\n")
    
     print("累积奖励：",r)
    
     print("每个摇臂选择次数： ",count)
    
     print("每个摇臂的估计值： ",Q)
    
     print("每个摇臂真实获奖的概率： ",bandit.probas)
    
     return y
    
  
    
 def greedy_strategy(bandit,T,r,Q,count):
    
     r=0
    
     y=[]
    
     for t in range(1,T+1):
    
         j=np.argmax(Q)
    
         reward=bandit.generate_reward(j)
    
         r+=reward
    
         y.append(r/t)
    
         Q[j]=(Q[j]*count[j]+reward)/(count[j]+1)
    
         count[j]+=1
    
     print("\n贪心策略:\n")
    
     print("累积奖励：",r)
    
     print("每个摇臂选择次数： ",count)
    
     print("每个摇臂的估计值： ",Q)
    
     print("每个摇臂真实获奖的概率： ",bandit.probas)
    
     return y
    
  
    
 def softmax(bandit,K,T,epsilon,Q,r,count):
    
     r=0
    
     y=[]
    
     property_list=np.zeros(K)
    
     for t in range(1,T+1):
    
     Probability_accumulation=0
    
     total_accumulation=sum(pow(e,Q[i]/epsilon) for i in range(K))
    
     random_value=np.random.random()
    
     for i in range(K):
    
         property_list[i]=pow(e,Q[i]/epsilon)/total_accumulation
    
         Probability_accumulation+=property_list[i]
    
         if random_value<Probability_accumulation :
    
             j=i
    
             break
    
     reward=bandit.generate_reward(j)
    
     r+=reward
    
     y.append(r/t)
    
     Q[j]=(Q[j]*count[j]+reward)/(count[j]+1)
    
     count[j]+=1
    
     print("\nsoftmax:\n")
    
     print("累积奖励：",r)
    
     print("每个摇臂选择次数： ",count)
    
     print("每个摇臂的估计值： ",Q)
    
     print("每个摇臂真实获奖的概率： ",bandit.probas)
    
     return y
    
  
    
 fig,axs=plt.subplots(1,3,figsize=(10,5))
    
 k_=5
    
 T_=4000  
    
 bandit = BernoulliBandit(K=k_)
    
 y_ge=greedy_e_strategy(bandit,K=k_,T=T_,epsilon=0.1,r=0,Q=np.zeros(k_),count=np.zeros(k_))
    
 x=[i for i in range(0,T_+1)]
    
 y_ge=[0]+y_ge
    
 axs[0].plot(x,y_ge)
    
 axs[0].set_xlabel('round')
    
 axs[0].set_ylabel('average reward')
    
 axs[0].set_title('greedy-epsilon strategy')
    
  
    
 y_g=greedy_strategy(bandit,T=T_,r=0,Q=np.zeros(k_),count=np.zeros(k_))
    
 x=[i for i in range(0,T_+1)]
    
 y_g=[0]+y_g
    
 axs[1].plot(x,y_g)
    
 axs[1].set_xlabel('round')
    
 axs[1].set_ylabel('average reward')
    
 axs[1].set_title('greedy strategy')
    
  
    
 y_sf=softmax(bandit,K=k_,T=T_,epsilon=0.1,r=0,Q=np.zeros(k_),count=np.zeros(k_))
    
 x=[i for i in range(0,T_+1)]
    
 y_sf=[0]+y_sf
    
 axs[2].plot(x,y_sf)
    
 axs[2].set_xlabel('round')
    
 axs[2].set_ylabel('average reward')
    
 axs[2].set_title('softmax strategy')
    
 plt.suptitle("K:%d   T:%d  "%(k_,T_))
    
 plt.show()
    
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/Kwy0RNDYr2canmSZO8g7IVvstqP4.png)

想法：

1、在估测每台老虎机出奖概率

在初始状态下正常全零的情况下会发现贪心策略会出现较大的波动（有时表现优异有时表现不佳）。这是由于基于贪心算法的核心机制是当某一老虎机表现出色后其评分会被提升从而促使后续选择该设备即使后续未再获得奖励但其评分仍高于零点在之后的步骤中它将不再考虑其他老虎机。即意味着一旦某台老虎机首次给予奖励就会一劳永逸地选择该设备直到不再遇到其他可能提供更高回报的选项。但是若把这种单一策略应用到复杂场景中可能会导致无法捕捉到潜在更高的回报机会因此需要采取更为灵活的策略如动态调整参数或结合探索与利用的思想以平衡即时收益与长期收益之间的关系

全部设为1后差别会非常大！让贪心也具有了探索的潜力，得分表现优异，其本质在于过于注重失误而忽视了整体策略的优化。

2、这个问题可以看成多台老虎机也可以看成一个老虎机的多个摇臂。

3、可再定义忏悔值等不同指标去帮助观测算法在此问题上的差异

全部评论 (0)

还没有任何评论哟~

深圳大学人工智能概述_实验三（多臂老虎机）

问题描述你进了一家赌场，假设面前有台老虎机（arms）。我们知道，老虎机本质上就是个运气游戏，我们假设每台老虎机都有一定概率吐出一块钱，或者不吐钱（概率）。

人工智能——多臂老虎机问题

一、实验目的与要求实验目的： 1．熟悉强化学习相关概念； 2．了解表格解决算法； 3．了解探索与利用的平衡策略，运用强化学习解决问题；二、实验内容与方法实验内容（三选一）： 1\.使用贪心算法和...

【人工智能】Python与强化学习：从零实现多臂老虎机（Multi-Armed Bandit）问题

《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！强化学习是一种模仿生物行为的学习方法，在不确定环境中寻找最优策略。多臂老虎机（MultiArmedBandit,MAB）是...

MAB多臂老虎机

伯努利分布：其均值是P，方差是p1p 假设每一个新闻的CTR是固定的，将CTR从大到小排序，CTR最大的放在最显著的位置。假设有四个新闻，但是不知道那个新闻用户更加喜欢，因此就给每个新闻25%的机会...

多臂老虎机问题

强化学习的基础概念多臂老虎机是一个常见的强化学习问题，所以我们首先给出强化学习的一些基础概念：强化学习不仅需要学习做什么，也需要学习如何根据与环境的交互采取相应的行动。强化学习的最终结果，就是要实...

2. 多臂老虎机问题

多臂老虎机问题 2\.多臂老虎机问题 2.1强化学习基本概念 2.2多臂老虎机与regret值 2.3随机多臂老虎机 2.4对抗多臂老虎机 2.5上下文多臂老虎机 2\.多臂老虎机问题 2.1强化学习...

多臂老虎机/多臂赌博机（Multi-Armed Bandit）

多臂老虎机/多臂赌博机（MultiArmedBandit）是强化学习（ReinforcementLearning）的一种特例——只有一个state 啥是MAB 如下图所示。casino里面有这样的一个...

人工智能 - 机器学习 - 深度学习概述

1\.人工智能 ①人工智能的四要素：数据、算法、算力、场景人工智能的子领域：机器学习、计算机视觉、语音识别、机器人、数据挖掘、计算机图形学、人机交互可视化、数据库技术、多媒体技术、知识工程、自然语...

MAB多臂老虎机/赌博机

暂无描述

深圳大学计算机游戏开发实验5 游戏中的人工智能

目录一、实验目的与要求二、实验内容与方法 1．完成游戏编译 2．完成修改内容一 3．完成修改内容二 4．完成修改内容三 5．完成修改内容四 6．完成Bug修改 7．添加配乐、音效 8\.游戏优化升...

是否确定退出登录?

深圳大学人工智能概述_实验三（多臂老虎机）

问题描述

不同解决思路

贪心

softmax

程序设计

老虎机类

求解算法有关参数设计

贪心算法代码

softmax算法代码

结果查看

整体代码

想法：

全部评论 (0)

相关文章推荐

深圳大学人工智能概述_实验三（多臂老虎机）

人工智能——多臂老虎机问题

【人工智能】Python与强化学习：从零实现多臂老虎机（Multi-Armed Bandit）问题

MAB多臂老虎机

多臂老虎机问题

2. 多臂老虎机问题

多臂老虎机/多臂赌博机 （Multi-Armed Bandit）

人工智能 - 机器学习 - 深度学习概述

MAB多臂老虎机/赌博机

深圳大学计算机游戏开发实验5 游戏中的人工智能

多臂老虎机/多臂赌博机（Multi-Armed Bandit）