Advertisement

博弈论——矩阵博弈

阅读量:

目录

一、定义

二、关键要素

1.参与者

2.策略集

3.收益矩阵

三、混合策略与混合扩充

1.混合策略

2.混合扩充

四、纳什均衡解的求取

1.定义

2.举例

例1.

例2.

总结


一、定义

矩阵博弈(matrix game) ,又称标准式博弈战略式博弈 ,通常表现为二人有限零和博弈。“二人” 指博弈中有两个参与方,“有限” 表示双方的策略集都是有限的,“零和” 意味着一方的收益恰好是另一方的损失,双方的收益之和始终为零。这种博弈可以用一个矩阵来表示,因此被称为矩阵博弈。

二、关键要素

**** 矩阵博弈共有三个关键要素:参与者、策略集和收益矩阵。

1.参与者

矩阵博弈中包含两个参与者,通常记作参与者 1 和参与者 2 ,两者通过在博弈中采取不同策略以获取最大收益或最小损失。

2.策略集

设参与者 1m 个纯策略:lpha _{1},lpha _{2},...,lpha _{m},参与者 2n 个纯策略:eta {1},eta{2},...,eta_{n},则参与者 1、2 的策略集分别为: S_{1}=egin{Bmatrix} lpha _{1},lpha _{2},...,lpha _{m} nd{Bmatrix}S_{2}=egin{Bmatrix} eta _{1},eta _{2},...,eta _{n} nd{Bmatrix}.

3.收益矩阵

记参与者 1 采取策略 lpha _{i}且参与者 2 采取策略 eta _{j}时,参与者 1 的收益为a_{ij}(参与者 2 的支付就是a_{ij}),则参与者 1 在每个策略中的收益构成一个收益矩阵(该矩阵也就是参与者 2 的支付矩阵):
A=egin{pmatrix} a_{11}& a_{12}& dots & a_{1n}  a_{21}& a_{22}& dots & a_{2n}  dots & dots & dots & dots   a_{m1}& a_{m2} &dots &a_{mn} nd{pmatrix}.

由于该博弈为零和博弈,因此参与者 2 的收益矩阵为-A

当参与者 1 和参与者 2 的策略集S_{1}S_{2}及参与者 1 的收益矩阵A确定后,一个矩阵博弈就确定了。通常将一个矩阵博弈记作: G=egin{Bmatrix} S_{1},S_{2},A nd{Bmatrix}.

三、混合策略与混合扩充

1.混合策略

在矩阵博弈中,参与者不一定只选择纯策略,而是可能以一定的概率分布来选择各个纯策略,这种策略称为混合策略 。参与者1的混合策略可以表示为一个 m 维的向量X=egin{pmatrix} x_{1},x_{2},dots, x_{m} nd{pmatrix},其中x_{i}表示参与者 1 选择策略lpha _{i}的概率,且um_{i=1}^{m}x_{i}=1,0eqslant x_{i}eqslant 1。同理,参与者 2 的混合策略可以表示为一个 n 维向量Y=egin{pmatrix} y_{1},y_{2},dots, y_{n} nd{pmatrix},um_{j=1}^{m}y_{j}=1,0eqslant y_{j}eqslant 1.

2.混合扩充

将原来只考虑纯策略的矩阵博弈扩展到混合策略空间,得到混合扩充博弈。在混合策略下,

参与者 1 的期望收益为:E=XAY{T}=\sum_{i=1}{m}um_{j=1}^{n}a_{ij}x_{i}y_{j}

参与者 2 的期望收益为: -E.

四、纳什均衡解的求取

1.定义

G=egin{Bmatrix} S_{1},S_{2},A nd{Bmatrix}为矩阵博弈,其中S_{1}=egin{Bmatrix} lpha _{1},lpha _{2},...,lpha _{m} nd{Bmatrix}S_{2}=egin{Bmatrix} eta _{1},eta _{2},...,eta _{n} nd{Bmatrix}A=_{mimes n},若等式:max_{i}min_{j}a_{ij}=min_{j}max_{i}a_{ij}=a_{i{*}j{*}}成立,V_{G}=a_{ij},则称V_{G}为博弈G的值,对应的策略组合 称为该博弈的纳什均衡。

2.举例
例1.

首先介绍最著名的囚徒困境博弈 。故事设定为:两个嫌疑犯 A 和 B 作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉他们:如果两人都沉默,各判刑一年;如果两人都坦白,各判八年;如果一人坦白另一人沉默,坦白的放出去,沉默的判十年。

根据故事可知,这场博弈的参与者为嫌疑犯A、B,且两人是理智的,两人的策略集均为 S={坦白,沉默 } ,收益矩阵可以如下建模:(表中负数表示需要服刑的时间)

策略组合 A坦白 A沉默
B坦白 A:-8;B:-8 A:-10;B:0
B沉默 A:0;B:-10 A:-1;B:-1

个体最优选择: 从A的角度看,当B坦白时,A坦白判8年,A抵沉默10年,A会选择坦白;当B沉默时,A坦白无罪释放,A沉默会被判1年,因此A仍然会选择坦白。同理,从B的角度看,B的最佳策略也是坦白。此时,二者便达成了一个纳什均衡: (坦白,坦白)

__ 集体最优选择: 从集体的角度看,双方都沉默才是最优的,能使整体的刑期总和最小,实现集体利益的最大化。但个体的理性决策却无法达到这个集体最优的结果,体现了个体理性与集体理性的冲突。

例2.

【分析】

由参与者 1 的收益矩阵A可知,参与者 1 的最大收益是 7 ,想要获得这个收益,参与者 1 会选择策略lpha _{3},但参与者 2 也是理智的,他会考虑用策略eta _{3}来应对,这样一来,参与者 1 不仅不会获得最大收益 7 ,反而会失去 11

如此一来,双方都不愿意冒险,而是考虑到对方必定会使自己的收益最少这一点,由此双方需要寻找到一个纳什均衡 来确保自己不会面临最坏的结果。

为了找到该矩阵博弈的纳什均衡,我们列出如下表格:

A eta _{1} eta _{2} eta _{3} min max
lpha _{1} -5 1 -9 -9 3
lpha _{2} 5 3 4 3
lpha _{3} 7 -1 -11 -11
lpha _{4} -2 0 6 -2
max 7 3 6
min 3 3

对于参与者 1 的策略lpha _{i},我们取出参与者 2 采取的所有应对策略中,使得参与者 1 获得的最小收益“ min ”,稍后在所有的“ min ”中取出最大的“ min ”,填入“ max ”。由于参与者 1 的收益就是参与者 2 的支付,因此我们要取出参与者 2 的最小收益就是取参与者 1 的最大收益,我们用类似的方法找到所有的“ max ”,并在所有的“ max ”中找到最小的“ max ”,填入“ min ”。本例中参与者 1 的收益和参与者 2 的支付的绝对值相等,都为 3

综上:

(1) max_{i}min_{j}a_{ij}=min_{j}max_{i}a_{ij}=a_{22}

(2)该博弈的值V_{G}=a_{22}=3

(3) G的解称为该博弈的纳什均衡。

可以看出,a_{22}是矩阵A所在行的最小元素,也是所在列的最大元素,即:a_{i2}eqslant a_{22}eqslant a_{2j}.


总结

矩阵博弈是博弈论中的一个重要分支,它是指在二人有限零和博弈中,通过用矩阵形式来表示博弈双方的策略和收益,博弈双方依据各自的策略集进行决策,一方的收益必然意味着另一方等量的损失,双方利益完全对立,其核心目标是寻求在给定的矩阵收益结构下,各自的最优策略,以使自身收益最大化或损失最小化,最终可能达到一个稳定的策略组合,即纳什均衡。

其中经典的例子如 “囚徒困境” 就体现了个体最优选择与集体最优选择之间的矛盾,矩阵博弈在经济学、政治学、军事等诸多领域都有广泛应用,为分析和解决竞争与决策问题提供了有力的理论工具。

全部评论 (0)

还没有任何评论哟~