博弈论——矩阵博弈
目录
一、定义
二、关键要素
1.参与者
2.策略集
3.收益矩阵
三、混合策略与混合扩充
1.混合策略
2.混合扩充
四、纳什均衡解的求取
1.定义
2.举例
例1.
例2.
总结
一、定义
矩阵博弈(matrix game) ,又称标准式博弈 或战略式博弈 ,通常表现为二人有限零和博弈。“二人” 指博弈中有两个参与方,“有限” 表示双方的策略集都是有限的,“零和” 意味着一方的收益恰好是另一方的损失,双方的收益之和始终为零。这种博弈可以用一个矩阵来表示,因此被称为矩阵博弈。
二、关键要素
**** 矩阵博弈共有三个关键要素:参与者、策略集和收益矩阵。
1.参与者
矩阵博弈中包含两个参与者,通常记作参与者 1 和参与者 2 ,两者通过在博弈中采取不同策略以获取最大收益或最小损失。
2.策略集
设参与者 1 有 m 个纯策略:
,参与者 2 有 n 个纯策略:
,则参与者 1、2 的策略集分别为:
,
.
3.收益矩阵
记参与者 1 采取策略
且参与者 2 采取策略
时,参与者 1 的收益为
(参与者 2 的支付就是
),则参与者 1 在每个策略中的收益构成一个收益矩阵(该矩阵也就是参与者 2 的支付矩阵):
.
由于该博弈为零和博弈,因此参与者 2 的收益矩阵为
。
当参与者 1 和参与者 2 的策略集
、
及参与者 1 的收益矩阵
确定后,一个矩阵博弈就确定了。通常将一个矩阵博弈记作:
.
三、混合策略与混合扩充
1.混合策略
在矩阵博弈中,参与者不一定只选择纯策略,而是可能以一定的概率分布来选择各个纯策略,这种策略称为混合策略 。参与者1的混合策略可以表示为一个 m 维的向量
,其中
表示参与者 1 选择策略
的概率,且
。同理,参与者 2 的混合策略可以表示为一个 n 维向量
.
2.混合扩充
将原来只考虑纯策略的矩阵博弈扩展到混合策略空间,得到混合扩充博弈。在混合策略下,
参与者 1 的期望收益为:
,
参与者 2 的期望收益为:
.
四、纳什均衡解的求取
1.定义
设
为矩阵博弈,其中
,
,
,若等式:
成立,
,则称
为博弈
的值,对应的策略组合
称为该博弈的纳什均衡。
2.举例
例1.
首先介绍最著名的囚徒困境博弈 。故事设定为:两个嫌疑犯 A 和 B 作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉他们:如果两人都沉默,各判刑一年;如果两人都坦白,各判八年;如果一人坦白另一人沉默,坦白的放出去,沉默的判十年。
根据故事可知,这场博弈的参与者为嫌疑犯A、B,且两人是理智的,两人的策略集均为 S={坦白,沉默 } ,收益矩阵可以如下建模:(表中负数表示需要服刑的时间)
| 策略组合 | A坦白 | A沉默 |
|---|---|---|
| B坦白 | A:-8;B:-8 | A:-10;B:0 |
| B沉默 | A:0;B:-10 | A:-1;B:-1 |
个体最优选择: 从A的角度看,当B坦白时,A坦白判8年,A抵沉默10年,A会选择坦白;当B沉默时,A坦白无罪释放,A沉默会被判1年,因此A仍然会选择坦白。同理,从B的角度看,B的最佳策略也是坦白。此时,二者便达成了一个纳什均衡: (坦白,坦白)
__ 集体最优选择: 从集体的角度看,双方都沉默才是最优的,能使整体的刑期总和最小,实现集体利益的最大化。但个体的理性决策却无法达到这个集体最优的结果,体现了个体理性与集体理性的冲突。
例2.
【分析】
由参与者 1 的收益矩阵
可知,参与者 1 的最大收益是 7 ,想要获得这个收益,参与者 1 会选择策略
,但参与者 2 也是理智的,他会考虑用策略
来应对,这样一来,参与者 1 不仅不会获得最大收益 7 ,反而会失去 11 。
如此一来,双方都不愿意冒险,而是考虑到对方必定会使自己的收益最少这一点,由此双方需要寻找到一个纳什均衡 来确保自己不会面临最坏的结果。
为了找到该矩阵博弈的纳什均衡,我们列出如下表格:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
|---|---|---|---|---|---|
![]() |
-5 | 1 | -9 | -9 | 3 |
![]() |
5 | 3 | 4 | 3 | |
![]() |
7 | -1 | -11 | -11 | |
![]() |
-2 | 0 | 6 | -2 | |
![]() |
7 | 3 | 6 | ||
![]() |
3 | 3 |
对于参与者 1 的策略
,我们取出参与者 2 采取的所有应对策略中,使得参与者 1 获得的最小收益“ min ”,稍后在所有的“ min ”中取出最大的“ min ”,填入“ max ”。由于参与者 1 的收益就是参与者 2 的支付,因此我们要取出参与者 2 的最小收益就是取参与者 1 的最大收益,我们用类似的方法找到所有的“ max ”,并在所有的“ max ”中找到最小的“ max ”,填入“ min ”。本例中参与者 1 的收益和参与者 2 的支付的绝对值相等,都为 3 。
综上:
(1)
;
(2)该博弈的值
;
(3)
的解
称为该博弈的纳什均衡。
可以看出,
是矩阵
所在行的最小元素,也是所在列的最大元素,即:
.
总结
矩阵博弈是博弈论中的一个重要分支,它是指在二人有限零和博弈中,通过用矩阵形式来表示博弈双方的策略和收益,博弈双方依据各自的策略集进行决策,一方的收益必然意味着另一方等量的损失,双方利益完全对立,其核心目标是寻求在给定的矩阵收益结构下,各自的最优策略,以使自身收益最大化或损失最小化,最终可能达到一个稳定的策略组合,即纳什均衡。
其中经典的例子如 “囚徒困境” 就体现了个体最优选择与集体最优选择之间的矛盾,矩阵博弈在经济学、政治学、军事等诸多领域都有广泛应用,为分析和解决竞争与决策问题提供了有力的理论工具。













