星火网
首页 灵感 学院 工具 投稿

“乱拳”如何打死老师傅?数学博士揭秘「随机策略」制胜法!:典型例题精讲

适用年级

奥数

难度等级

⭐⭐⭐

资料格式

PDF 可打印

最近更新

2025-12-20

随机策略:用「不可预测性」打造最优防守

💡 阿星精讲:随机策略 的本质

想象一下,你在和对手玩剪刀石头布。如果你每次都出剪刀,对手很快就会发现规律,然后一直出石头来打败你。这就是“可预测”的代价!真正的智慧在于,让你的选择变得不可预测。这并非胡乱出拳,而是像一位深谋远虑的将军,让自己的战术(出剪刀、石头、布的概率)符合一个精心设计的随机分布(例如各 \( \frac{1}{3} \)),使得对手无论采取什么固定策略,都无法在长期中占到便宜。在数学上,这被称为混合策略纳什均衡。它的核心思想是:让自己的行为随机化,从而不被对手针对,这是最高明的防守,也是进攻的基石。我们通过设定概率变量(如 \( p, q \)),并令对手针对你的任一“纯策略”的期望收益相等,来求解这个最优的随机配方。

🔥 经典例题精析

题目:玩家A和玩家B进行一场游戏。A有两个策略:进攻(\( I \)) 或防守(\( D \));B也有两个策略:左路(\( L \)) 或右路(\( R \))。收益矩阵如下(表中数值为A的收益,B的收益相反):

\[ \begin{array}{c|cc} & L & R \\ \hline I & 4 & 1 \\ D & 2 & 5 \\ \end{array} \]
求玩家A的混合策略纳什均衡,即A应以多大概率 \( p \) 选择进攻(\( I \)),以概率 \( 1-p \) 选择防守(\( D \)),使得B无论选 \( L \) 还是 \( R \),期望收益都相同,从而无法针对A。

🔍

阿星拆解:

第一步:设定变量。 设A以概率 \( p \) 选择 \( I \),以概率 \( 1-p \) 选择 \( D \)。这是我们要找的“随机配方”。

第二步:计算B选择不同策略时,A的期望收益。

当B选择 \( L \) 时,A的期望收益 \( E_A(L) = p \times 4 + (1-p) \times 2 = 4p + 2 - 2p = 2p + 2 \)。

当B选择 \( R \) 时,A的期望收益 \( E_A(R) = p \times 1 + (1-p) \times 5 = p + 5 - 5p = 5 - 4p \)。

第三步:建立“无差异”方程。 要使B无法针对A,就必须让B觉得选 \( L \) 和选 \( R \) 对付A的“随机配方”效果一样,即A在面对B的这两种选择时,期望收益相等(这样B才没有动机偏离):
\[ E_A(L) = E_A(R) \]
\[ 2p + 2 = 5 - 4p \]

第四步:求解最优概率。
\[ 2p + 4p = 5 - 2 \]
\[ 6p = 3 \]
\[ p = \frac{1}{2} \]
所以,A的最优随机策略是:以 \( \frac{1}{2} \) 的概率进攻,以 \( 1 - \frac{1}{2} = \frac{1}{2} \) 的概率防守。

口诀:“概率变量先设好,期望收益列成表,令其相等解方程,随机配方是最妙!”

🚀 举一反三:变式挑战

变式一:基础转换

将背景改为“市场定价博弈”。公司A可选择高价(\( H \))或低价(\( L \)),公司B也可选高价(\( H \))或低价(\( L \))。收益矩阵如下(A的收益):
\[ \begin{array}{c|cc} & H_B & L_B \\ \hline H_A & 6 & 0 \\ L_A & 2 & 4 \\ \end{array} \]
求公司A应如何随机化其定价策略(即求概率 \( p \) ),使得公司B无法通过固定策略获利优势?

变式二:逆向思维

在经典例题中,如果我们已经知道在均衡状态下,玩家B选择左路(\( L \))的概率是 \( q = 0.6 \)。请反向求出原收益矩阵中可能存在的一组数值(即找出一个满足该条件的、A的收益矩阵),并验证此时A的混合策略是否还是 \( p = 0.5 \)。

变式三:综合拔高

考虑“剪刀(\( S \))、石头(\( R \))、布(\( P \))”的经典游戏,但规则稍作修改:平局时,双方都不得分;获胜方得 \( 1 \) 分,失败方得 \( -1 \) 分。证明:在这个零和博弈中,唯一的混合策略纳什均衡是双方都以均等的概率 \( \frac{1}{3} \) 随机选择每个动作。


答案与解析

经典例题答案: \( p = \frac{1}{2} \)。

解析:见上方阿星拆解。

变式一解析:

设A选 \( H_A \) 的概率为 \( p \)。

当B选 \( H_B \): \( E_A(H_B) = 6p + 2(1-p) = 4p + 2 \)

当B选 \( L_B \): \( E_A(L_B) = 0p + 4(1-p) = 4 - 4p \)

令 \( 4p + 2 = 4 - 4p \),解得 \( 8p = 2 \),即 \( p = \frac{1}{4} \)。

所以,A应以 \( \frac{1}{4} \) 的概率定高价,以 \( \frac{3}{4} \) 的概率定低价。

变式二解析:

设A的收益矩阵为:
\[ \begin{array}{c|cc} & L & R \\ \hline I & a & b \\ D & c & d \\ \end{array} \]
已知B的均衡混合策略为 \( (q, 1-q) = (0.6, 0.4) \)。在均衡时,A选择 \( I \) 和 \( D \) 的期望收益应相等(否则A会改变策略)。

即:\( 0.6a + 0.4b = 0.6c + 0.4d \)。

我们还需满足经典例题中的条件:当A按 \( p=0.5 \) 混合时,B对 \( L \) 和 \( R \) 无差异。

即:\( 0.5a + 0.5c = 0.5b + 0.5d \) => \( a + c = b + d \)。

取一组简单解:令 \( a=4, b=1, c=2 \),则由 \( a+c=6 \) 得 \( b+d=6 \),所以 \( d=5 \)。这恰好是原矩阵。验证:\( 0.6*4+0.4*1=2.8 \),\( 0.6*2+0.4*5=3.2 \),两者不等,说明若B以 \( (0.6,0.4) \) 混合,A会倾向于选D(收益3.2>2.8),从而破坏均衡。因此,给定B的混合策略,原矩阵的均衡中A的策略通常不是 \( p=0.5 \),除非特别设计。本题意在启发对均衡相互依赖性的思考。

变式三解析:

设玩家1以概率 \( (p_S, p_R, p_P) \) 混合,且 \( p_S+p_R+p_P=1 \)。根据对称性,只需考虑玩家2固定一个纯策略(如石头 \( R \))时,玩家1的期望收益。

玩家1的期望收益 \( E_1 \) 当玩家2出 \( R \) 时:
\[ E_1 = p_S \times (-1) + p_R \times 0 + p_P \times 1 = -p_S + p_P \]

在均衡中,玩家1选择 \( S, R, P \) 的期望收益必须相等(否则他会调整概率)。因此,当对手以均衡策略混合时,有:
\[ -p_S + p_P = p_S - p_R = -p_P + p_R \]

由 \( -p_S + p_P = p_S - p_R \) 得 \( 2p_S = p_P + p_R \)。

由 \( p_S - p_R = -p_P + p_R \) 得 \( p_S + p_P = 2p_R \)。

结合 \( p_S+p_R+p_P=1 \),可解得 \( p_S = p_R = p_P = \frac{1}{3} \)。同理,对手的策略亦然。因此,唯一的对称混合策略均衡是双方均随机化选择,概率各为 \( \frac{1}{3} \)。

PDF 典型例题打印版

为了节省资源,点击后将为您即时生成 PDF