战胜对手的直觉!概率博弈深度攻略:用马尔可夫链破解“随机”骗局:典型例题精讲
适用年级
奥数
难度等级
⭐⭐⭐
资料格式
PDF 可打印
最近更新
2025-12-20
概率博弈的举一反三深度攻略
💡 阿星精讲:概率博弈 的本质
很多同学认为概率博弈就是比运气,其实大错特错!真正的博弈高手明白:人类无法做到完全随机。每个人在看似随机的选择(如猜拳、出牌)中,都会留下“思维指纹”——一种下意识的模式。比如,刚出过“石头”的人,下一局有更高概率出“布”或“剪刀”。
数学上,我们可以用马尔可夫链来建模这种模式。它描述一个系统从当前状态 \( S_t \) 转移到下一个状态 \( S_{t+1} \) 的概率,只依赖于当前状态,记作 \( P(S_{t+1} | S_t) \)。通过观察对手的历史数据,我们能估算出他的状态转移矩阵 \( \mathbf{P} \),从而预测他下一步最可能的行为,打破表面上的随机概率平衡,将胜率从50%提升到60%甚至更高!
🔥 经典例题精析
题目:小明和小红玩“石头剪刀布”。小明暗中记录发现,当小红上一局出“石头”后,她下一局出“石头”、“剪刀”、“布”的频率比为 \( 2:5:3 \)。当前一局小红出了石头。请问:
1) 建立小红出拳习惯的一步转移概率矩阵 \( \mathbf{P} \)。
2) 如果小明想最大化胜率,他下一局应该出什么?
阿星拆解:
第一步:理解状态。 状态空间为 {石头(R), 剪刀(S), 布(P)}。已知当前状态 \( S_t = R \)。
第二步:由频率求概率。 频率比 \( 2:5:3 \),总份数 \( 2+5+3 = 10 \)。因此转移概率为:
\[ P(R|R) = \frac{2}{10} = 0.2, \quad P(S|R) = \frac{5}{10} = 0.5, \quad P(P|R) = \frac{3}{10} = 0.3 \]
第三步:构建矩阵(行是当前状态,列是下一状态)。
\[ \mathbf{P} = \begin{bmatrix} P(R|R) & P(S|R) & P(P|R)\\ P(R|S) & P(S|S) & P(P|S)\\ P(R|P) & P(S|P) & P(P|P) \end{bmatrix} = \begin{bmatrix} 0.2 & 0.5 & 0.3\\ ? & ? & ?\\ ? & ? & ? \end{bmatrix} \]
本题只需第一行。
第四步:制定对策。 预测小红下一局最可能出剪刀 (\( P=0.5 \))。为了赢她,小明应该出石头(石头赢剪刀)。
口诀:观其过往,建矩阵,抓转移,破随机!
🚀 举一反三:变式挑战
将“石头剪刀布”转换为“足球点球博弈”。守门员预测射手踢向左(L)、中(C)、右(R)的习惯。数据显示,当射手上次踢向左路后,下一次踢向 L, C, R 的频率比为 \( 1:3:6 \)。若上次踢向左路,守门员为最大化扑救概率,应重点防守哪一侧?(假设射手与守门员收益对称)
已知小华在“猜硬币正反面”游戏中,一步转移概率矩阵近似为:
\[ \mathbf{P} = \begin{bmatrix} 0.7 & 0.3\\ 0.4 & 0.6 \end{bmatrix} \]
(状态顺序:正,反)。观察一个长序列发现,出现“正正”的次数为 \( 35 \) 次。估算这个序列中总共出现了多少次“正”?(提示:利用 \( P(正|正) \) 的定义)
在擂台赛中,A选手根据B选手的习惯调整策略。B选手状态转移矩阵已知。A选手的胜率矩阵(对应B的状态)为:
\[ \mathbf{W} = \begin{bmatrix} 0.6 & 0.9 & 0.3\\ 0.3 & 0.6 & 0.9\\ 0.9 & 0.3 & 0.6 \end{bmatrix} \]
(行代表A的选择,列代表B的选择,值为A的胜率)。若已知B的当前状态和转移矩阵,A应如何选择行动,以最大化其下一步的期望胜率?(此题融合转移预测与收益计算)
答案与解析
经典例题:
1) 转移概率矩阵第一行已求出:\( [0.2, 0.5, 0.3] \)。
2) 小明应出石头。
变式一:
由频率比 \( 1:3:6 \) 得,踢向 L, C, R 的概率分别为 \( 0.1 \), \( 0.3 \), \( 0.6 \)。最可能踢向 R(概率 \( 0.6 \))。为赢射手(即扑出球),守门员应向同一侧扑救(假设扑对方向就能扑出)。因此应重点防守右侧(R)。
变式二:
设状态“正”为1,“反”为2。\( P(1|1) = 0.7 \) 表示在已知上一个为“正”的条件下,下一个为“正”的概率。设序列中“正”的总次数为 \( N_1 \),“正正”的次数为 \( C_{11} \)。由大数定律,\( P(1|1) \approx \frac{C_{11}}{N_1 - 1} \)(减1是因为最后一个“正”后无状态)。代入 \( C_{11} = 35 \),\( P(1|1)=0.7 \),得 \( 0.7 \approx \frac{35}{N_1 - 1} \)。解得 \( N_1 - 1 \approx 50 \),故 \( N_1 \approx 51 \)。
变式三:
设B的当前状态为 \( j \),其转移到状态 \( k \) 的概率为 \( P_{jk} \)。若A选择行动 \( i \),则当B处于状态 \( k \) 时,A的胜率为 \( W_{ik} \)。因此,A选择行动 \( i \) 后的期望胜率为:
\[ E_i = \sum_{k} (P_{jk} \times W_{ik}) \]
计算三种行动 \( i = 1,2,3 \) 对应的 \( E_i \),选择使 \( E_i \) 最大的行动 \( i \) 即可。这是一个基于预测的决策优化过程。
PDF 典型例题打印版
为了节省资源,点击后将为您即时生成 PDF