博弈论教程系列（1）— 博弈论入门之纯策略纳什均衡

type

Post

前言：为什么要学习博弈论？

“《孙子兵法》中有云：‘知己知彼，百战不殆。’在人与人之间的互动或竞争中，掌握对方的优劣势、了解其需求和动机，可以在行动前占据主动，实现‘胜而后求战’的战略。而除了传统的情报收集外，我们还可以通过对环境、角色及困境的深入理解，达到‘知己知彼’的效果。这也是我一直信奉的原则：‘屁股决定脑袋’。换句话说，一个人的思维和决策往往受到其处境和角色的塑造，因此在任何情境下，真正的换位思考—站在对方的立场上感受其焦虑与需求，理解其思维模式—是达成最佳决策的关键。

然而，‘知己知彼’并非终点，它的真正意义在于指导我们的决策。此时，博弈论为我们提供了一个强有力的工具，帮助我们制定最佳行动策略。

博弈论告诉我们，每一个决策不仅仅是对自身利益的考虑，还必须分析对方的策略和可能的反应。通过精准的策略布局和心理战术的把控，我们可以最大化自身的利益。在博弈者之间的局势逐渐确定后，决策的方向也就基本明确，但“如何打好手中的牌”依然是关键。不同的选择将带来不同的“风险”和“回报”，而我们必须在权衡中找到最合适的路径。

本手、俗手、妙手

在围棋的博弈中，我们常常谈论本手、俗手和妙手的概念：

本手指的是一种中庸且稳妥的选择，通常在棋局的当前状态下，介于不坏与好的中间。但中庸并不等同于平庸，它是一种深思熟虑后的合理决策，具有一定的安全性和持续性。

俗手则意味着庸俗的手段，在绝大多数情况下是贬义的。但有时，在特定的局面下，‘俗手’的选择反而可能成为最佳选择，可能是一种短期内最为实际的应对方式。

妙手是指一招卓越、不可多得的灵感之手。它具有极强的隐蔽性和唯一性，通常在对局中并不常见。很多棋手在对局中过于专注局部，试图下出‘假妙手’，却忽略了全局的布局，这往往是失败的根源。

对于大多数人来说，能够做好”本手”就已经足够。而”妙手“是灵感的闪现，它不可预期且难以控制。

真正的高手，往往依赖的是稳步推进的‘本手’，通过每一步的细致布局积累胜势，最终稳定地走向胜利。曾经的世界围棋第一人李昌镐曾说：“我从不追求妙手，也没想过要一举击溃对手。”

不谋全局者，不足以谋一域；不谋万世者，不足以谋一时。

这种思想在交易市场中的博弈尤为适用。长时间在市场中博弈的人，会深刻体会到，我们作为普通的金融参与者，最重要的任务是做到极致的‘本手（B级交易）’，尽最大努力避免犯下‘俗手（C级交易）’。

至于‘妙手（A级交易）’的出现，它往往并非计划中的必然，而是经过积累和训练后，在某些特定时机下的灵感闪现。真正的‘妙手’并非每天都有，盈利的机会更多是依赖于时运。

金融行业和钓鱼很相似，都是先打窝，再收网；金融行业和农业本质上也很相似，都是先播种，后等待收获；过程中无非是调研、播种、培养、风控管理、收获回报。当我们将时间和精力投入到积累经验与做好每一个‘本手’时，最终的成功与收获，往往由天时、地利和人和共同决定。

什么是博弈论？

简单来说，博弈论是研究 战略性相互依赖行为 的学科。这种“战略性相互依赖”可以用来描述这样一种情况：我的行为会影响你的结果，而你的行为也会反过来影响我的结果。

也许提到“博弈”，你会立刻联想到某些输赢分明的情境，比如竞技游戏、对抗比赛等。但博弈论的框架远不止于此，它还可以用于分析合作共赢的情况，甚至是那些既有合作又有竞争成分的复杂情境。

通过博弈论，我们能够用统一的方法研究这些不同的情景，无论是双赢合作，还是敌对竞争，它都能提供一种科学的分析工具。

为什么要学习博弈论？

也许你会问：“博弈论复杂又费时间，为什么我要学？”

其实，学习博弈论的回报是巨大的，下面是两个主要的理由：

解决复杂问题的逻辑工具

战略性相互依赖的场景往往非常复杂，稍有不慎就会导致推理错误。而博弈论提供了严谨的逻辑工具和推理标准，帮助我们确保每一步推导都基于合理的假设。

提升决策效率

掌握博弈论后，你会发现它能帮助你快速将不同问题联系起来，并从类似的情境中汲取经验。换句话说，它让你“举一反三”，在面对复杂决策时，能够更从容应对。

在生活中，许多培养博弈思维的方式并不依赖传统的课堂教育，而是通过游戏的形式潜移默化地传递。这些游戏，无论是传统的棋牌，如象棋、围棋，还是现代的对抗类电子游戏，都能让人切身体会到策略的重要性。通过与对手过招，我们不断思考如何判断局势、预测对方的行为、制定最优的行动方案。这种在实践中获得的思维锻炼，往往比课本中的理论更直观、更深刻，也更能激发对博弈论的兴趣和理解。

系列内容概览

本系列课程分为三个章节，每一章都从基础到进阶，逐步展开。以下是大纲内容：

第 1 章：同时博弈

同时博弈是指参与者必须在不观察对方行为的情况下，独立决定自己的策略。例如：

足球点球大战

狱中囚犯被隔离审问

是否在红灯时停车

在这一章，我们将学习以下概念：

严格优势策略

迭代淘汰法

纳什均衡（包括纯策略和混合策略）

弱优势策略

到本章结束时，你将熟练掌握这些基础概念。

第 2 章：序贯博弈

序贯博弈与同时博弈相反，参与者按照顺序依次行动。这类场景包括：

战争与入侵计划

警察搜查与嫌疑人选择配合程度

在本章中，我们将探讨以下主题：

逆推归纳法

子博弈精炼均衡

可信威胁

承诺问题

前向归纳法

这些内容将帮助你分析更复杂的博弈过程。

第 3 章：高级战略博弈

本章将扩展第 1 章的内容，探索更一般化的博弈理论问题。例如：

足球点球时，射门球员是否会因左侧命中率提高而更频繁选择左边？

我们将学习核心概念，包括：

比较静态分析

刀刃均衡

对称零和博弈

学习博弈论需要什么基础？

博弈论逻辑性强，但对数学要求不高。高中的代数知识足够应付大部分内容，哪怕你只有一点微积分基础，也能轻松跟上课程。

我自己高中数学成绩一般，但依然能掌握博弈论。因此，只要你愿意花时间和精力思考，相信你也可以做到。

结语

本节课是博弈论101的序章，接下来我们将深入学习经典案例 囚徒困境 的解决方法。希望你能继续跟随这个系列，开启博弈论的学习之旅！

从“囚徒困境”探知博弈论

想象这样一个场景：两名嫌疑犯因试图入室抢劫被捕，但警方仅掌握了他们非法闯入的证据，无法定罪更严重的罪行。因此，警方需要其中一人出卖另一个的罪行以获得口供。

于是，警方设置了一个“囚徒困境”：

两名嫌疑人被分别隔离审问，无法相互交流。

若两人都保持沉默（不认罪），警方只能以非法闯入罪起诉，每人判1个月监禁。

若一人招供，而另一人沉默，招供者将因配合被释放，而沉默者将被判12个月监禁。

若两人都招供，他们将因抢劫罪各被判8个月监禁。

问题： 假设两名嫌疑人都希望尽量减少自己的监禁时间，他们该如何选择？

囚徒困境的博弈矩阵

我们可以用以下矩阵展示囚徒困境的决策结果：

策略	Player 2 保持沉默	Player 2 招供
Player 1 保持沉默	-1, -1	-12, 0
Player 1 招供	0, -12	-8, -8

负号表示监禁时间（越小越好）。

横向为玩家1的策略，纵向为玩家2的策略。

为便于理解，我们用“他”和“她”来分别指代玩家1和玩家2。

严格占优解法：找到最佳策略

玩家1的选择：

如果玩家2保持沉默，玩家1招供能获得0个月监禁，而保持沉默则需1个月。因此，招供优于沉默。

如果玩家2招供，玩家1招供需8个月监禁，而保持沉默需12个月。招供仍优于沉默。

因此，无论玩家2的选择如何，玩家1总是更倾向于招供。我们称“招供”严格占优于“沉默”。

玩家2的选择：

同样分析：

如果玩家1保持沉默，玩家2招供需0个月监禁，而保持沉默需1个月。招供优于沉默。

如果玩家1招供，玩家2招供需8个月监禁，而保持沉默需12个月。招供仍优于沉默。

由此可见，“招供”策略对两位玩家而言都是严格占优的选择。

为何双方都选择招供？

从博弈的角度看，“双方招供”是唯一稳定的结果（纳什均衡）。虽然“双方保持沉默”（-1, -1）的结果看似对两人更有利，但这种合作无法维持，因为任何一方都有动力通过单方面招供来改善自己的处境。

即使两人事先约定保持沉默，当真正面对选择时，他们的理性思考会驱使他们违背约定，选择对自己更有利的策略——招供。

总结：囚徒困境与博弈论的启示

囚徒困境是博弈论中最经典的案例之一，它揭示了个体理性选择如何可能导致集体次优结果。在今天的讨论中，我们了解了严格占优解法，以及为什么在囚徒困境中，双方招供是唯一理性的结果。

下一节，我们将探讨如何利用严格占优解法来解决更复杂的博弈问题，敬请期待！

劣势策略排除法

在上一节课中，我们研究了囚徒困境，并得出结论：两名玩家都会选择坦白。这是因为，“坦白”严格支配了“保持沉默”，即无论对方选择什么，坦白总能为玩家带来更好的结果。

然而，大多数博弈并不像囚徒困境那样简单，玩家的最佳策略通常会根据对方的选择发生变化。那么在更复杂的博弈中，该如何寻找解决方案呢？

示例博弈：严格劣势策略的逐步消除

让我们看一个更复杂的例子：3×3矩阵博弈。

游戏设置：

玩家1有三种策略：上（Up）、中（Middle）、下（Down）。

玩家2有三种策略：左（Left）、中（Center）、右（Right）。

每种策略组合对应一个结果（即“收益”），两位玩家的收益分别用一个二维矩阵表示。

第一步：消除严格劣势策略

我们从玩家2开始分析：

无论玩家1的选择是“上、中、下”，玩家2的“中”策略总比“右”策略好。

例如：若玩家1选择“上”，则玩家2选“中”的收益为4，选“右”的收益为3。类似地，无论玩家1选择什么，对于玩家2来说：“中”的收益始终大于“右”。

因此，玩家2绝不会选择“右”。我们可以将“右”从博弈矩阵中移除。

接下来，玩家1可以利用这一信息：

如果玩家2永远不会选择“右”，那么玩家1选择“下”也是不合理的，因为无论玩家2选择“左”或“中”，“中”策略总比“下”策略更优。

例如：若玩家2选择“左”，则玩家1选“中”的收益为4，选“下”的收益为-1。

因此，玩家1也不会选择“下”。我们将“下”从矩阵中移除。

第二步：继续迭代

我们继续这一过程：

玩家2注意到玩家1永远不会选择“下”，因此她的“左”策略也变得不合理了。

例如：若玩家1选择“上”，则玩家2“中”的收益为4、选“左”的收益为3。

所以，玩家2也不会选择“左”，仅剩“中”策略。

最后，玩家1知道玩家2只会选择“中”，便只需在“上”和“中”之间做选择。

玩家1会选择“中”，因为其收益（3）大于选择“上”的收益（1）。

最终解：

通过这一迭代过程，我们得出唯一合理的解：

玩家1选择“中”，玩家2选择“中”，两人分别获得3的收益。

总结：严格劣势策略的逐步消除法

核心思想：通过逐步剔除不合理的策略，缩小博弈范围，直到找到唯一的解决方案。

优点：当博弈中存在严格劣势策略时，IESDS是一种高效且明确的方法。

局限性：许多博弈（例如具有多个均衡点的博弈）无法仅通过此方法解决。

在下一节课中，我们将研究更复杂的博弈，如Stag Hunt博弈，并讨论如何寻找纯策略纳什均衡。

猎鹿游戏与纯策略纳什均衡

今天我们来讨论猎鹿（Stag Hunt）和 纯策略纳什均衡（Pure Strategy Nash Equilibrium）。这是游戏理论中一个经典问题，它反映了合作与信任的重要性，以及策略间的平衡点。

背景：猎鹿问题

假设有两个猎人，他们要去打猎，面临两种选择：

猎鹿（Stag）：需要两人合作才能成功捕猎，成功后每人得 3 单位肉。

猎兔（Hare）：无需合作，单人即可完成，每只兔子 1 单位肉。猎兔更简单，但回报较低。

问题是，猎人必须在不知道对方选择的情况下，独立决定是带猎鹿装备还是猎兔装备。

游戏矩阵

将猎人可能的策略和结果表示为一个表格：

ㅤ	猎鹿（Stag）	猎兔（Hare）
猎鹿（Stag）	(3, 3)	(0, 2)
猎兔（Hare）	(2, 0)	(1, 1)

(3, 3)：两人合作猎鹿，各得 3 单位肉。

(0, 2) 和 (2, 0)：一个人猎鹿失败得 0，另一个人单独猎兔得 2。

(1, 1)：两人各自猎兔，各得 1 单位肉。

问题：如何选择？

在前面的“严格支配策略”中，我们学会通过淘汰严格劣势的策略来解决问题，但在这里，这种方法行不通。每个猎人的最佳选择完全取决于另一个猎人的决定：

如果你 确信对方猎鹿，你也会选择猎鹿，因为 3 > 2。

如果你 确信对方猎兔，你会选择猎兔，因为 1 > 0。

这表明，这个游戏没有明显的“严格劣势策略”。

引入纳什均衡

为了解决这种情况，我们引入了 纳什均衡 的概念。纳什均衡是指：

在一个策略组合中，任何玩家都没有通过单方面改变策略而获得更好结果的动机。

在纳什均衡中，每个人的选择对当前环境来说都是最优的，因此没有“遗憾”。

找到纳什均衡

我们逐个检查可能的结果，从各个玩家的立场出发考虑，看是否有玩家会单方面改变策略来获益：

两人猎鹿（Stag, Stag）

左上角的格子一代表双方合作猎鹿的情况。

玩家 1：猎鹿得分 3，切换到猎兔得分变成 2，因此不会改变策略。

玩家 2：猎鹿3分、猎兔2分，同理也不会改变策略。

结论：这是一个纳什均衡。

玩家 1 猎鹿，玩家 2 猎兔（Stag, Hare）

右上角格子代表玩家1猎鹿，玩家2猎兔的情况：

玩家 1：猎鹿得分 0，如果他改变策略到猎兔得分变成 1，因此变化对他来说是有利可图的。

玩家 2：猎兔得分 2，切换到猎鹿得分变成 3。

已知玩家1猎鹿，而玩家2变为猎鹿的话就变成左上角第一个格子，双方各得3分。

结论：这不是纳什均衡。

玩家 1 猎兔，玩家 2 猎鹿（Hare, Stag）

同理，这也不是纳什均衡。对于玩家2来说，改为猎兔是更有利的。对玩家1来说选择也一起猎鹿是更有利的。

两人猎兔（Hare, Hare）

玩家 1：得分 1，切换到猎鹿得分变成 0，不想改变策略。

玩家 2：同理也不想改变策略。

结论：这是一个纳什均衡。

纳什均衡的含义

这个游戏有两个纳什均衡：

合作猎鹿（Stag, Stag）：双方都获益最多，这是理想的结果。

各自猎兔（Hare, Hare）：虽然收益较低，但因为缺乏信任和协调，这个结果也可能发生。

纳什均衡并不总是效率最高的结果，但它们具有稳定性：一旦形成，没人有动力单方面改变策略。

总结

猎鹿问题展示了合作和信任的重要性。在理想情况下，猎人应该协调一致，共同猎鹿。然而，现实中缺乏沟通或信任可能导致次优的“猎兔”结果。下一节，我们将继续探讨 纳什均衡的直观理解。

纳什均衡与交通灯案例

在之前的内容中，我们已经见过纳什均衡的正式定义：纳什均衡是一组策略，其中每个玩家在知道其他玩家策略的情况下，都没有改变自己策略的动机。 换句话说，每个玩家的选择在给定其他玩家策略的前提下，已经是对自己最优的。

我们主要探讨纯策略纳什均衡，即玩家不会在多个策略间随机选择，而是明确选择某一种策略。例如，在猎鹿游戏中，两个猎人要么明确都去猎鹿，要么都去猎兔，而不是掷硬币决定策略。

纳什均衡的直观解释

一个理解纳什均衡的方法是：将其看作一种即使没有警察执法，大家也愿意遵守的“规则”。 想象一个没有警察的世界，政府制定了某条规则，这条规则就是纳什均衡，当且仅当所有人都会遵守它，即使没有执法力量的威慑。

例子：交通信号灯

让我们以交通信号灯为例。假设两个司机从垂直方向接近路口，其中一个是红灯，另一个是绿灯。警察无法开罚单，因为他们不存在。在这种情况下，两位司机会愿意遵守“绿灯通行，红灯停车”的规则吗？答案是肯定的。以下是其博弈矩阵：

ㅤ	司机2停车	司机2通行
司机1停车	-1, -1	0, 1
司机1通行	1, 0	-5, -5

双方通行：两辆车相撞，双方都得到 -5 的收益（最坏情况）。

双方停车：浪费时间，双方收益为 -1。

一方通行，另一方停车：通行的司机得到 1，停车的司机得到 0。

分析纳什均衡

情况1：司机1通行，司机2停车

司机2若从停车改为通行，会导致车祸，收益从0变为-5，因此她不会改变策略。

司机1若从通行改为停车，收益从1变为-1，因此他也不会改变策略。

结论：这是一个纳什均衡。

情况2：司机1停车，司机2通行

司机1若从停车改为通行，会导致车祸，收益从0变为-5。

司机2若从通行改为停车，收益从1变为-1。

结论：这是另一个纳什均衡。

情况3：双方通行

双方均可通过改为停车来避免车祸并提高收益，因此这不是纳什均衡。

情况4：双方停车

任何一方都可通过改为通行提高收益，因此这也不是纳什均衡。

最终，我们发现两个纯策略纳什均衡：

司机1通行，司机2停车

司机1停车，司机2通行

为什么纳什均衡重要？

在上述例子中，交通信号灯的规则使得司机自动选择不违背规则，因为遵守规则符合他们的自身利益。没有警察的世界中，这种规则依然有效。这也解释了为何纳什均衡是一种稳定状态：一旦大家选定策略并看到结果，没有人会后悔自己的选择。

总结

纳什均衡直观上是一个每个人在给定他人策略的情况下都满意的状态，无需外部强制也能维持稳定。在下一节中，我们将学习如何通过“最佳响应”方法更高效地寻找纳什均衡，特别是复杂博弈中的情况。

纯粹策略纳什均衡的“最佳响应“

为了更高效地找到纯策略纳什均衡，我们引入“最佳响应”的概念。我们接下来讨论一个称为“数字的安全性”（Safety in Numbers）的游戏。情境如下：

两位将军（玩家1和玩家2）各有3个单位（士兵）。

两位将军需要同时决定派遣多少单位参加一场战斗，或者他们可以选择不参战（跳过）。

战斗结果：

单位更多的一方获胜。
双方单位相同时或其中一方跳过，结果为平局。

游戏的博弈矩阵

将上述情况转化为博弈矩阵，每个玩家有4种策略：跳过战斗（Pass）、派1个单位、派2个单位或派3个单位。以下是结果矩阵：

平局：包括一方跳过或双方派遣单位相同的情况。

胜负：派遣单位更多的一方获胜。

传统方法的问题

在之前的内容中，我们通过检查每个可能结果，寻找是否存在偏离现有策略能提高收益的可能性来判断纳什均衡。然而，当游戏变得复杂，结果数量增多（如本例的16种可能结果），这种方法既繁琐又低效。

引入最佳响应

为了更高效地找到纯策略纳什均衡，我们引入“最佳响应”的概念。

定义

最佳响应：在给定其他玩家策略的情况下，玩家无法通过切换策略获得更高收益时，该策略就是最佳响应。

纳什均衡：如果每位玩家都在使用其对其他玩家策略的最佳响应，则该策略组合是纳什均衡。

换句话说，纳什均衡中的每个玩家都“满意”自己的选择，因为在现有情况下，没有其他更好的选择。

如何标记最佳响应

我们通过逐步检查每个玩家的策略，标记出他们的最佳响应。具体步骤如下：

固定一名玩家的策略（如固定玩家2的策略为派2个单位）。

分析另一名玩家的所有收益，找出收益最大的策略，并标记为最佳响应（用星号 * 表示）。

重复上述步骤，遍历所有策略组合，分别标记两位玩家的最佳响应。

以下是一些具体情况的例子：

玩家2派2个单位时

玩家1的收益分别是：0, -1, 0, 1。
最佳响应：派3个单位（收益为1）。

玩家2派1个单位时

玩家1的收益分别是：0, 0, 1, 1。
最佳响应：派2、3个单位（收益为1）。

玩家2派3个单位时

玩家1的收益分别是：0,-1,-1, 0。
最佳响应：跳过或派3个单位（收益为0）。

玩家2跳过时

玩家1无论选择哪种策略，收益均为0。
最佳响应：所有策略都等效（均标记为最佳响应）。

玩家1跳过时

玩家2也跳过战斗。

玩家1派1个

玩家2派2个、或3个单位

玩家1派2个单位

玩家2派3个。

玩家1派3个单位

玩家2跳过，或派3个。

通过上述步骤，我们完成了矩阵中所有策略的最佳响应标记。

找到纯策略纳什均衡

纳什均衡是双方都在选择最佳响应的结果。在矩阵中，我们寻找两位玩家的收益同时标记为最佳响应的格子，这些格子即为纯策略纳什均衡。在这个博弈矩阵中，存在4个纯策略纳什均衡：

这些结果都满足“双方策略为最佳响应”的条件。

通过使用最佳响应方法，我们避免了逐一检查所有结果的繁琐过程，仅需检查每位玩家的策略组合，大大提高了效率。特别是在更复杂的游戏中，这种方法尤为重要。

在下一节中，我们将探讨“不是所有游戏都有纯策略纳什均衡”的情况，并学习如何应对这种情形。