首发于：2026-1-18

非零和博弈

什么是非零和博弈

非零和博弈是博弈论中的重要概念，指参与者的收益总和不为零的博弈形态。包括正和博弈(双赢)和负和博弈(双输)。与零和博弈不同，非零和博弈中参与者可以通过合作实现共同利益最大化，但也可能因缺乏协调而陷入次优结果。

说白了，非零和博弈就是：大家的收益加起来不是零，可能一起赚，也可能一起亏。

这类博弈最关键的特点是：个体的最优解，可能导致集体的最差结果。

经典模型一：囚徒困境

困境的设定

囚徒困境这一概念最早由美国数学家梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）于1950年提出，是非零和博弈的典型代表。

故事是这样的：

两个小偷A和B被警察抓住了，警察把他们分开审讯，不给他们串供的机会（这个很重要，如果可以串供，结果就不一样了）。

警察告诉他们：

如果俩都坦白，各判5年
如果一个坦白一个抵赖，坦白的无罪释放，抵赖的判10年
如果俩都抵赖，证据不足，各判1年

囚徒困境有个基本假设：人是利己的。每个人只关心自己的利益，不在乎别人的得失。

收益矩阵

我们把这个博弈用收益矩阵表示一下（收益用刑期的负数表示，越负越惨）：

	B坦白	B抵赖
A坦白	(-5, -5)	(0, -10)
A抵赖	(-10, 0)	(-1, -1)

表：A的收益在前，B的收益在后，负数表示刑期

我们来算一下A的收益：

如果A坦白，B也坦白 → A判5年，收益记为-5
如果A坦白，B抵赖 → A无罪，收益记为0
如果A抵赖，B坦白 → A判10年，收益记为-10
如果A抵赖，B抵赖 → A判1年，收益记为-1
A坦白期望收益-5；A抵赖期望收益-11。

从A的角度：

如果B坦白，我坦白判5年，抵赖判10年 → 坦白更好
如果B抵赖，我坦白无罪，抵赖判1年 → 还是坦白更好

所以无论B选什么，A的最优策略都是坦白。

对B来说也一样，理性选择也是坦白。

结果：俩人都选择坦白，各判5年。

这是对于他们个体的最优解。但是对于集体来说显然不是最优解。

纳什均衡

这里有个很有意思的现象：如果俩人都抵赖，各判1年，明明对大家都好啊！为什么没有发生？

这就需要引入纳什均衡来解释了。

纳什均衡

在博弈中，如果每个人的策略都是对其他人策略的最佳回应，这个稳定状态就叫纳什均衡。在这个状态下，任何单方面改变策略都会让自己变得更糟。

囚徒困境中，A坦白，B坦白，就是纳什均衡状态——虽然不是最好的结果，但却是最稳定的结果。

个体的最优解（这里我感觉就是双输好过单赢，哈哈🐶），导致了集体的最差结果。

现实案例

案例一：价格战

两家公司卖同样的产品，如果都不降价，各自赚10（10, 10）。

如果一家降价一家不降，降价的那家抢占市场赚15，不降的只赚5（15, 5）。

如果都降价，利润都变薄，各自只赚6（6, 6）。

	B不降价	B降价
A不降价	(10, 10)	(5, 15)
A降价	(15, 5)	(6, 6)

纳什均衡是（都降价，6, 6），虽然（不降价，10, 10）对大家都更好。

类似的例子：

网约车补贴战：滴滴和Uber烧钱补贴，最后都亏，用户赚了
社区团购：阿里、美团、拼多多厮杀，补贴大战，利润微薄
电商平台：拼多多、淘宝、京东价格战，利润越来越薄

打破方式：行业协会价格协调、反垄断法限制恶性竞争。

案例二：教育内卷与剧场效应

这就是典型的"剧场效应"：

前排的人站起来看戏，逼得后排的人也都站起来
最后所有人都站着看戏，谁也没看得更清楚，但都更累了

教育内卷也是一样的，这是多方博弈：

家长：别人补，我不补，孩子就输了
培训机构：鼓吹焦虑，赚钱
教育部门：想减负，但不敢真减（怕孩子输在起跑线）

解决办法就是政策干预："双减"政策就是改变规则的外力。

还有就是职场内卷：一个人996，逼得所有人都加班（所以一个无产阶级的人如果提倡加班，那么这个人就是背叛了阶级，我们可以称其为“工贼”）

案例三：美苏冷战，军备竞赛

两国都扩充军备：

都扩军：安全了，但花掉大笔钱，经济受损（-5, -5）
都裁军：安全了，省下的钱搞经济（-1, -1）
我扩军你裁军：我占你便宜（3, -10）
我裁军你扩军：我被你欺负（-10, 3）

结果：双方都拼命扩军，双输。

现代的例子：

网络军备竞赛：各国发展网络战能力，互相攻防
AI军备竞赛：担心对手先发展出军事AI，所以自己也拼命发展

解决方式：裁军条约、军控协议、第三方监督。

但这又回到猎鹿博弈的信任问题：你怎么知道我会遵守条约？

经典模型二：智猪博弈

博弈场景

猪圈里有一大一小两头猪，猪圈很长，一头有个按钮，另一头有个食槽。

按一下按钮，会有10个单位的猪食掉进槽里，但按踏板的那头猪要付出2个单位的成本（跑来跑去累的）。

问题来了：谁去按按钮，谁就吃亏，因为对方早就在食槽等着了，等你跑回来人家已经吃上了。

收益矩阵

	小猪按	小猪等待
大猪按	(7-2, 3-2)	(6-2, 4)
大猪等待	(9, 1-2)	(0, 0)

表：大猪的收益在前，小猪的收益在后，踩踏板成本-2，大猪比小猪吃得快

分析一下：

如果大猪按，小猪也按得1，小猪等待得4 → 小猪应该选择等待
如果大猪等待，小猪按得-1，小猪等待得0 → 小猪还是应该选择等待

所以小猪的策略很明确：无论大猪按不按，我都等待（搭便车）。

大猪怎么办呢？小猪肯定不按，大猪按得4，不按得0，所以大猪只能按。

结果：大猪累死累活按踏板，小猪坐享其成。

这就是智猪博弈的纳什均衡。

现实应用：搭便车问题

案例一：技术创新与跟随策略

苹果投入数百亿美元研发iOS、A系列芯片、Face ID...

其他手机厂商：拿来主义！

苹果肯定不爽这种行为，但又不能不研发，不研发就更没优势。

这就是智猪博弈：大猪（苹果）必须创新，小猪（其他厂商）最优策略是跟随。

类似的情况还有：

大药企研发新药，小药企生产仿制药
大平台做基础设施，小平台在上面开发应用
大明星带流量，小网红蹭热度

案例二：税收与公共物品

张大老板一年交1个亿税，李小店主一年交1万税。

但大家享受的国防、治安、道路是一样的。

张大老板：我交这么多，小老板才交这么点？

李小店主：我就赚这么点，怎么交？

但大老板还得交，因为基础设施好对他更有利（大猪按踏板）。

案例三：企业环保投入

大企业投入10亿搞环保，小企业不投入。

结果环境改善，大家都受益。

小企业：搭便车真香！

大企业：我投入，你白嫖？

但如果都不投入，环境都恶化，大企业损失更大，所以大企业还是得投。

这告诉我们：在非零和博弈中，弱势一方有时可以"躺平"，强势一方反而必须主动。

经典模型三：猎鹿博弈

博弈场景

两个人去打猎。如果合作猎鹿，每人收益是8；如果单独抓兔子，每人收益是3。

但猎鹿需要两个人配合，一个人单独去猎不成功（收益为0）。

收益矩阵

	B猎鹿	B抓兔
A猎鹿	(8, 8)	(0, 3)
A抓兔	(3, 0)	(3, 3)

表：A的收益在前，B的收益在后

这个博弈有两个均衡：

都猎鹿（8, 8） - 集体最优
都抓兔（3, 3） - 风险最小

问题是：我不信任你会不会临时变卦去抓兔子。

如果我信任你，我们猎鹿；如果不信任，我抓兔保底。

信任困境

猎鹿博弈和囚徒困境的区别在于：

囚徒困境：纳什均衡是唯一的，且是次优的（都坦白）
猎鹿博弈：有两个纳什均衡，一个最优（都猎鹿），一个次优（都抓兔）

关键在于：如何达成信任，让大家选择最优均衡？

现实应用：合作与协调

案例一：《巴黎协定》的困境

各国都减排，气候改善，大家都受益（8, 8）。

但减排要花钱，影响经济增长。

如果你减排，我偷摸排化石燃料，我赚了你还亏了（0, 3）。

所以大家都想等等看，结果气候继续恶化（3, 3）。

这就是为什么国际气候谈判这么难：

理论上应该合作（猎鹿）
实际上互相猜忌（都抓兔）

案例二：团队项目的博弈

小组作业，大家都全力以赴，项目优秀，都拿高绩效（8, 8）。

如果一个人摸鱼，项目干得不行，其他人都白干，都拿低绩效，但摸鱼的至少享受了清闲（0, 3）。

结果：

有责任感的团队：都努力（猎鹿）
互不信任的团队：都摸鱼（抓兔）

案例三：婚姻关系

婚姻就是典型的猎鹿博弈：

共同经营，家庭幸福（8, 8）
各顾各的，感情淡漠（3, 3）
一方付出一方背叛，受伤的是付出的一方（0, 3）

所以婚姻最重要的是：信任。

没有信任，最好的策略就是各自保底（抓兔）。

经典模型四：协调博弈

博弈场景

这个博弈说的是：协调也是一门艺术。

夫妻俩想一起看看电视，但喜欢的类型不同。老公喜欢看足球赛，老婆喜欢看电视剧。

关键约束：必须一起看（分开看效用为0），但偏好不同。

收益矩阵

	老婆-足球赛	老婆-电视剧
老公-足球赛	(2, 1)	(0, 0)
老公-电视剧	(0, 0)	(1, 2)

表：老公的收益在前，老婆的收益在后，分开都为0

这个博弈有两个均衡：

都看电视剧（1, 2） - 老婆更满意
都看足球赛（2, 1） - 老公更满意

问题不是对抗，而是协调：怎么达成一致？

和猎鹿博弈不同，协调博弈里双方都想在一起，只是偏好不同。而猎鹿博弈里，一方可能背叛导致另一方吃亏。

协调问题

协调博弈的解决方式：

轮流：这次电视剧，下次足球赛
沟通：提前商量好
约定：谁生日听谁的
第三方：孩子想看啥就看啥（引入新的参与者）

这告诉我们：有时候问题不是对抗，而是如何协调。

现实应用：协调的智慧

案例一：朋友聚餐吃什么

三个好朋友约周末聚餐，但口味不同：

小张想吃火锅（川味，重辣）
小李想吃日料（清淡）
小王不太挑，但希望大家一起

如果分开吃就没意思了（效用为0）。

收益情况：

都吃火锅：小张最爽(2)，小李勉强接受(1)，小王无所谓(1)
都吃日料：小李最爽(2)，小张勉强接受(1)，小王无所谓(1)
分开吃：都没意思(0, 0, 0)

解决方式：

这次火锅，下次日料（轮流）
找一个折中的餐厅，比如有辣有不辣的自助
抽签决定
看看大众点评哪家评分高（第三方）

案例二：团队团建去哪玩

公司部门要团建，大家意见不一：

年轻同事想去密室逃脱（刺激、有趣）
年长同事想去茶馆喝茶（放松、养生）
不分开团建（否则没团队氛围）

但必须统一行动。

解决方式：

上午密室，下午喝茶（折中）
这次密室，下次爬山（轮流）
每个人投票选一个方案（民主）
让领导决定（第三方权威）

案例三：项目技术选型

创业团队要选技术栈，争执不下：

前端想用React（各种开源库齐全、生态好）
后端想用Vue（学习成本低、上手快、在国内招聘更容易）
必须统一技术栈，否则维护成本爆炸

解决方式：

咨询行业专家或技术顾问（第三方）
团队投票，少数服从多数
先用A项目试试，不合适再换（试点）

破局

从单次博弈到重复博弈

前面说的都是单次博弈，就是只玩一次。这种情况下，囚徒困境很难破局。但如果博弈是重复的，情况就不一样了。

楼下小卖铺 vs 旅游景区

楼下小卖铺：坑你一次，你就不会来了，还会告诉楼里其他人。为了长期利益，必须讲诚信。
旅游景区：你下次不会再来了（大概率），宰一次是一次。所以很多景区商家很坑。

这就是重复博弈的力量。

无名氏定理（Folk Theorem）

在无限次重复博弈中，如果参与者有足够的耐心（贴现因子不太小），那么合作可以成为纳什均衡。简单说：如果博弈一直进行下去，大家最终会选择合作。

因为如果这次背叛，对方下次就会报复，长期来看不划算。

现实中的应用：

商业信用：企业为了长期合作，不会坑合作伙伴
品牌声誉：大品牌不敢作恶，因为损失太大
长期雇佣：员工不偷懒，老板不会随意解雇

但有一个前提：博弈必须是重复的，且双方都知道会继续博弈下去。

引入外部约束

有时候光靠重复博弈还不够，需要外部力量介入。

法律约束：

反垄断法：限制恶性竞争
劳动法：禁止996
合同法：强制执行协议

第三方平台：

淘宝的信誉系统：商家不敢坑人，因为差评会毁生意
支付宝的担保交易：买家敢付款，卖家敢发货
大众点评：餐厅不敢乱来，因为差评曝光

监管机制：

金融监管：防止金融机构坑投资者
环保督察：强制企业减排
食品安全检查：保障消费者权益

外部约束的本质：改变收益矩阵，让背叛的代价变大，让合作的收益变大。

建立信任与合作机制

除了外部约束，还可以通过内部机制建立信任。

声誉机制：

信用评分：芝麻信用、征信系统
在线评价：淘宝、美团、滴滴
口碑传播：朋友推荐、社交媒体

担保机制：

保证金：买房定金、投标保证金
第三方托管：支付宝、银行托管
保险：违约保险、质量保险

信号发送：

品牌：大品牌=质量保证
认证：ISO认证、有机认证
保修：7天无理由退货

沟通机制：

谈判：面对面沟通，达成共识
协商：工会与资方谈判
透明化：信息公开，减少信息不对称

这些都是为了让参与者在没有外部强制的情况下，自愿选择合作。

总结：从对抗到合作

回顾一下，非零和博弈告诉我们几个关键道理：

1. 现实很复杂

大部分博弈不是简单的你赢我输，而是可以双赢也可能双输。

理解这一点，才能跳出"零和思维"：

商业不是你死我活，可以共创价值
职场不是踩压同事，可以互利共赢
国际关系不是霸权竞争，可以合作共赢

2. 个人理性≠集体理性

囚徒困境、价格战、教育内卷...这些都是个人理性导致集体非理性的例子。

就像凯恩斯说的："理性的个人，可能导致非理性的集体。"

认识到这一点，才能避免陷入"双输"的陷阱。

3. 均衡不是最优

纳什均衡是稳定的，但不一定是最好的。

囚徒困境：都坦白是均衡，但都抵赖更好
智猪博弈：小猪搭便车是均衡，但大猪很委屈
猎鹿博弈：都抓兔是均衡，但都猎鹿更好

我们要做的，不是接受次优均衡，而是想办法创造更好的均衡。

4. 改变规则很重要

囚徒困境怎么破？

重复博弈：让博弈持续下去，合作才有价值
外部约束：法律、监管、第三方平台
信任机制：声誉、担保、信号、沟通

本质上，改变规则就是改变收益矩阵，让合作成为最优选择。

5. 理解博弈，才能改变博弈

博弈论不仅是分析工具，更是行动指南。

识别我们处于什么样的博弈中：

是囚徒困境？想办法建立信任或引入外部约束
是智猪博弈？如果你是小猪，安心搭便车；如果你是大猪，想办法改变规则
是猎鹿博弈？努力建立信任，达成合作
是协调博弈？积极沟通，寻求协调

理解博弈，才能找到破局的方法。

从对抗到合作，从零和到非零和，这才是博弈论给我们的最大启示。

非零和博弈 ​

什么是非零和博弈 ​

经典模型一：囚徒困境 ​

困境的设定 ​

收益矩阵 ​

纳什均衡 ​

现实案例 ​

经典模型二：智猪博弈 ​

博弈场景 ​

收益矩阵 ​

现实应用：搭便车问题 ​

经典模型三：猎鹿博弈 ​

博弈场景 ​

收益矩阵 ​

信任困境 ​

现实应用：合作与协调 ​

经典模型四：协调博弈 ​

博弈场景 ​

收益矩阵 ​

协调问题 ​

现实应用：协调的智慧 ​

破局 ​

从单次博弈到重复博弈 ​

引入外部约束 ​

建立信任与合作机制 ​

总结：从对抗到合作 ​

1. 现实很复杂 ​

2. 个人理性≠集体理性 ​

3. 均衡不是最优 ​

4. 改变规则很重要 ​

5. 理解博弈，才能改变博弈 ​

非零和博弈

什么是非零和博弈

经典模型一：囚徒困境

困境的设定

收益矩阵

纳什均衡

现实案例

经典模型二：智猪博弈

博弈场景

收益矩阵

现实应用：搭便车问题

经典模型三：猎鹿博弈

博弈场景

收益矩阵

信任困境

现实应用：合作与协调

经典模型四：协调博弈

博弈场景

收益矩阵

协调问题

现实应用：协调的智慧

破局

从单次博弈到重复博弈

引入外部约束

建立信任与合作机制

总结：从对抗到合作

1. 现实很复杂

2. 个人理性≠集体理性

3. 均衡不是最优

4. 改变规则很重要

5. 理解博弈，才能改变博弈