首发于:2026-1-18
非零和博弈
什么是非零和博弈
非零和博弈是博弈论中的重要概念,指参与者的收益总和不为零的博弈形态。包括正和博弈(双赢)和负和博弈(双输)。与零和博弈不同,非零和博弈中参与者可以通过合作实现共同利益最大化,但也可能因缺乏协调而陷入次优结果。
说白了,非零和博弈就是:大家的收益加起来不是零,可能一起赚,也可能一起亏。
这类博弈最关键的特点是:个体的最优解,可能导致集体的最差结果。
经典模型一:囚徒困境
困境的设定
囚徒困境这一概念最早由美国数学家梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)于1950年提出,是非零和博弈的典型代表。
故事是这样的:
两个小偷A和B被警察抓住了,警察把他们分开审讯,不给他们串供的机会(这个很重要,如果可以串供,结果就不一样了)。
警察告诉他们:
- 如果俩都坦白,各判5年
- 如果一个坦白一个抵赖,坦白的无罪释放,抵赖的判10年
- 如果俩都抵赖,证据不足,各判1年
囚徒困境有个基本假设:人是利己的。每个人只关心自己的利益,不在乎别人的得失。
收益矩阵
我们把这个博弈用收益矩阵表示一下(收益用刑期的负数表示,越负越惨):
| B坦白 | B抵赖 | |
|---|---|---|
| A坦白 | (-5, -5) | (0, -10) |
| A抵赖 | (-10, 0) | (-1, -1) |
表:A的收益在前,B的收益在后,负数表示刑期
我们来算一下A的收益:
- 如果A坦白,B也坦白 → A判5年,收益记为-5
- 如果A坦白,B抵赖 → A无罪,收益记为0
- 如果A抵赖,B坦白 → A判10年,收益记为-10
- 如果A抵赖,B抵赖 → A判1年,收益记为-1
- A坦白期望收益-5;A抵赖期望收益-11。
从A的角度:
- 如果B坦白,我坦白判5年,抵赖判10年 → 坦白更好
- 如果B抵赖,我坦白无罪,抵赖判1年 → 还是坦白更好
所以无论B选什么,A的最优策略都是坦白。
对B来说也一样,理性选择也是坦白。
结果:俩人都选择坦白,各判5年。
这是对于他们个体的最优解。但是对于集体来说显然不是最优解。
纳什均衡
这里有个很有意思的现象:如果俩人都抵赖,各判1年,明明对大家都好啊!为什么没有发生?
这就需要引入纳什均衡来解释了。
纳什均衡
在博弈中,如果每个人的策略都是对其他人策略的最佳回应,这个稳定状态就叫纳什均衡。在这个状态下,任何单方面改变策略都会让自己变得更糟。
囚徒困境中,A坦白,B坦白,就是纳什均衡状态——虽然不是最好的结果,但却是最稳定的结果。
个体的最优解(这里我感觉就是双输好过单赢,哈哈🐶),导致了集体的最差结果。
现实案例
案例一:价格战
两家公司卖同样的产品,如果都不降价,各自赚10(10, 10)。
如果一家降价一家不降,降价的那家抢占市场赚15,不降的只赚5(15, 5)。
如果都降价,利润都变薄,各自只赚6(6, 6)。
| B不降价 | B降价 | |
|---|---|---|
| A不降价 | (10, 10) | (5, 15) |
| A降价 | (15, 5) | (6, 6) |
纳什均衡是(都降价,6, 6),虽然(不降价,10, 10)对大家都更好。
类似的例子:
- 网约车补贴战:滴滴和Uber烧钱补贴,最后都亏,用户赚了
- 社区团购:阿里、美团、拼多多厮杀,补贴大战,利润微薄
- 电商平台:拼多多、淘宝、京东价格战,利润越来越薄
打破方式:行业协会价格协调、反垄断法限制恶性竞争。
案例二:教育内卷与剧场效应
这就是典型的"剧场效应":
- 前排的人站起来看戏,逼得后排的人也都站起来
- 最后所有人都站着看戏,谁也没看得更清楚,但都更累了
教育内卷也是一样的,这是多方博弈:
- 家长:别人补,我不补,孩子就输了
- 培训机构:鼓吹焦虑,赚钱
- 教育部门:想减负,但不敢真减(怕孩子输在起跑线)
解决办法就是政策干预:"双减"政策就是改变规则的外力。
还有就是职场内卷:一个人996,逼得所有人都加班(所以一个无产阶级的人如果提倡加班,那么这个人就是背叛了阶级,我们可以称其为“工贼”)
案例三:美苏冷战,军备竞赛
两国都扩充军备:
- 都扩军:安全了,但花掉大笔钱,经济受损(-5, -5)
- 都裁军:安全了,省下的钱搞经济(-1, -1)
- 我扩军你裁军:我占你便宜(3, -10)
- 我裁军你扩军:我被你欺负(-10, 3)
结果:双方都拼命扩军,双输。
现代的例子:
- 网络军备竞赛:各国发展网络战能力,互相攻防
- AI军备竞赛:担心对手先发展出军事AI,所以自己也拼命发展
解决方式:裁军条约、军控协议、第三方监督。
但这又回到猎鹿博弈的信任问题:你怎么知道我会遵守条约?
经典模型二:智猪博弈
博弈场景
猪圈里有一大一小两头猪,猪圈很长,一头有个按钮,另一头有个食槽。
按一下按钮,会有10个单位的猪食掉进槽里,但按踏板的那头猪要付出2个单位的成本(跑来跑去累的)。
问题来了:谁去按按钮,谁就吃亏,因为对方早就在食槽等着了,等你跑回来人家已经吃上了。
收益矩阵
| 小猪按 | 小猪等待 | |
|---|---|---|
| 大猪按 | (7-2, 3-2) | (6-2, 4) |
| 大猪等待 | (9, 1-2) | (0, 0) |
表:大猪的收益在前,小猪的收益在后,踩踏板成本-2,大猪比小猪吃得快
分析一下:
- 如果大猪按,小猪也按得1,小猪等待得4 → 小猪应该选择等待
- 如果大猪等待,小猪按得-1,小猪等待得0 → 小猪还是应该选择等待
所以小猪的策略很明确:无论大猪按不按,我都等待(搭便车)。
大猪怎么办呢?小猪肯定不按,大猪按得4,不按得0,所以大猪只能按。
结果:大猪累死累活按踏板,小猪坐享其成。
这就是智猪博弈的纳什均衡。
现实应用:搭便车问题
案例一:技术创新与跟随策略
苹果投入数百亿美元研发iOS、A系列芯片、Face ID...
其他手机厂商:拿来主义!
苹果肯定不爽这种行为,但又不能不研发,不研发就更没优势。
这就是智猪博弈:大猪(苹果)必须创新,小猪(其他厂商)最优策略是跟随。
类似的情况还有:
- 大药企研发新药,小药企生产仿制药
- 大平台做基础设施,小平台在上面开发应用
- 大明星带流量,小网红蹭热度
案例二:税收与公共物品
张大老板一年交1个亿税,李小店主一年交1万税。
但大家享受的国防、治安、道路是一样的。
张大老板:我交这么多,小老板才交这么点?
李小店主:我就赚这么点,怎么交?
但大老板还得交,因为基础设施好对他更有利(大猪按踏板)。
案例三:企业环保投入
大企业投入10亿搞环保,小企业不投入。
结果环境改善,大家都受益。
小企业:搭便车真香!
大企业:我投入,你白嫖?
但如果都不投入,环境都恶化,大企业损失更大,所以大企业还是得投。
这告诉我们:在非零和博弈中,弱势一方有时可以"躺平",强势一方反而必须主动。
经典模型三:猎鹿博弈
博弈场景
两个人去打猎。如果合作猎鹿,每人收益是8;如果单独抓兔子,每人收益是3。
但猎鹿需要两个人配合,一个人单独去猎不成功(收益为0)。
收益矩阵
| B猎鹿 | B抓兔 | |
|---|---|---|
| A猎鹿 | (8, 8) | (0, 3) |
| A抓兔 | (3, 0) | (3, 3) |
表:A的收益在前,B的收益在后
这个博弈有两个均衡:
- 都猎鹿(8, 8) - 集体最优
- 都抓兔(3, 3) - 风险最小
问题是:我不信任你会不会临时变卦去抓兔子。
如果我信任你,我们猎鹿;如果不信任,我抓兔保底。
信任困境
猎鹿博弈和囚徒困境的区别在于:
- 囚徒困境:纳什均衡是唯一的,且是次优的(都坦白)
- 猎鹿博弈:有两个纳什均衡,一个最优(都猎鹿),一个次优(都抓兔)
关键在于:如何达成信任,让大家选择最优均衡?
现实应用:合作与协调
案例一:《巴黎协定》的困境
各国都减排,气候改善,大家都受益(8, 8)。
但减排要花钱,影响经济增长。
如果你减排,我偷摸排化石燃料,我赚了你还亏了(0, 3)。
所以大家都想等等看,结果气候继续恶化(3, 3)。
这就是为什么国际气候谈判这么难:
- 理论上应该合作(猎鹿)
- 实际上互相猜忌(都抓兔)
案例二:团队项目的博弈
小组作业,大家都全力以赴,项目优秀,都拿高绩效(8, 8)。
如果一个人摸鱼,项目干得不行,其他人都白干,都拿低绩效,但摸鱼的至少享受了清闲(0, 3)。
结果:
- 有责任感的团队:都努力(猎鹿)
- 互不信任的团队:都摸鱼(抓兔)
案例三:婚姻关系
婚姻就是典型的猎鹿博弈:
- 共同经营,家庭幸福(8, 8)
- 各顾各的,感情淡漠(3, 3)
- 一方付出一方背叛,受伤的是付出的一方(0, 3)
所以婚姻最重要的是:信任。
没有信任,最好的策略就是各自保底(抓兔)。
经典模型四:协调博弈
博弈场景
这个博弈说的是:协调也是一门艺术。
夫妻俩想一起看看电视,但喜欢的类型不同。老公喜欢看足球赛,老婆喜欢看电视剧。
关键约束:必须一起看(分开看效用为0),但偏好不同。
收益矩阵
| 老婆-足球赛 | 老婆-电视剧 | |
|---|---|---|
| 老公-足球赛 | (2, 1) | (0, 0) |
| 老公-电视剧 | (0, 0) | (1, 2) |
表:老公的收益在前,老婆的收益在后,分开都为0
这个博弈有两个均衡:
- 都看电视剧(1, 2) - 老婆更满意
- 都看足球赛(2, 1) - 老公更满意
问题不是对抗,而是协调:怎么达成一致?
和猎鹿博弈不同,协调博弈里双方都想在一起,只是偏好不同。而猎鹿博弈里,一方可能背叛导致另一方吃亏。
协调问题
协调博弈的解决方式:
- 轮流:这次电视剧,下次足球赛
- 沟通:提前商量好
- 约定:谁生日听谁的
- 第三方:孩子想看啥就看啥(引入新的参与者)
这告诉我们:有时候问题不是对抗,而是如何协调。
现实应用:协调的智慧
案例一:朋友聚餐吃什么
三个好朋友约周末聚餐,但口味不同:
- 小张想吃火锅(川味,重辣)
- 小李想吃日料(清淡)
- 小王不太挑,但希望大家一起
如果分开吃就没意思了(效用为0)。
收益情况:
- 都吃火锅:小张最爽(2),小李勉强接受(1),小王无所谓(1)
- 都吃日料:小李最爽(2),小张勉强接受(1),小王无所谓(1)
- 分开吃:都没意思(0, 0, 0)
解决方式:
- 这次火锅,下次日料(轮流)
- 找一个折中的餐厅,比如有辣有不辣的自助
- 抽签决定
- 看看大众点评哪家评分高(第三方)
案例二:团队团建去哪玩
公司部门要团建,大家意见不一:
- 年轻同事想去密室逃脱(刺激、有趣)
- 年长同事想去茶馆喝茶(放松、养生)
- 不分开团建(否则没团队氛围)
但必须统一行动。
解决方式:
- 上午密室,下午喝茶(折中)
- 这次密室,下次爬山(轮流)
- 每个人投票选一个方案(民主)
- 让领导决定(第三方权威)
案例三:项目技术选型
创业团队要选技术栈,争执不下:
- 前端想用React(各种开源库齐全、生态好)
- 后端想用Vue(学习成本低、上手快、在国内招聘更容易)
- 必须统一技术栈,否则维护成本爆炸
解决方式:
- 咨询行业专家或技术顾问(第三方)
- 团队投票,少数服从多数
- 先用A项目试试,不合适再换(试点)
破局
从单次博弈到重复博弈
前面说的都是单次博弈,就是只玩一次。这种情况下,囚徒困境很难破局。但如果博弈是重复的,情况就不一样了。
楼下小卖铺 vs 旅游景区
- 楼下小卖铺:坑你一次,你就不会来了,还会告诉楼里其他人。为了长期利益,必须讲诚信。
- 旅游景区:你下次不会再来了(大概率),宰一次是一次。所以很多景区商家很坑。
这就是重复博弈的力量。
无名氏定理(Folk Theorem)
在无限次重复博弈中,如果参与者有足够的耐心(贴现因子不太小),那么合作可以成为纳什均衡。简单说:如果博弈一直进行下去,大家最终会选择合作。
因为如果这次背叛,对方下次就会报复,长期来看不划算。
现实中的应用:
- 商业信用:企业为了长期合作,不会坑合作伙伴
- 品牌声誉:大品牌不敢作恶,因为损失太大
- 长期雇佣:员工不偷懒,老板不会随意解雇
但有一个前提:博弈必须是重复的,且双方都知道会继续博弈下去。
引入外部约束
有时候光靠重复博弈还不够,需要外部力量介入。
法律约束:
- 反垄断法:限制恶性竞争
- 劳动法:禁止996
- 合同法:强制执行协议
第三方平台:
- 淘宝的信誉系统:商家不敢坑人,因为差评会毁生意
- 支付宝的担保交易:买家敢付款,卖家敢发货
- 大众点评:餐厅不敢乱来,因为差评曝光
监管机制:
- 金融监管:防止金融机构坑投资者
- 环保督察:强制企业减排
- 食品安全检查:保障消费者权益
外部约束的本质:改变收益矩阵,让背叛的代价变大,让合作的收益变大。
建立信任与合作机制
除了外部约束,还可以通过内部机制建立信任。
声誉机制:
- 信用评分:芝麻信用、征信系统
- 在线评价:淘宝、美团、滴滴
- 口碑传播:朋友推荐、社交媒体
担保机制:
- 保证金:买房定金、投标保证金
- 第三方托管:支付宝、银行托管
- 保险:违约保险、质量保险
信号发送:
- 品牌:大品牌=质量保证
- 认证:ISO认证、有机认证
- 保修:7天无理由退货
沟通机制:
- 谈判:面对面沟通,达成共识
- 协商:工会与资方谈判
- 透明化:信息公开,减少信息不对称
这些都是为了让参与者在没有外部强制的情况下,自愿选择合作。
总结:从对抗到合作
回顾一下,非零和博弈告诉我们几个关键道理:
1. 现实很复杂
大部分博弈不是简单的你赢我输,而是可以双赢也可能双输。
理解这一点,才能跳出"零和思维":
- 商业不是你死我活,可以共创价值
- 职场不是踩压同事,可以互利共赢
- 国际关系不是霸权竞争,可以合作共赢
2. 个人理性≠集体理性
囚徒困境、价格战、教育内卷...这些都是个人理性导致集体非理性的例子。
就像凯恩斯说的:"理性的个人,可能导致非理性的集体。"
认识到这一点,才能避免陷入"双输"的陷阱。
3. 均衡不是最优
纳什均衡是稳定的,但不一定是最好的。
- 囚徒困境:都坦白是均衡,但都抵赖更好
- 智猪博弈:小猪搭便车是均衡,但大猪很委屈
- 猎鹿博弈:都抓兔是均衡,但都猎鹿更好
我们要做的,不是接受次优均衡,而是想办法创造更好的均衡。
4. 改变规则很重要
囚徒困境怎么破?
- 重复博弈:让博弈持续下去,合作才有价值
- 外部约束:法律、监管、第三方平台
- 信任机制:声誉、担保、信号、沟通
本质上,改变规则就是改变收益矩阵,让合作成为最优选择。
5. 理解博弈,才能改变博弈
博弈论不仅是分析工具,更是行动指南。
识别我们处于什么样的博弈中:
- 是囚徒困境?想办法建立信任或引入外部约束
- 是智猪博弈?如果你是小猪,安心搭便车;如果你是大猪,想办法改变规则
- 是猎鹿博弈?努力建立信任,达成合作
- 是协调博弈?积极沟通,寻求协调
理解博弈,才能找到破局的方法。
从对抗到合作,从零和到非零和,这才是博弈论给我们的最大启示。