跳转到内容

首发于:2026-1-18

非零和博弈

什么是非零和博弈

非零和博弈是博弈论中的重要概念,指参与者的收益总和不为零的博弈形态。包括正和博弈(双赢)和负和博弈(双输)。与零和博弈不同,非零和博弈中参与者可以通过合作实现共同利益最大化,但也可能因缺乏协调而陷入次优结果。

说白了,非零和博弈就是:大家的收益加起来不是零,可能一起赚,也可能一起亏。

这类博弈最关键的特点是:个体的最优解,可能导致集体的最差结果。

经典模型一:囚徒困境

困境的设定

囚徒困境这一概念最早由美国数学家梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)于1950年提出,是非零和博弈的典型代表。

故事是这样的:

两个小偷A和B被警察抓住了,警察把他们分开审讯,不给他们串供的机会(这个很重要,如果可以串供,结果就不一样了)。

警察告诉他们:

  • 如果俩都坦白,各判5年
  • 如果一个坦白一个抵赖,坦白的无罪释放,抵赖的判10年
  • 如果俩都抵赖,证据不足,各判1年

囚徒困境有个基本假设:人是利己的。每个人只关心自己的利益,不在乎别人的得失。

收益矩阵

我们把这个博弈用收益矩阵表示一下(收益用刑期的负数表示,越负越惨):

B坦白B抵赖
A坦白(-5, -5)(0, -10)
A抵赖(-10, 0)(-1, -1)

表:A的收益在前,B的收益在后,负数表示刑期

我们来算一下A的收益:

  • 如果A坦白,B也坦白 → A判5年,收益记为-5
  • 如果A坦白,B抵赖 → A无罪,收益记为0
  • 如果A抵赖,B坦白 → A判10年,收益记为-10
  • 如果A抵赖,B抵赖 → A判1年,收益记为-1
  • A坦白期望收益-5;A抵赖期望收益-11。

从A的角度:

  • 如果B坦白,我坦白判5年,抵赖判10年 → 坦白更好
  • 如果B抵赖,我坦白无罪,抵赖判1年 → 还是坦白更好

所以无论B选什么,A的最优策略都是坦白。

对B来说也一样,理性选择也是坦白。

结果:俩人都选择坦白,各判5年。

这是对于他们个体的最优解。但是对于集体来说显然不是最优解。

纳什均衡

这里有个很有意思的现象:如果俩人都抵赖,各判1年,明明对大家都好啊!为什么没有发生?

这就需要引入纳什均衡来解释了。

纳什均衡

在博弈中,如果每个人的策略都是对其他人策略的最佳回应,这个稳定状态就叫纳什均衡。在这个状态下,任何单方面改变策略都会让自己变得更糟。

囚徒困境中,A坦白,B坦白,就是纳什均衡状态——虽然不是最好的结果,但却是最稳定的结果。

个体的最优解(这里我感觉就是双输好过单赢,哈哈🐶),导致了集体的最差结果。

现实案例

案例一:价格战

两家公司卖同样的产品,如果都不降价,各自赚10(10, 10)。

如果一家降价一家不降,降价的那家抢占市场赚15,不降的只赚5(15, 5)。

如果都降价,利润都变薄,各自只赚6(6, 6)。

B不降价B降价
A不降价(10, 10)(5, 15)
A降价(15, 5)(6, 6)

纳什均衡是(都降价,6, 6),虽然(不降价,10, 10)对大家都更好。

类似的例子:

  • 网约车补贴战:滴滴和Uber烧钱补贴,最后都亏,用户赚了
  • 社区团购:阿里、美团、拼多多厮杀,补贴大战,利润微薄
  • 电商平台:拼多多、淘宝、京东价格战,利润越来越薄

打破方式:行业协会价格协调、反垄断法限制恶性竞争。

案例二:教育内卷与剧场效应

这就是典型的"剧场效应":

  • 前排的人站起来看戏,逼得后排的人也都站起来
  • 最后所有人都站着看戏,谁也没看得更清楚,但都更累了

教育内卷也是一样的,这是多方博弈

  • 家长:别人补,我不补,孩子就输了
  • 培训机构:鼓吹焦虑,赚钱
  • 教育部门:想减负,但不敢真减(怕孩子输在起跑线)

解决办法就是政策干预:"双减"政策就是改变规则的外力。

还有就是职场内卷:一个人996,逼得所有人都加班(所以一个无产阶级的人如果提倡加班,那么这个人就是背叛了阶级,我们可以称其为“工贼”

案例三:美苏冷战,军备竞赛

两国都扩充军备:

  • 都扩军:安全了,但花掉大笔钱,经济受损(-5, -5)
  • 都裁军:安全了,省下的钱搞经济(-1, -1)
  • 我扩军你裁军:我占你便宜(3, -10)
  • 我裁军你扩军:我被你欺负(-10, 3)

结果:双方都拼命扩军,双输。

现代的例子:

  • 网络军备竞赛:各国发展网络战能力,互相攻防
  • AI军备竞赛:担心对手先发展出军事AI,所以自己也拼命发展

解决方式:裁军条约、军控协议、第三方监督

但这又回到猎鹿博弈的信任问题:你怎么知道我会遵守条约?

经典模型二:智猪博弈

博弈场景

猪圈里有一大一小两头猪,猪圈很长,一头有个按钮,另一头有个食槽。

按一下按钮,会有10个单位的猪食掉进槽里,但按踏板的那头猪要付出2个单位的成本(跑来跑去累的)。

问题来了:谁去按按钮,谁就吃亏,因为对方早就在食槽等着了,等你跑回来人家已经吃上了。

收益矩阵

小猪按小猪等待
大猪按(7-2, 3-2)(6-2, 4)
大猪等待(9, 1-2)(0, 0)

表:大猪的收益在前,小猪的收益在后,踩踏板成本-2,大猪比小猪吃得快

分析一下:

  • 如果大猪按,小猪也按得1,小猪等待得4 → 小猪应该选择等待
  • 如果大猪等待,小猪按得-1,小猪等待得0 → 小猪还是应该选择等待

所以小猪的策略很明确:无论大猪按不按,我都等待(搭便车)。

大猪怎么办呢?小猪肯定不按,大猪按得4,不按得0,所以大猪只能按。

结果:大猪累死累活按踏板,小猪坐享其成。

这就是智猪博弈的纳什均衡。

现实应用:搭便车问题

案例一:技术创新与跟随策略

苹果投入数百亿美元研发iOS、A系列芯片、Face ID...

其他手机厂商:拿来主义!

苹果肯定不爽这种行为,但又不能不研发,不研发就更没优势。

这就是智猪博弈:大猪(苹果)必须创新,小猪(其他厂商)最优策略是跟随。

类似的情况还有:

  • 大药企研发新药,小药企生产仿制药
  • 大平台做基础设施,小平台在上面开发应用
  • 大明星带流量,小网红蹭热度

案例二:税收与公共物品

张大老板一年交1个亿税,李小店主一年交1万税。

但大家享受的国防、治安、道路是一样的。

张大老板:我交这么多,小老板才交这么点?

李小店主:我就赚这么点,怎么交?

但大老板还得交,因为基础设施好对他更有利(大猪按踏板)。

案例三:企业环保投入

大企业投入10亿搞环保,小企业不投入。

结果环境改善,大家都受益。

小企业:搭便车真香!

大企业:我投入,你白嫖?

但如果都不投入,环境都恶化,大企业损失更大,所以大企业还是得投。

这告诉我们:在非零和博弈中,弱势一方有时可以"躺平",强势一方反而必须主动。

经典模型三:猎鹿博弈

博弈场景

两个人去打猎。如果合作猎鹿,每人收益是8;如果单独抓兔子,每人收益是3。

但猎鹿需要两个人配合,一个人单独去猎不成功(收益为0)。

收益矩阵

B猎鹿B抓兔
A猎鹿(8, 8)(0, 3)
A抓兔(3, 0)(3, 3)

表:A的收益在前,B的收益在后

这个博弈有两个均衡:

  1. 都猎鹿(8, 8) - 集体最优
  2. 都抓兔(3, 3) - 风险最小

问题是:我不信任你会不会临时变卦去抓兔子。

如果我信任你,我们猎鹿;如果不信任,我抓兔保底。

信任困境

猎鹿博弈和囚徒困境的区别在于:

  • 囚徒困境:纳什均衡是唯一的,且是次优的(都坦白)
  • 猎鹿博弈:有两个纳什均衡,一个最优(都猎鹿),一个次优(都抓兔)

关键在于:如何达成信任,让大家选择最优均衡?

现实应用:合作与协调

案例一:《巴黎协定》的困境

各国都减排,气候改善,大家都受益(8, 8)。

但减排要花钱,影响经济增长。

如果你减排,我偷摸排化石燃料,我赚了你还亏了(0, 3)。

所以大家都想等等看,结果气候继续恶化(3, 3)。

这就是为什么国际气候谈判这么难:

  • 理论上应该合作(猎鹿)
  • 实际上互相猜忌(都抓兔)

案例二:团队项目的博弈

小组作业,大家都全力以赴,项目优秀,都拿高绩效(8, 8)。

如果一个人摸鱼,项目干得不行,其他人都白干,都拿低绩效,但摸鱼的至少享受了清闲(0, 3)。

结果:

  • 有责任感的团队:都努力(猎鹿)
  • 互不信任的团队:都摸鱼(抓兔)

案例三:婚姻关系

婚姻就是典型的猎鹿博弈:

  • 共同经营,家庭幸福(8, 8)
  • 各顾各的,感情淡漠(3, 3)
  • 一方付出一方背叛,受伤的是付出的一方(0, 3)

所以婚姻最重要的是:信任。

没有信任,最好的策略就是各自保底(抓兔)。

经典模型四:协调博弈

博弈场景

这个博弈说的是:协调也是一门艺术。

夫妻俩想一起看看电视,但喜欢的类型不同。老公喜欢看足球赛,老婆喜欢看电视剧。

关键约束:必须一起看(分开看效用为0),但偏好不同。

收益矩阵

老婆-足球赛老婆-电视剧
老公-足球赛(2, 1)(0, 0)
老公-电视剧(0, 0)(1, 2)

表:老公的收益在前,老婆的收益在后,分开都为0

这个博弈有两个均衡:

  1. 都看电视剧(1, 2) - 老婆更满意
  2. 都看足球赛(2, 1) - 老公更满意

问题不是对抗,而是协调:怎么达成一致?

和猎鹿博弈不同,协调博弈里双方都想在一起,只是偏好不同。而猎鹿博弈里,一方可能背叛导致另一方吃亏。

协调问题

协调博弈的解决方式:

  • 轮流:这次电视剧,下次足球赛
  • 沟通:提前商量好
  • 约定:谁生日听谁的
  • 第三方:孩子想看啥就看啥(引入新的参与者)

这告诉我们:有时候问题不是对抗,而是如何协调。

现实应用:协调的智慧

案例一:朋友聚餐吃什么

三个好朋友约周末聚餐,但口味不同:

  • 小张想吃火锅(川味,重辣)
  • 小李想吃日料(清淡)
  • 小王不太挑,但希望大家一起

如果分开吃就没意思了(效用为0)。

收益情况:

  • 都吃火锅:小张最爽(2),小李勉强接受(1),小王无所谓(1)
  • 都吃日料:小李最爽(2),小张勉强接受(1),小王无所谓(1)
  • 分开吃:都没意思(0, 0, 0)

解决方式:

  • 这次火锅,下次日料(轮流)
  • 找一个折中的餐厅,比如有辣有不辣的自助
  • 抽签决定
  • 看看大众点评哪家评分高(第三方)

案例二:团队团建去哪玩

公司部门要团建,大家意见不一:

  • 年轻同事想去密室逃脱(刺激、有趣)
  • 年长同事想去茶馆喝茶(放松、养生)
  • 不分开团建(否则没团队氛围)

但必须统一行动。

解决方式:

  • 上午密室,下午喝茶(折中)
  • 这次密室,下次爬山(轮流)
  • 每个人投票选一个方案(民主)
  • 让领导决定(第三方权威)

案例三:项目技术选型

创业团队要选技术栈,争执不下:

  • 前端想用React(各种开源库齐全、生态好)
  • 后端想用Vue(学习成本低、上手快、在国内招聘更容易)
  • 必须统一技术栈,否则维护成本爆炸

解决方式:

  • 咨询行业专家或技术顾问(第三方)
  • 团队投票,少数服从多数
  • 先用A项目试试,不合适再换(试点)

破局

从单次博弈到重复博弈

前面说的都是单次博弈,就是只玩一次。这种情况下,囚徒困境很难破局。但如果博弈是重复的,情况就不一样了。

楼下小卖铺 vs 旅游景区

  • 楼下小卖铺:坑你一次,你就不会来了,还会告诉楼里其他人。为了长期利益,必须讲诚信。
  • 旅游景区:你下次不会再来了(大概率),宰一次是一次。所以很多景区商家很坑。

这就是重复博弈的力量。

无名氏定理(Folk Theorem)

在无限次重复博弈中,如果参与者有足够的耐心(贴现因子不太小),那么合作可以成为纳什均衡。简单说:如果博弈一直进行下去,大家最终会选择合作。

因为如果这次背叛,对方下次就会报复,长期来看不划算。

现实中的应用:

  • 商业信用:企业为了长期合作,不会坑合作伙伴
  • 品牌声誉:大品牌不敢作恶,因为损失太大
  • 长期雇佣:员工不偷懒,老板不会随意解雇

但有一个前提:博弈必须是重复的,且双方都知道会继续博弈下去。

引入外部约束

有时候光靠重复博弈还不够,需要外部力量介入。

法律约束:

  • 反垄断法:限制恶性竞争
  • 劳动法:禁止996
  • 合同法:强制执行协议

第三方平台:

  • 淘宝的信誉系统:商家不敢坑人,因为差评会毁生意
  • 支付宝的担保交易:买家敢付款,卖家敢发货
  • 大众点评:餐厅不敢乱来,因为差评曝光

监管机制:

  • 金融监管:防止金融机构坑投资者
  • 环保督察:强制企业减排
  • 食品安全检查:保障消费者权益

外部约束的本质:改变收益矩阵,让背叛的代价变大,让合作的收益变大。

建立信任与合作机制

除了外部约束,还可以通过内部机制建立信任。

声誉机制:

  • 信用评分:芝麻信用、征信系统
  • 在线评价:淘宝、美团、滴滴
  • 口碑传播:朋友推荐、社交媒体

担保机制:

  • 保证金:买房定金、投标保证金
  • 第三方托管:支付宝、银行托管
  • 保险:违约保险、质量保险

信号发送:

  • 品牌:大品牌=质量保证
  • 认证:ISO认证、有机认证
  • 保修:7天无理由退货

沟通机制:

  • 谈判:面对面沟通,达成共识
  • 协商:工会与资方谈判
  • 透明化:信息公开,减少信息不对称

这些都是为了让参与者在没有外部强制的情况下,自愿选择合作

总结:从对抗到合作

回顾一下,非零和博弈告诉我们几个关键道理:

1. 现实很复杂

大部分博弈不是简单的你赢我输,而是可以双赢也可能双输。

理解这一点,才能跳出"零和思维":

  • 商业不是你死我活,可以共创价值
  • 职场不是踩压同事,可以互利共赢
  • 国际关系不是霸权竞争,可以合作共赢

2. 个人理性≠集体理性

囚徒困境、价格战、教育内卷...这些都是个人理性导致集体非理性的例子。

就像凯恩斯说的:"理性的个人,可能导致非理性的集体。"

认识到这一点,才能避免陷入"双输"的陷阱。

3. 均衡不是最优

纳什均衡是稳定的,但不一定是最好的。

  • 囚徒困境:都坦白是均衡,但都抵赖更好
  • 智猪博弈:小猪搭便车是均衡,但大猪很委屈
  • 猎鹿博弈:都抓兔是均衡,但都猎鹿更好

我们要做的,不是接受次优均衡,而是想办法创造更好的均衡。

4. 改变规则很重要

囚徒困境怎么破?

  • 重复博弈:让博弈持续下去,合作才有价值
  • 外部约束:法律、监管、第三方平台
  • 信任机制:声誉、担保、信号、沟通

本质上,改变规则就是改变收益矩阵,让合作成为最优选择。

5. 理解博弈,才能改变博弈

博弈论不仅是分析工具,更是行动指南。

识别我们处于什么样的博弈中:

  • 是囚徒困境?想办法建立信任或引入外部约束
  • 是智猪博弈?如果你是小猪,安心搭便车;如果你是大猪,想办法改变规则
  • 是猎鹿博弈?努力建立信任,达成合作
  • 是协调博弈?积极沟通,寻求协调

理解博弈,才能找到破局的方法。

从对抗到合作,从零和到非零和,这才是博弈论给我们的最大启示。

京ICP备18043750号