博弈本意是下棋、赌博,引申为:在一定条件下,遵守一定的规则,一个或几个拥有绝对理性思维的人或团队,从各自允许选择的行为或策略进行选择并加以实施,并从中各自取得相应结果或收益的过程。
一个完整的博弈应当包括五个方面的内容:
第一,博弈的参加者,即博弈过程中独立决策、独立承担后果的个人和组织;
第二,博弈信息,即博弈者所掌握的对选择策略有帮助的情报资料;
第三,博弈方可选择的全部行为或策略的集合;
第四,博弈的次序,即博弈参加者做出策略选择的先后;
第五,博弈方的收益,即各博弈方做出决策选择后的所得和所失。
下面依次介绍:
纳什均衡、囚徒困境、智猪博弈、公地悲剧、重复博弈、不完全信息博弈、拍卖博弈、博弈游戏、零和博弈、一报还一报。
1. 纳什均衡:明明可以共赢,为什么他们损人不利己
纳什均衡就是一种博弈的稳定结果,谁单方改变策略,谁就会损失。
案例:
一个项目,A和B同时投入1亿,各赚1亿;
A投入1亿,B不投,A损失5000万,B赚2000万;
都不投,不赚不赔。
这时,A担心自己投入后B不投,所以会不投;B同理。
最终都不投(稳定结果)。
应对:改变制度设计。
如签署违约条款,“未投入者,赔偿对方5000万”,这时,共同投入就成为新的纳什均衡,一个好的均衡。
如价格大战,寡头们都不降价,收益最大。但如果一家悄悄降价,就会抢占巨大利益。所以,降价是寡头们的最优策略,导致利润微薄的“坏的平衡”。
So,寡头们通过制度设计,组成“托拉斯”,形成价格同盟,走向好的平衡。接着,政府出台《反托拉斯法》,打破价格同盟,逼着寡头们走向坏的平衡。
2. 囚徒困境:向香港电影学习如何破解”囚徒困境“

两名囚徒A和B被隔离审讯。
如果两人彼此背叛,都坦白罪行,会都被判刑8年;
若一人坦白、一人不坦白,坦白的人直接释放,不坦白的判15年;
如果两人合作,都不坦白,会因为证据不足都只判1年。
用数学语言表述:
①背叛诱惑>合作报酬,在这里,合作报酬是判刑1年,背叛诱惑却是立即释放。
②受骗支付>背叛惩罚,在这里,背叛惩罚是判刑8年,受骗支付却是判刑15年。
这将导致“都坦白”成为稳定的纳什均衡。
破解囚徒困境:
一,让合作报酬>背叛诱惑。
①提高合作报酬。
如电影中,若你死不招供,坐牢时就会有人给你带话:大哥让我告诉你,家里的事不用担心,老人、嫂子、孩子,我们都会照顾好,你出狱那一天还会有一大包现金。
②降低背叛诱惑(有仇必报)。
如电影中,黑帮中,你背叛就弄死你。
二,让背叛惩罚>受骗支付。
①增加背叛惩罚。
电影中的黑社会,会建设一种忠义文化,这种文化的本质,就是增加你心理上的背叛惩罚:你不讲义气?整个江湖大都会唾弃你。
②降低受骗支付。
你被出卖了?兄弟除了给钱,帮你赡养家人之外,你的仇人就是我们的仇人,一定帮你*仇报**。
3. 智猪博弈:不懂搭便车,你连小猪都不如
这是一个博弈论界非常知名的猪圈。猪圈很长,最左边是一个踏板,最右边是个食槽。
若在左边踩下踏板,右边的食槽就会掉下10份猪食。
猪圈里面,有一只大猪,一只小猪。不管谁去踩踏板都会消耗2份食物的能量,那谁会去踩踏板?
四种情况:

一,大猪小猪都守在食槽边,等着对方去踩踏板。
这样谁都没得吃。
二,大猪小猪同时踩踏板,然后同时跑向食槽,同时吃。
大猪吃7份,实得5份;小猪吃3份,实得1份。
三,大猪不动,小猪踩板。
大猪独得9份;小猪只能吃到1份,实得负1份。
四,大猪踩板,小猪不动。
大猪吃6份,实得4份;小猪吃4份,实得4份。
最后的纳什均衡是“小猪不动,大猪踩板”。
分析:
若大猪不去踩,那就是“一”,他的获益从4变成0;
若小猪去踩,那就是“二”,他的获益从4变成1。
智猪博弈,居然出现了小猪明显占优的现象。
启示:
①小企业,要懂得合理的搭便车。
搭便车,听上去和价格歧视一样,让人有些不舒服。但是在法律允许的范围内搭便车,是小企业重要的占优策略,应该毫不手软。
如小房产商在万达或万科附近拿地,然后等着他们把生地炒熟。
如小制造企业,等着大公司验证出能盈利的新产品,然后切入市场分蛋糕。
②大企业,要懂得制约小猪心态。
如专利保护。
管理中,劣币驱逐良币导致勤奋的人受挫离开,怎么办?
原则:踩踏板,一定要比不踩踏板吃得多,激励到个人,不能到团队,否则团队中就会出现小猪。
4. 公地悲剧:三根救命毫毛,为何只给孙悟空?
有一片公共牧场,所有牧民都可以在这块牧场上放牧。
每个牧场的草,都是有理论容量的。
当牛的数量在理论容量之下,牧场的草被吃掉,又会很快长起来。
但如果牛太多,它们饿起来就会连草根都吃掉,导致草场退化,最后牧民的牛都吃不饱,甚至饿死。
最优:大家商量好,每家养的牛不能超过一个数字(你家只准养5头;他家人多,养7头;那家人最少,养2头吧)。
几天后,就有几个自私的牧民多放了几头牛。
其他人心想:我守规矩有什么用,不如我也分一点是一点。
于是,越来越多的牛出现在草地上,最后,草场退化,牛群饿死。
博弈的多方可能会达到一个稳定的均衡状态,但是这个均衡,未必是对大家都好的“帕累托最优”。
如海洋的过度捕捞、污染物的偷偷排放等(海洋、天空是“公地”,我不利用,别人也会利用,不如自己也捞一把)。
解决:
一,私有化。
如把牧场切割为10份,分给10个家族。
二,强管制。
①可以把牧场围起来,每头牛收100元放牧费,发放养殖许可证。
②海洋、空气,强制规定禁捕期、网眼大小等。
③当然你也可以制造公地悲剧的现象,反向利用。
如以前皇帝会故意设计一块公共权力,就是不讲清楚这归谁管,让大臣们在公地上打得你死我活,彼此制衡,同时还对君王死心塌地。
5. 重复博弈:诚信是一种与这个世界重复博弈的心态
你去某海岛旅行,来到一家小饭店,看着水缸里的鱼问老板:这是什么鱼啊,多少钱一斤?
老板以迅雷不及掩耳盗铃之势,捞起那条鱼摔死在地上,然后说:深海石斑,300元一斤。
你盯着这刚被摔死的几千块钱,知道自己如果不买的话,躺在地上的就是你了。
老板为什么敢这么宰客?因为这是一次博弈,你我只见这一次,不宰你宰谁。
如果他的店在你小区外面,几乎天天见面的话,这就变成了重复博弈,为了长期利益,他就不会宰你了。
应对:把一次博弈变成重复博弈,如大众点评建立评价体系。
运用:
(1)去餐厅,若你是消费者,基本策略是告诉对方:我是本地人。
(2)对商铺:我家就住在旁边。
(3)对品牌:我是你们的老客户。
诚信,就是把一次博弈,变成重复博弈。文明的商业社会,就是把有限次重复博弈,变成无限次重复博弈。而重复博弈,是治疗“坏的纳什均衡”的终极解药。
6. 不完全信息博弈:你有你的空城计,我有我的木马计
就是指在不充分了解其他参与人的特征、策略空间以及收益函数的情况下的博弈(信息不对称)。
简单来说就是信息不对称的博弈。
运用:
通过制造信息不对称,获得策略优势。
如斗鸡博弈(类似于空城计),两只公鸡狭路相逢,谁张牙舞爪,看上去更凶,就会吓退另一方,不战而屈人之兵(此博弈常见于大国之间的政治博弈中)。
《三十六计》中的瞒天过海、围魏救赵、声东击西、暗度陈仓、浑水摸鱼、空城计等等,本质都是通过制造信息不对称,获得策略优势。
在信息不完全对称的情况下,你可以用“空城计”虚张声势,他可以用“木马计”刺探军情。
So,消灭信息不对称是商业模式,制造信息不对称,其实也是商业模式。
7. 拍卖博弈:让 时间 最不值钱的旅客下飞机
航空公司突然宣布:因有4位工作人员要搭乘本航班,故将有4位旅客获得“补偿金”下飞机(购买旅客在机场逗留的时间)。
工作人员从100美元开始报价,有没有旅客愿意下飞机?没有。
200美元?300美元?你猜,时间成本不到200美元的旅客,会不会等到报价300美元才举手呢?一般不会,怕被抢嘛。
常用拍卖方法:
一,英国式拍卖。
从一个底价开始,通过不断竞价,激发参与者报出越来越接近其心理价位的价格,最后价高者得的拍卖模式。
如拍卖行的古董拍卖。怕成交价过低,则设定“保留价”,没超过则不卖。怕报价不踊跃,则设定速胜价/一口价,直接成交。
二,荷兰式拍卖。
一种降价拍卖,只有上一轮出价者,才能参与下一轮出价。
如你要采购一批办公用品,邀请10家供应商参与竞标,10万,8家愿意→9万,剩5家→……→6万,只剩一家,成交。
三,密封式拍卖。
请所有的竞标者,把各自的报价写在密封的信封里。
若由最低价中标,则称为密封式的荷兰式拍卖,又叫暗标;
若由最高价中标,则称为密封式的英国式拍卖,又叫暗拍。
如上海的汽车牌照。
三,维克瑞拍卖。
又称第二价格密封式拍卖:出价最高者竞拍成功,但是只要支付第二高的报价,而不是他自己的报价。
谷歌、百度、阿里的竞价排名广告,用的都是维克瑞拍卖。
8. 博弈游戏:有时也是吃人的陷阱
一,拍卖美元。
拍卖一张普通1美元纸币,零底价开始,以5美分为增幅。出价最高者得,但出价次高者也需要向我支付你的报价。
我出5美分。那我出10美分!……!50!这时就有趣了,若再加,55+50就超过了1美元的价值了,过了50美分,*家庄**稳赚不赔。
停止?55美分的人同意,估计50美分的人不会同意,以此类推,直至出价到95美分和1美元。但这时,出95美分的人真的会甘心吗?不好说。
跳出陷阱:
①不要参与。
②在一定合理线的时候停止出价。
③如果同盟很难结成,第一个人直接出价1美元。
④进入两家纠缠时,如95美分和1美元时,你直接给一个可以终止游戏的报价——报价2美元,用1美元的损失避免失控。
案例:
团购网站的“千团大战”。大战变为两家互博后,他们必须不停烧钱出价,直到把另一家逼退市场,赢家通吃。
最后两家烧钱出价都要突破零界点时,坐下来谈判,都别出价了吧,合并,分享市场。
二,三分之二。
找一群朋友,请每个人写1个0~100间的整数。
谁写的数最接近所有这些数平均数的三分之二,就算赢,发大奖。
你会写多少?0~100的平均数是50,2/3是33,就写33?你想的到,别人也想的到。
那就写33的2/3→22?但其他人也应该能想到啊。
……就看脑回路圈数了。
1987年美国《金融时报》在读者群体中实验后,最后的平均数是18.9,写13的人赢得了大奖。耶鲁大学的实验,写10的人赢了。
案例:
你是做电商的,故意在招聘网站上发布广告,说要招无人驾驶专家。
媒体看到后,大肆宣扬说你要转型了。
但对手知道你在发布假消息,转移对手注意力。
你知道你的对手懂你,所以发布的其实是真消息。
你的对手知道你知道他懂你,于是假装把这当成假消息,其实严阵以待。
到底要发布真消息还是假消息,取决于你对竞争对手脑回路圈数的判断。
9. 零和博弈:吃着碗里的,看着锅里的,想着田里的
你赢多少,我就得输多少的博弈。
*场赌**甚至会出现“负和博弈”(输赢加一起<0,因为有抽头)。
你我打高尔夫,赌1块钱,是零和博弈
→赞助商赞助1块,你我之间成了正和博弈
→赞助商、你和我三方,还是零和博弈
→赞助商把这场比赛的电视转播权以5块的价格,卖给电视台,则赞助商、你和我三方成了正和博弈
→四方来看还是零和博弈
→广告主
→消费者
……
→整个宇宙
避免零和博弈:
一,打开封闭系统。
吃着碗里的,看着锅里的,想着田里的,寻求增量。
有了太阳,地球上所有的生物才不是零和博弈。
二,确定存量分配规则,不容博弈。
①交通资源是有限存量,不能让汽车在马路上随便开,可制定交通法(如所有车都必须靠右行驶)。
②逃生资源是有限存量,大家都跑就会堵在门口,最后一个都走不了。
怎么办?宣传“社会规范”:孩子、妇女、老人先走。
因为必须有个顺序,杜绝零和搏弈或负和博弈,这样才能有更多人获救。
③创业公司,已经获得的利润是有限存量,先分钱再赚钱。
分钱逻辑确定后,不容博弈,大家才去想怎么创造增量,而不是到时候你争我夺。
10. 一报还一报:用惩罚回报恶行,用善行回报善行
罗伯特·阿克塞尔罗德写信给不同背景的学者们,请他们把自己应对“囚徒困境”的策略写成电脑程序,他收到了14个,然后让这些程序捉对厮杀,最后按总得分排名。
拉波波特教授的“一报还一报”:第一回合采取合作策略,然后每一回合都采取上一回合对手的策略(人不犯我,我不犯人;人若犯我,我必犯人)。
几十年过去了,“一报还一报”神一样的无敌。
在生活中运用“一报还一报”:
一,本性善良。
最初总以善意待人。在没有被欺骗之前,永远不要主动欺骗他人。
如你和商业伙伴签署合作协议,就要严格兑现承诺。
二,以直报怨。
若对手选择背叛,必须立刻反击。
如商业伙伴欺骗你,提供劣质产品、延期交付,你要毫不犹豫的报复、惩罚,扣除违约金。
三,以德报德。
惩罚过后,继续善意待人。
如商业伙伴更换了劣质产品、赔礼道歉并做出真诚的补偿后,你要不计前嫌,继续合作。
四,规则清晰。
本性善良,以直报怨,以德报德,这三步一定要毫无悬念地坚决执行,这样你的博弈策略就会非常清晰,容易被对手识别,激发对手的合作动机。
下期介绍“决策工具”。
我接受个人职业发展咨询和初创期公司咨询。欢迎关注公众号“知与知”,一起看清这世界,知行合一。