相关文章推荐
坚强的小熊猫  ·  Pygame入门 2022 ...·  1 年前    · 

大家好,我是大老李。最近看到国外网站上的一篇有关博弈论的文章,提出了三个问题,非常有意思。我就借节目把这三个问题介绍给大家,也加入我自己的一些读后感。

这第一个问题是这样的,有这么一个猜拳游戏,猜拳的双方姑且叫他们“小单”和“小双”,单数和双数的单双。猜拳时只能出两种手势,就是出一个大拇指,表示一,或者出四个手指,表示四。然后把双发的手势数字加起来,单数时小单赢,双数时,小双赢。而且赢得分数就是双方手势数字之和。比如一个人出了1,另一个出了4,那么加起来是5,那小单赢了5分。如果两个人都出了1,那么加起来是2,是双数,那么小双赢了2分。

现在的问题就是这个游戏是公平的游戏吗?也就是双方都采取最佳策略玩的时候,双方最终的得分期望值是一样的吗?另外,如果小双这样思考:如果双方出1或4都是随机一半的机会,那么对每四局来说,加起来是2或8的时候我赢,一共是10分;双方加起来是5的时候对方赢两次,一共也是10分。所以这游戏看起来挺公平的,那我就两种随机各50%来出吧。小单这样思考:这个游戏看起来挺公平的,但是我感觉这里面有点玄机。我准备稍稍出点奇招,我准备3/5的机会出1个手指,2/5的机会出四个手指。那么请问在这种情况下,双方得分期望值如何?

如果你有时间,你不妨现在暂停下节目,自己算算看。如果你没有时间,那我就继续了。我一开始看到这个问题时,也是像小双一样,感觉这个游戏是很对称的游戏,应该是一个公平的游戏啊。,但是,在后面这种不对称的出拳策略下,如果你经过计算会发现,小单通过他不对称的出拳策略,他平均可以在20局游戏中,多得6分!是不是有点出人意料?具体计算我不说了,这是很简单的。

那后续还可以追问,如果我们知道小单的这种出拳策略后,作为小双有更好的策略吗?那肯定是有的,比如小双可以一直出四个手指。这样显然,小双平均每局可以多赢0.2分。那么小单也可以见招拆招啊,小单看到小双一直出四个手指,肯定会变招。这样双方肯定你来我往,问题就来了,有没有一种策略,是的最终双方都不会再变招了?这种策略存在吗?熟悉博弈论的听众就肯定知道,这种策略是肯定存在的,而这种策略就是所谓纳什均衡点。

纳什这个名字估计好多听众这几年熟悉了,很大功劳要归功于一部电影《美丽心灵》。纳什不但靠博弈论理论赢得了1994年诺贝尔经济学奖,还在2015获得了数学界的一个大奖阿贝尔奖,足见其成果的重要性。其实纳什均衡也是很好理解的一个状态,就是博弈双方中任何一方单方面改变策略时,无法提高自身收益的一种情况。

《美丽心灵》电影里有个下片段是说纳什在普林斯顿大学读书时很喜欢下围棋,据说他从围棋中得到了纳什平衡的灵感。因为围棋里有个东西叫定式,就是双方在布局阶段在局部按部就班的连续走出的变化。但是你想围棋是个零和博弈游戏啊,我知道对方会这么走,我为什么还是会这样走下去呢?零和游戏为什么在局部变成了貌似合作模式的过程呢?因为双方看上去就是“合作”把一个定时过程走完了?会下围棋的会说:这很容易,因为我知道因为定式是前人实践的双方可以接受的变化,如果我变招的话,肯定是我受损。这里关键点来了,就是如果我单方面变招的话,那就是我受损。这就是纳什均衡的要义。

那我们来看看,前面这个猜拳游戏的纳什均衡点在哪里。这其实有个计算方法,但是小复杂,我把计算过程放在节目介绍里,结算结果是,如果小单有13/20的概率出1个手指,7/20的几率出4个手指,这样可以是他每局多赢0.45分。此时无论小双如采取什么策略,都没有办法获得更好的结果(小单的收益总是0.45)。而小单也不会改变策略,因为如果小单改变,小双总有更好的策略,可以使小单的单局收益小于0.45,因此双方达到了一个纳什均衡。

(计算过程如下:
设小单出1的概率是p,小双出1的概率是q。则小单每局的得分期望值是:
–2pq+5(1 –p)q+5p(1 –q)–8(1–p)(1–q)=13p+13q–20pq–8
现在的目标是无论q是多少,确定一个最佳的p值,则可将q作为变量,p作为常量,将上式化为:
q(13–20p)–(8–13p)
则可注意到当13-20p=0时,上式将不依赖于q。则可解得p=13/20时,上式值为0.45。即为纳什均衡点时,小单的单局得分期望值。)

这个问题算是解决了,我最大的感想就是一个貌似公平的游戏但确实是有一个不公平的结果,而且这个策略点会出现这种13/20的数字实在是很让人意外的。另外还要说句,纳什均衡的存在性在非合作博弈领域是必然存在的,这是当初纳什证明的,而且不一定是两方博弈,任意多的人博弈 都适用。但可惜的是,纳什均衡点得到却不容易。像上述两人博弈的情况其实就有点复杂了,我如果让你和一个朋友玩这个游戏,估计你们玩一整天都摸索不出这个纳什均衡。而一旦到三人,情况一下子更会复杂许多。比如我说三个人同时猜拳,每个人可以出1,2,3,三种手指,如果三人的取胜条件是三个人的手指之和除3的余数分别是0,1,2的话分别能赢得1分。这种情况下的那时均衡点你会一下子发现变得非常复杂,因为一个人改变了策略,另两人都会相应改变,而又会触发更多的变化,这颇有三体问题的味道。各位有兴趣可以自己研究下。

其实我们在社会生活中,很多情况是希望达到纳什均衡的,因为达到纳什均衡的话,我们的行为模式会比较稳定,对别人的行为也有很好的预期,这样人们之间的所谓“博弈”的感觉就会减少,有利于社会和谐稳定。但是纳什在证明纳什均衡的存在性的时候,只证明了存在性,而没有构造出寻找这种均衡的方法。因为他用的方法是所谓不动点理论,比如把你用手机拍一个风景,然后在手机预览照片的时候,把手机举起来,放在你拍的实际风景之前,让你拍的风景作为手机的背景。那我就可以说,你手机里的照片必然有一点且(多数情况下)只有一点是与风景里位置是重合的,无论你怎么旋转或者移动手机。这个点就叫不动点,你思考一下对不对。但是纳什均衡这个不动点的存在性的证明是非构造性的。有人就证明对某些博弈来说,穷全世界所有计算机之力,在整个宇宙寿命的时间内也计算不出纳什均衡点,纳什均衡属于NP问题。这是有点让人失望但也是可以预期的情况,因为人的行为如果是如此容易的计算,那人大概也就不叫人了。

最后,我个人认为商业领域里的一些现象是可以用纳什均衡来解释的,特别是某个领域只剩两个寡头垄断的时候。比如可口可乐和百事可乐,从各方面来讲可口可乐的市场份额总是要比百事大一点。但你有没有想过几十年里可口可乐就没想过再加把劲干掉百事?或者百事就没点进取心去追上可口可乐?但两家是不是到了一种没法再单方面变招或者大幅改变的时候?如果某一家大幅改变配方,售价或者营销策略等等,很可能是自身先受损。所以两家进入一种平衡状态,相对稳定下来。除非有第三家饮料企业强大到威胁到这两家,那这两家就不得不应战进入改变了。

好了,今天第一个有关博弈论的话题就到这里,希望你对纳什均衡有所新的理解。这里我顺带说下下周要讨论的博弈论问题:

问题是这样,有个母亲,她有一对双胞胎儿子。儿子当然很调皮,她为了管理好她的儿子,想出了这么一个政策,她每天会准备20块钱,傍晚会单独问她两个儿子,问他们有关另一个小孩在学校的表现。如果两人都说另一个表现的很好,那么他们会各得10块钱。如果其中一个报告了另一个的不好表现,则报告的可以得到15块钱,不报告的一分没有。如果两人都报告了对方的不好表现,那两人都只能得到5块钱。请你思考四个问题:

1)如果两个儿子互不信任对方,那他们的最佳策略是啥?

2)如果两个互相信任,那么他们的最佳策略是啥?

3)如果这中奖惩制度会持续执行100天,那么在多少天后,你会发现他们的合作行为会多于背叛行为或者相反?

4)你举得这个母亲的这个奖惩制度好不好?有何利弊?如果是你,你有没有更好的方法?

ok,这四个问题供大家这周思考,下周再见!

Privacy & Cookies: This site uses cookies. By continuing to use this website, you agree to their use.
To find out more, including how to control cookies, see here: Cookie Policy