admin管理员组

文章数量:1794759

纳什均衡通俗例子(纳什均衡 例子)

纳什均衡通俗例子(纳什均衡 例子)

大家好,小编来为大家解答纳什均衡通俗例子这个问题,纳什均衡 例子很多人还不知道,现在让我们一起来看看吧!生活中有哪些好的纳什均衡例子? 硬币正反:你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3

大家好,小编来为大家解答纳什均衡通俗例子这个问题,纳什均衡 例子很多人还不知道,现在让我们一起来看看吧!

生活中有哪些好的纳什均衡例子?

硬币正反:

你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们

各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?这基本是废话,当然该。问题是,这个游戏公平吗?

每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。

纳什均衡理论奠定了现代主流博弈理论和经济理论的根本基础,正如克瑞普斯(Kreps,1990)在《博弈论和经济建模》一书的引言中所说,“在过去的一二十年内,经济学在 *** 论以及语言、概念等方面,经历了一场温和的革命,非合作博弈理论已经成为范式的中心……

在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中,现在人们已经很难找到不懂纳什均衡能够‘消费’近期文献的领域。”

请用一个简单的事例子来说明什么是纳什均衡?

纳什均衡就是在给定别人最优的情况下,自己最优选择达成的均衡。 它只要求任何一个参与者在其他参与者的策略选择给定的条件下,其选择的策略是最优的。也就是说,纳什均衡是有条件下的占优均衡,条件是它的参与者不改变策略。如果其他的参与者改变策略,我就要改变策略。

有一个非常经典的案例:

两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯,警察告诉他们:如果两人都坦白,各判 5 年;如果两人都抵赖,各判 1 年;如果其中一人坦白,一任抵赖,则坦白的放出去,抵赖的判 10 年。 此时,每个囚徒都有两种战略:坦白或抵赖,由于两个囚徒不能互通信,每个人只能在“收益最大,损失最小”的原则下做出.“坦白”或“抵赖”的选择,结果两个囚徒均选择“坦白”战略,因为他们都不愿意承担因自己抵赖,别人坦白而带来的风险。换句话说,他们不相信对方会做出“利人不利已”的选择。事实上,如果两人都抵赖,各判 1 年,比都坦白各判 5 年好。

纳什均衡通俗解释是什么?

纳什均衡通俗解释是:

纳什平衡是博弈论的一个重要术语,以约翰·纳什命名。在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。

如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什平衡。

扩展资料:

纳什平衡可以分成两类,“纯战略纳什平衡”和“混合战略纳什平衡”。所谓纯战略是提供给玩家要如何进行赛局的一个完整的定义。

特别地是,纯战略决定在任何一种情况下要做的移动。战略 *** 是由玩家能够施行的纯战略所组成的 *** 。而混合战略是对每个纯战略分配一个机率而形成的战略。

混合战略允许玩家随机选择一个纯战略。混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。因为机率是连续的,所以即使战略 *** 是有限的,也会有无限多个混合战略。

纳什均衡点,应怎样理解 请举出具体的例子,

纳什平衡,又称为非合作赛局平衡,是博弈论的一个重要概念,以约翰·纳什命名.

如果某情况下无一参与者可以独自行动而增加收益,则此策略组合被称为纳什均衡点

经典的例子就是囚徒困境,囚徒困境是一个非零和博弈. 大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年;如果两人均招供,将均被判刑两年.如果两人均不招供,将最有利,只被判刑半年. 于是,两人同时陷入招供还是不招供的两难处境. 但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供, 这种情况就称为纳氏均衡点. 这时,个体的理性利益选择是与整体的理性利益选择不一致的.

学术争议和批评

第一,纳什(Nash)的关于非合作(non-cooperative)博弈论的平衡不动点解(equilibrium/fixpoint)学术证明是非构造性的(non-constructive),就是说纳什用角谷静夫不动点定理(Kakutani fixed point theorem) 证明了平衡不动点解是存在的,但却不能指出以什么构造算法如何去达到这个平衡不动点解.这种非构造性的发现对现实生活里的博弈的作用是有限的,即使知道平衡不动点解存在,在很多情况下却找不到,因此仍不能解决问题.[来源请求]在数学意义上,纳什并没有超越角谷静夫不动点定理.

经过《美丽心灵》的Sylvia Nasar(书作者)和Ron Howard(电影作者)这样的主流媒体的介入,角谷静夫(Kakutani)在这些人的作品里被完全忽略.有人认为,“纳什平衡”(Nash equilibrium)的更合适的名字应该叫作“角谷静夫—纳什博弈论不动点”(Kakutani-Nash game-theoretic fixed point)或“角谷静夫—纳什平衡”(Kakutani-Nash equilibrium),没有角谷静夫不动点定理,纳什的证明没有多大学术意义.《美丽心灵》完全忽视角谷静夫之关键贡献的作法有待商榷.

第二,纳什的非合作(non-cooperative)博弈论模型仅仅是突破了博弈论中的一个局限.一个更大的局限是,博弈论面对的往往是由几十亿节点的庞大对象构成的社会、经济等复杂行为,但冯·诺伊曼(Von Neumann)和纳什的研究是针对两三个节点的小规模博弈论(有人称之为tiny-scale toy case).[来源请求]

这个假设的不完善处,可能比假设大家都是合作的(cooperative)更严重.因为在经济学里,一个庞大社会里的人极不可能全部都是合作的,非合作的情况通常在庞大对象的情形中更普遍,而在两三个节点的小规模经济中倒反而影响较小.既然改了合作前提为非合作前提,却仍然停留在两三个节点的小规模博弈论中,这是一个不可忽视的缺陷.最近香港城市大学和北京清华大学的学者群邓小铁、姚期智在基于复杂度理论的大规模博弈论上有所进展.

MIT的一位计算机科学博士生的博士论文(PDF )——获得2008年度美国计算机协会学位论文奖——认为经济学家的推测是错误的,找到纳什均衡点是几乎不可能的事. 目前担任MIT电机工程和计算机科学系助理教授的Constantinos Daskalakis与 UC伯克利的Christos Papadimitriou、英国利物浦大学的Paul Goldberg合作,证明对某些博弈来说,穷全世界所有计算机之力,在整个宇宙寿命的时间内也计算不出纳什均衡点.Daskalakis相信,计算机找不到,人类也不可能找到.纳什均衡属于NP问题,Daskalakis证明它属于NP问题的一个子集,不是通常认为的NP-完全问题,而是PPAD-完全问题.这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展.

不过在同一篇论文里,Daskalakis也指出,在参与者匿名的情况下,则仅需多项式时间即可逼近纳什均衡.

现实的例子

上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵.社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈.囚徒困境可以广为使用,说明这种博弈的重要性.以下为各界例子:

[编辑] 政治学例子:军备竞赛

在政治学中,两国之间的军备竞赛可以用囚徒困境来描述.两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作).两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备.似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等).这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平.

[编辑] 经济学例子:关税战

两个国家,在关税上可以有以两个选择:

提高关税,以保护自己的商品.(背叛)

与对方达成关税协定,降低关税以利各自商品流通.(合作)

当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果).然后二国又重新达成关税协定.(重复博弈的结果是将发现共同合作利益最大.)

[编辑] 商业例子:广告战

商业活动中亦会出现各种囚徒困境例子.以广告竞争为例.

两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入.但若二者同时期发出质量类似的广告,收入增加很少但成本增加.但若不提高广告质量,生意又会被对方夺走.

此二公司可以有二选择:

互相达成协议,减少广告的开支.(合作)

增加广告开支,设法提升广告的质量,压倒对方.(背叛)

若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境.在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中.

[编辑] 自行车赛例子

自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释.例如每年都举办的环法自行车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中.而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略.通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛).而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力.

[编辑] 与囚徒困境相关的各事件

[编辑] 异想

威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境.在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸.当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生.这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境.并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果.这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”.[3]

[编辑] “认罪减刑”不可行

囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一.囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛).最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多.

[编辑] 公用品悲剧

现实的博弈参与者不只一方,会有多方参与的囚徒困境.加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果).但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境.就是说只有二方的囚徒困境,没有多方的.所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉.

[编辑] 重复的囚徒困境

罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD).在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗.阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争.参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等.

阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用.他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来.

最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的 *** .它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛.这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略.更好些的策略是“宽恕地以牙还牙”.当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下.这是考虑到偶尔要从循环背叛的受骗中复原.当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的.这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了.

通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件.

友善

最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛.几乎所有的高分策略都是友善的.因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手.

报复

但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者.要始终报复.一个非报复策略的例子是始终合作.这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜.

宽恕

成功策略的另一个品质是必须要宽恕.虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作.这停止了报复和反报复的长期进行,最大化了得分点数.

不嫉妒

最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数).

因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒.阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易.

重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上.有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复)竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现.(例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使.)这可能是一次性博弈和重复性博弈中的理性行为不同的例子.

对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的.但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应.例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略.这个人处于一种轻微的不利地位,因为第一回合的损失.在这样的人群中,对这个人来说最佳策略就是每次都背叛.在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度.

一般有两种 *** 得到最佳策略:

贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略[4].

已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法).决赛人群中的算法合成通常依赖于初赛人群中的算法合成.

尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)[1]领导,包括了拉蒂普·达什(Rajdeep Dash)、萨瓦帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁克里士南·维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功.这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数.南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别.一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数.如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分.结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置.虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的.在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略.

如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实.纳什均衡就是每次都背叛.这很容易用归纳法证明.你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你.因此,你们都将在最后的回合背叛.这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛.依此类推.为了合作以保持请求,这时未来必须对两个参与者来说是不确定的.一个解决方案是让博弈总次数N变成随机的.对未来的预期必须是无法确定的长度.

另一个单独的案例是“永不停止”的囚徒困境.这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的).

囚徒困境博弈是某些人类合作和信任理论的基础.假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟.这从而引起了许许多多学者经久不衰的兴趣.1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过2000篇.

[编辑] 学习心理学和博弈论

当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响.简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏.如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损.随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈.不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多.这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者.

群体中背叛的可能性,可以被合作的经验所削弱[6],因为先前的博弈建立了信任.因此自我牺牲行为可以,例如,加强团体的道德品质.如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈.这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足.这类 *** 主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及.

[编辑] 相关的博弈

[编辑] 封闭袋子交易

霍夫施塔特2曾提出像囚徒困境的问题.他提出“密封袋子交易”,他认为以这简单博弈题,有助人们理解此论题.

“密封袋子交易”:甲、乙两人面对面交换密封的袋子,双方的共识是甲的袋放钱、乙的放商品.双方各自可以诚实地把东西放到袋子,然后交换;又或者交空袋子给对方,选择背叛.

在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛.这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场.

[编辑] 是敌是友?

“是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映.这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的.这个竞赛表演有三对人参与竞争.当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品.如果他们都合作(“朋友”),他们的奖品就被平分.如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到.如果双方互相背叛,那么两人都一无所获.注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“互相背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的.和标准囚徒困境的稳定均衡相比,“互相背叛”是不稳固的均衡(weak equilibrium).如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品.在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型.

这个支付矩阵是:

如果参与者都合作,每人得到 +1.

如果都背叛,每人得到 0.

如果甲合作而乙背叛,甲得到0而乙得到 +2.

是敌是友对于想对囚徒困境作现实分析的人将是有用的.注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来.

在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善.可能“打破制度”的 *** 将是一个参与者告诉他的对手:“我会选择做敌人.如果你相信我后来会和你分奖品的话,就选择做朋友.否则,如果你选择做敌人,我们都会空手而回.”一个更贪婪的版本将是:“我将选择做敌人.我会给你百分之X,剩下的百分之(100-X)归我.所以,要或不要,要么我们都得到一些,要么我们都一无所获.”(在最后通牒博弈中时.)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友.基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话.

在竞赛中这个 *** 从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益.(最后通牒博弈中尝试了这个 *** ,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝.)

6个例子让你彻底明白,什么是纳什均衡

电影《美丽心灵》的主人公原型——约翰·纳什因车祸去世。你也许听说过他是厉害的数学家、1994 年诺贝尔经济学奖得主、博弈论之父……但是,他的最大贡献是“纳什均衡”。

那么问题来了,纳什均衡到底是个什么鬼?

我们先来看看纳什均衡的经济学定义:

所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。

是不是看完几乎没什么概念?

我们先用个常见的现象试图解释下,例如价格战。生产同一样产品的若干厂家会形成一个稳定的状态,在这个状态下各家所卖的产品价格保持基本一致,在这种情况下各方就形成了一个“纳什均衡”。

若其中一方打破默契,开始大幅降价,以求薄利多销,获取更大利润,那么其他家便会很快跟进,互相压价。刚开始降价的一方短期内可能会增加销量和利润,但最终的结果是两败俱伤。

下面我将给大家举几个经典的例子,以便大家更深刻地理解约翰·纳什这位奇才留给我们的精神遗产。

1囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌 疑人,警方给出的政策是:

如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8 年。

如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。

如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。

关于案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,首先应该是从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论,假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:

假如他坦白,如果我抵赖,得坐10年监狱,如果我坦白最多才8年;假如他要是抵赖,如果我也抵赖,我就会被判一年,如果我坦白就可以被释放,而他会坐10年牢。综合 以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这 样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。

基于经济学中Rational agent的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判处一年就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局,纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战:按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

1 *** 博弈

彼此痛恨的甲、乙、丙三个 *** 准备决斗。甲枪法最好,十发八中;乙枪法次之,十发六中;丙枪法最差,十发四中。

先提第一个问题:如果三人同时开枪,并且每人只发一枪;第一轮枪战后,谁活下来的机会大一些?

一般人认为甲的枪法好,活下来的可能性大一些。但合乎推理的结论是,枪法最糟糕的丙活下来的几率最大。

我们来分析一下各个 *** 的策略。

*** 甲一定要对 *** 乙先开枪。因为乙对甲的威胁要比丙对甲的威胁更大,甲应该首先干掉乙,这是甲的最佳策略。

同样的道理, *** 乙的最佳策略是第一枪瞄准甲。乙一旦将甲干掉,乙和丙进行对决,乙胜算的概率自然大很多。

*** 丙的最佳策略也是先对甲开枪。乙的枪法毕竟比甲差一些,丙先把甲干掉再与乙进行对决,丙的存活概率还是要高一些。

但是在第一轮枪战后,丙有可能面对甲,也可能面对乙,甚至同时面对甲与乙,除非第一轮中甲乙皆死。尽管第一轮结束后,丙极有可能获胜(即甲乙双亡),但是第二轮开始,丙就一定处于劣势,因为不论甲或乙,他们的命中率都比丙的命中率为高。

这就是 *** 丙的悲哀。能力不行的丙玩些花样虽然能在第一轮枪战中暂时获胜。但是,如果甲乙在第一轮枪战中没有双亡的话,在第二轮枪战结束后,丙的存活的几率就一定比甲或乙为低。

这似乎说明,能力差的人在竞争中耍弄手腕能赢一时,但最终往往不能成事。

我们现在改变游戏规则,假定甲乙丙不是同时开枪,而是他们轮流开一枪。在这个例子中,我们发现丙的机会好于他的实力,丙不会被第一枪干掉,并且他可能极有机会在下一轮中先开枪。

先假定开枪的顺序是甲、乙、丙,甲一枪将乙干掉后(80%的几率),就轮到丙开枪,丙有40%的几率一枪将甲干掉。即使乙躲过甲的第一枪,轮到乙开枪,乙还是会瞄准枪法最好的甲开枪,即使乙这一枪干掉了甲,下一轮仍然是轮到丙开枪。无论是甲或者乙先开枪,乙都有在下一轮先开枪的优势。

如果是丙先开枪,情况又如何呢?

丙可以向甲先开枪,即使丙打不中甲,甲的最佳策略仍然是向乙开枪。但是,如果丙打中了甲,下一轮可就是乙开枪打丙了。因此,丙的最佳策略是胡乱开一枪,只要丙不打中甲或者乙,在下一轮射击中他就处于有利的形势。

我们通过这个例子,可以理解人们在博弈中能否获胜,不单纯取决于他们的实力,更重要的是取决于博弈方实力对比所形成的关系。

在上面的例子中,乙和丙实际上是一种联盟关系,先把甲干掉,他们的生存几率都上升了。我们现在来判断一下,乙和丙之中,谁更有可能背叛,谁更可能忠诚?

任何一个联盟的成员都会时刻权衡利弊,一旦背叛的好处大于忠诚的好处,联盟就会破裂。在乙和丙的联盟中,乙是最忠诚的。这不是因为乙本身具有更加忠诚的品质,而是利益关系使然。只要甲不死,乙的枪口就一定会瞄准甲。但丙就不是这样了,丙不瞄准甲而胡乱开一枪显然违背了联盟关系,丙这样做的结果,将使乙处于更危险的境地。

合作才能对抗强敌。只有乙丙合作,才能把甲先干掉。如果,乙丙不和,乙或丙单独对甲都不占优,必然被甲先后解决。、

1966年经典电影《黄金三镖客》中的最后一幕,三个主人公手持枪杆站在墓地中,为了宝藏随时准备决一死战。为了活着拿到宝藏,幸存下来的最优策略是什么呢?

《生活中的概率趣事》一书中用概率的 *** 进行了严密的推理计算,给出了最优解,具体的计算步骤详见《生活中的概率趣事》书中P56—P57。

1

赤壁之战

那时,曹操势力最强,孙权次之,刘备最弱。为了抵抗强大的曹操,孙刘两家只有联合起来,取胜的几率才比较大。孙权就相当于前面例子中的乙,是孙刘联盟中最卖力的成员。在赤壁之战中,孙权出力最多,刘备实际上没出多少力。《三国演义》夸大了诸葛亮对赤壁之战的贡献,当时孙刘联军的统帅实际上是周瑜,周瑜在赤壁之战的功劳远大于诸葛亮。

1

蒙古联合南宋灭金

当时,蒙古军事实力最强,金国次之,南宋武力最弱。本来南宋应该和金国结盟,帮助金国抵御蒙古的入侵才是上策,或者至少保持中立。但是,当时的南宋采取了和蒙古结盟的政策。南宋当局先是糊涂地同意了拖雷借道宋地伐金。1231年,蒙古军队在宋朝的先遣队伍引导下,借道四川等地,北度汉水歼灭了金军有生力量。

1233年,南宋军队与蒙古军队合围蔡州,金朝最后一个皇帝在城破后死于乱兵,金至此灭亡。1279年,南宋正式亡于蒙古。

如果南宋当政者有战略眼光,捐弃前嫌,与世仇金结盟对抗最强大的敌人蒙古,宋和金都不至于那么快就先后灭亡了。

1智猪博弈

猪圈里面有两只猪, 一只大,一只小。猪圈很长,一头有一个踏板,另一头是饲料的出口和食槽。每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只 猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪 会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。

那么,两只猪各会采取什么策略?令人出乎意料的是,答案居然是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在呢?

因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。

“智猪博弈”的结论似乎是,在一个双方公平、公正、合理和共享竞争环境中,有时占优势的一方最终得到的结果却有悖于他的初始理性。

这种情况在现实中比比皆是。

比如,在某种新产品刚上市,其性能和功用还不为人所熟识的情况下,如果进行新产品生产的不仅是一家小企业,还有其他生产能力和销售能力更强的企业。那么,小企业完全没有必要作出头鸟,自己去投入大量广告做产品宣传,只要采用跟随战略即可。

“智猪博弈”告诉我们,谁先去踩这个踏板,就会造福全体,但多劳却并不一定多得。

在现实生活中,很多人都只想付出最小的代价,得到最大的回报,争着做那只坐享其成的小猪。“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝”说的正是这样一个道理。这三个和尚都想做“小猪”,却不想付出劳动,不愿承担起“大猪”的义务,最后导致每个人都无法获得利益。

智猪博弈与“枪打出头鸟”

一个很常见的现象就是在企业中,不论国企还是民企或是外企,在企业内部总会存在各种各样的小团体。套用组织行为学的***术语来说就是存在各种非正式组织。而每一个团体都代表了一部分人的利益,因此不可避免地会产生冲突。

这时,每个团体都会推选出各自的代言人。这些代言人是为集体利益(如争取加薪或增加福利等)作出积极行动的领头人。但我们这时会发现,被推选为代言人的总是那些胸无城府、意气用事的人。

然而,群体活动的最大受益者“小猪”们则永远躲在幕后。活动成功了,他们可以毫发无伤地优先分到一杯羹;如果失败了,他们也可以发表一通与我无关,我是受害者之类的演讲,让“大猪”成为永远的牺牲者。从另一个角度来看,懂得智猪博弈对于个人并非是件坏事。

1证券市场中的“智猪博弈”

金融证券市场是一个群体博弈的场所,其真实情况非常复杂。在证券交易中,其结果不仅依赖于单个参与者自身的策略和市场条件,也依赖其他人的选择及策略。

在“智猪博弈”的情景中,大猪是占据比较优势的,但是,由于小猪别无选择,使得大猪为了自己能吃到食物,不得不辛勤忙碌,反而让小猪搭了便车,而且比大猪还得意。这个博弈中的关键要素是猪圈的设计, 即踩踏板的成本。

证券投资中也是有这种情形的。例如,当庄家在底位买入大量股票后,已经付出了相当多的资金和时间成本,如果不等价格上升就撤退,就只有接受亏损。

所以,基于和大猪一 样的贪吃本能,只要大势不是太糟糕,庄家一般都会抬高股价,以求实现手中股票的增值。这时的中小散户,就可以对该股追加资金,当一只聪明的“小猪”,而让 “大猪”庄家力抬股价。当然,这种股票的发觉并不容易,所以当“小猪”所需要的条件,就是发现有这种情况存在的猪圈,并冲进去。这样,你就成为一只聪明的 “小猪”。

从散户与庄家的策略选择上看,这种博弈结果是有参考价值的。例如,对股票的操作是需要成本的,事先、事中和事后的信处理,都需要金钱与时间成本的投入,如行业分析、企业调研、财务分析等。

一旦已经付出,机构投资者是不太甘心就此放弃的。而中小散户,不太可能事先支付这些高额成本,更没有资金控盘操作,因此只能采取小猪的等待策略。等到庄家动手为自己觅食而主动出击时,散户就可以坐享其成了。

股市中,散户投资者与小猪的命运有相似之处,没有能力承担炒作成本,所以就应该充分利用资金灵活、成本低和不怕被套的优势,发现并选择那些机构投资者已经或可能坐庄的股票,等着大猪们为自己服务。

由此看到,散户和机构的博弈中,散户并不是总没有优势的,关键是找到有大猪的那个食槽,并等到对自己有利的游戏规则形成时再进入。

遗憾的是,在股市中,很多作为“小猪”的散户不知道要采取等待策略。更不知道让“大猪”们去表现,在“大猪”们拉动股票价格后从中获取利润,才是“小猪”们的最佳选择。

作为“小猪”,还要学会特立独行。行动前,不用也不需要从其他“小猪”那里得到肯定;行动时,认同且跟随你的“小猪”越多,则你出错的可能也就越大。简单地说,就是不要从众,而是跟随“大猪”。

当然股市中的金融机构要比模型中的大猪聪明的多,并且不守游戏规则,他们不会甘心为小猪们踩踏板。事实上,他们往往会选择破坏这个博弈的规矩,甚至重新建立新规则。

比如他们可以把踏板放在食槽旁边,或者可以遥控,这样小猪们就失去了搭便车的机会。例如,金融机构和上市公司串通,散布虚假的利空消,这就类似于踩踏板前骗小猪离开食槽,好让自己饱餐一顿。

当然金融市场中的很多“大猪”也并不聪明,他们的表现欲过强,太喜欢主动地创造市场反应,而不只是对市场作出反应。短期来看,他们可以很容易地左右市场,操纵价格,做胆大妄为的造市者。

这些“大猪”们并不知道自己要小心谨慎、如履薄冰,他们不知道自己的力量不如想象的那样强大到可以无敌于天下。自然而然地,每一年都会有一些高估自己的“大猪”倒下,幸存的“大猪”在经过优胜劣汰之后会变得更加强壮。

不过,无论是多么强壮的“大猪”,只要过于自信、高估自己控制市场的能力,总会倒下。

俗话说“家家有本难念的经”,在股市中,“大猪”有“大猪”的难处,“小猪”有“小猪”的难处。尽管“大猪”“小猪”只要了解自身处境,采取相应的策略就会成功,然而理性是有限的,确定的成功总是很难获得。

文末福利:纳什均衡的扩展应用

我们把男生女生分成ABCD四等来看,由于男性的控制性倾向,导致其一般会降格选择异 *** ,因此现实中的典型配对是:A男配B女,B男配C女,C男配D女,A女与D男轮空。

A女(鲜花)确定D男(牛粪)没人要,而D男确定A女追不到。这导致了两个最有可能的均衡策略:A女如果在某种情况下选择了D男,则D男一定会接受;D男去追A女则肯定不会有结果。但反正D男

什么是纳什均衡?能不能举个简单的例子

纳什均衡是一种策略组合,使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。

假设有n个局中人参与博弈,如果某情况下无一参与者可以独自行动而增加收益(即为了自身利益的最大化,没有任何单独的一方愿意改变其策略的[1] ),则此策略组合被称为纳什均衡。所有局中人策略构成一个策略组合(Strategy Profile)。纳什均衡,从实质上说,是一种非合作博弈状态。

纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,需要注意的是,只有最优策略才可以达成纳什均衡,严格劣势策略不可能成为最佳对策,而弱优势和弱劣势策略是有可能达成纳什均衡的。在一个博弈中可能有一个以上的纳什均衡,而囚徒困境中有且只有一个纳什均衡。

案例

囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌 疑人,警方给出的政策是:

如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8 年。

如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。

如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。

关于案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,首先应该是从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论,假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:

假如他坦白,如果我抵赖,得坐10年监狱,如果我坦白最多才8年;假如他要是抵赖,如果我也抵赖,我就会被判一年,如果我坦白就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这 样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。

基于经济学中Rational agent的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判处一年就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局,纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战:按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

关于纳什均衡通俗例子的内容到此结束,希望对大家有所帮助。

本文标签: 例子通俗