《网络、群体与市场》书摘


网络、群体与市场:揭示高度互联世界的行为原理与效应机制/(美)大卫·伊斯利(David Easley),(美)乔恩·克莱因伯格(Jon Kleinberg)著;李晓明等译. --北京:清华大学出版社,2011.10
ISBN 978-7-302-26417-0


第1章 概述

  图论是研究网络结构的,博弈论提供了关于个体行为的一种模型,要点在于个体行为的结果取决于其他个体的行为。这两个理论是讨论本书其他内容的基础。

图论

  强联系(strongties),表示紧密和频繁的社会接触,倾向于嵌人在网络中联系密集的区域;弱联系(weakties),表示比较偶然和少有的社会接触,倾向于跨越这些区域的边界。它提供了一种了解大型组织中社会性概貌的策略,即要在网络中找到那些相互很少联系的不同部分之间的结构洞(structuralholes)。在一种全局的尺度上,它说明弱连接可以作为“超近道”使其不同部分连接起来的方式,导致俗称为六度分隔(sixdegreesofseparation)的现象。

博弈论

  在有些情形下,人们必须同时选择如何行动,并知道行动的结果将取决于所有人分别做出的决定。我们关于博弈论的讨论就从这样的观察开始。一个自然的例子是在交通高峰期在一个高速公路网络选择行车路线的问题。此时,对司机来说,他所体验到的延退取决于交通拥塞的情况,但这种情况不仅与他选择的路线有关,而且与所有其他司机的选择也有关。在这个例子中,网络的角色是一个共享资源,它的用户的综合行为既可以使它拥堵,也可能使对它的利用效率提高。而且,人们之间行为的相互作用可能导致某些违反直觉的结果。比如,增加一个运输网络的资源,可能事实上反而造成了严重影响网络效率的透因,这种现象称为布雷斯悖论(Braess’sParadox)。
  作为博弈论的一个基础,我们将这种情形抽象成在一个共同框架中相互依赖的行为,其中有一个个体的集合,每个个体必须认定一种策略(strategy),从而得到一个回报(payoff),而回报的多少取决于集合中每个人分别选择的策略。用这种观点来解释前面的例子,我们看到一个司机在高速公路上可采用的策略由他可能选择的不同路线构成,回报则是与他最后所花的行驶时间对应。对于拍卖来说,策略是不同的出价选择,对一个买家的回报则是其得到的物品的价值和所支付的价格之间的差别。这个通用的框架使我们能在许多这样的情形中预测人们的行为。这个框架的一个基本要素是均衡(cquilibrium)的概念,指的是一种“自我强化”的状态,在该状态上,任何人都不可能从单方面改变他或她的策略中得到好处,即便他知道其他人会怎么行为。

信息网络

  搜索引擎与网页作者之间的互动也是一个很有说服力的例子,反映出行为层次的联系可产生有趣结果。只要搜索引擎引人一种新的网页评价方法来确定哪些网页该放在搜索排序结果的高位,网页内容的创建者就会有反作用:他们会优化放到 Web 上的内容,试图在新的方法下获得较高的排序评分。这样,搜索引擎的改变从来就不能假设 Web 保持静止不变,实际情况是 Web 上的内容会不可避免地来适应搜索引擎对网页内容评估的方式。因此,在发展搜索方法的时候必须考虑这种反馈的作用。
  这种本质上具有博弈特性的互动,在早期 Web 的时候就以某种潜在的形式存在了。随着时间的演进,它通过基于搜索的广告市场的设计,以拍卖机制进行广告空间的分配(竞价排名)等措施,变得越来越显式和形式化了。今天,这样的市场是主流搜索引擎的基本收入来源。

##网络动力学:人群效应
  如果长时间观察一个大的人群,会看到一个重复出现的模式,其中新的想法、观念、创新、技术、产品,以及社会习惯不断地涌现和演变。概括之,称它们为社会实践(social practices)。人们可以选择采纳或拒绝这些社会实践。新的实践在人群中扩散开来的方式,很大程度上取决于人们相互影响。当一个人看见越来越多的人在做某件事情,通常他也很可能会去做那件事。
  从表层来看,我们可以假想人们模仿他人,只是因为人类的从众心理,即我们本质上倾向于像其他人那样行事。这个观察显然是重要的,但为了能用它解释我们关心的现象,还有一些关键问题需要解决。不能因为认定了模仿是人类的天性,而不去探求人们为什么被他人影响的问题。虽然这是一个涉及面较宽,而且很难的问题,但事实上我们有可能认识到若千原因,回答为什么即便是纯粹理性的代理(指那些没有什么先验愿望要和别人保持一致的个体),也会复制他人的行为。
  一类原因是基于“他人行为传达信息”的事实。一个人可能基于某些私有的信息来在多种可能性上做出决定,于是当看到许多人都在做一个特别的决定,很自然会假设他们也都有各自的信息,试图从人们的行为来推测他们是怎么评估不同选择的。在 YouTube 和 Flickr 这类网站的情形,看到许多人都在用,会使人感到他们知道某些关于该网站质量的情况。类似地,看到一个餐馆每个周末都特别爆满,会使人感到许多人都认为它很好。但这种推理会产生一个微妙的问题,令人吃惊:由于许多人是随时间的推进相继做出决定的,后来的决定可能是基于私有信息和推理的一种复杂的混合物,而推理是从已发生的情况做出的。这样,许多人的行动可能事实上只是基于极少的本质信息。在这种现象极端的情形,我们可以看到信息连锁反应(informationcascades),即使理性的个体也会选择放弃他们自己的私有信息,而去随大流。
  还有一个完全不同,但足够重要的理由,说明人们为什么要去模仿他人的行为。在一种直接利益驱使下,一个人可能会选择使自己的行为与他人一致起来,而不管他们做出的决定是否最好。回过头再来看社会网络与媒体共享网站的例子。如果那些网站对人们的价值在于和其他人互动、能够访问许多内容或者有大量的用户来注意到你上载内容等方面的潜力,那么网站会随着人们的加入变得越来越有价值。换句话说,不管 YouTube 和它的竞争者相比是否有更好的特点,一旦它成为最流行的视频共享网站,使用它就注定会提供附加值。这种网络效应(networkeffects)会放大那些已经很不错的产品和技术的成功。在网络效应起作用的市场,要取代领导者会是很困难的。然而,这种支配地位又不一定是永恒的,后面还将看到,如果新技术提供某些显著不同的东西,或者它始于网络中有空间让新技术立足的部分,新旧更替就是有可能的。
  这些讨论表明,流行性作为一般的现象是怎么被“富者更富”反馈过程所支配的,在这种反馈过程中,流行性倾向于自我提高。

网络动力学:结构效应

  信息与直接利益,作为人们相互影响的基本机制,在许多情形,相比整个人群,你会更在意你自己的行为是否与社会网络中直接相邻的人们一致。
  当个人有动机去采纳网络中邻居的行为,可能会出现连锁反应(cascadingcffects),即新的行为始于少量初始的实践者,然后通过网络迅速扩散。图 1.11 是一个小例子,说的是从 4 个最初的买者开始,一本日本图画小说通过电子邮件被推荐的情况。通过对背后的网络结构进行推理,会看到一种先进技术如果始于网络中能够引起增量推广的部分(每次增量不一定很大),是怎么取代尽管是广为使用但落后的技术的。技术的扩散,有可能被阻止在网络中一个密集相连的群集的边界,那样的群集即为一种“封闭的社区”,其中的人们有大量相互之间的联系,从而形成对外来影响的阻力。

机构和聚合行为

  考虑市场聚合与传达信息的作用。例如,在金融市场,市场价格聚合了人们关子交易对象价值的信念。在这个意义下,市场的总体作用是综合许多参与者所掌握的信息,因此当人们谈及市场“预期”,实际上说的就是这种信息组合所带来的预期。

第2章 图论

  图(graph)是以一种抽象的形式来表示若干对象的一个集合以及这些对象之间的关系。一个图包含一组元素以及节点与节点之间连接关系的集合,这些元素称为节点(node),连接关系称为边(edge)。两节点间有边相连时称此二节点为邻居(neighbors)。以圆圈表示节点,以连接节点的线段表示边。
  路径(path)即一个节点序列的集合,序列中任意两个相邻节点间都有一条边相连。
  圈是至少包含三条边,且起点和终点相同,而除此以外的所有节点均不重复的路径。也就是“环状”结构。

  事实上,在 1970 年 ARPA 计算机网的例子中,每一条边均属于一个圈,而这是事先设计好的。这是因为,假设任意一条边失效(例如一条电缆因施工原因被意外切断),图中的任意两点间总有另外一条路径相连。一般而言,在通信和交通网中,圈通常意味着允许元余,它们通过圈提供了“另一条路”。类似的情况在社交圈或朋友圈中亦然,甚至于在日常生活中也普遍存在,尽管有时我们并没有察觉。例如,你太太的表弟高中时代的好朋友实际上是你哥哥的同事,这就是一个圈——包含你、你的太太、你太太的表弟、你太太表弟高中时代的好友以及好友的同事(也就是你的哥哥),最终回到你这里。
  连通分量(或称连通分支,connected component):若图 G 的节点子集满足如下两个条件:①子集中任意两个节点间均有路径相连;②该子集不是其他任何其他满足条件①的子集的一部分,则称该子集为图 G 的一个连通分支。

  路径的长度为其所包含的边数。

  假若你有一个出生在另一国家的朋友:通过他,到他父母,再到他们的朋友,仅仅三步,你就可能联系到世界上另一个截然不同的角落,路径终端的那些人很可能和你毫无共同点可言。这便是著名的小世界现象(small-world phenomenon)。当你发现,通过如此短的朋友路径,即可联系到几乎世界上的任何人,世界也因此看上去变小了。相比之下,与之相关的六度分隔理论也许为更多人所知。
  若我们把每个人看一个小型社交圈的中心,那么“6 小步的距离”即转变为“6 个社交圈的距离”,对于相同问题的不同视角让“6”在此听起来像是一个很大的数了。

第3章 强联系和弱联系

  三元闭包(triadicclosure):如果节点 B 和节点 C 有一个共同的朋友 A,则 B 和 C 之间一条边的形成就产生了三个节点彼此相连的情形。在网络中,称该结构为三角形结构。“三元闭包”名称的由来,源于 BC 边在该三角结构中为起到“闭合”作用的第三条边。当观察同一社交网在不同时间点的两个网络快照,则通常会发现在后来的快照中,有相当数量通过三元闭包产生的新边出现,即两个在前一张快照中有共同朋友的人,在后来的快照中也成为朋友。
  当 B 和 C 有一个共同的朋友 A,他们成为朋友的几率就会增加。原因之一在于,他们和 A 的关系,直接导致他们彼此见面几率的增加:如果 A 花时间同时与 B 和 C 在一起,则 B 和 C 很可能因此认识彼此,并成为朋友。另一个相关的原因是,在友谊形成的过程中,B 和 C 都和 A 是朋友的事实(假定他们都知道这一点)为他们提供了陌生人之间所缺乏的基本的信任。
  如果 A 同时与 B 和 C 都是朋友,则若 B 与 C 不是朋友的事实可能成为 A 与 B 和 C 友谊的潜在压力。

  为了简化概念,并与我们的朋友/熟人二分原则相匹配,将社交网中的所有关系归为两大类:强联系(较强的关系,相对应朋友关系)和弱联系(较弱的关系,相对应熟人关系)。

  捷径(localbridge):若边 A-B 的端点 A 和 B 没有共同的朋友,则称边 A-B 为捷径。换何话说,删除该边将把 A 和 B 的距离增加至 2 以上(不含 2),则称该边为捷径。我们定义捷径的跨度为该边两端点在没有该边情况下的实际距离。

  组织或公司的社会网络,其中的人们一方面为共同的目标而合作,另一方面为个人职业生涯的发展暗自竞争。

展开图片

  把网络想象成表示在大型公司内部管理者之间的交往和合作。节点 B 用与她有关的多条捷径跨越了组织里的一个结构洞(structuralhole)。结构洞就是存在于网络中两个没有紧密联系的节点集合之间的“空地”。节点 B 所处的位置在多个方面要比节点 A 的位置优越。第一种优势在于信息方面:节点 B 可以更早地获得来自网络中多个互不交叉部分的信息。每个人投入在维护组织中联系的精力有限,节点 B 通过积极联系多个不同的群体(而不是仅限于某个群体)更有效地投入自己的精力。
  第二种优势在于,处在捷径的一端对其创造性有放大功能。许多领域的经验表明,创新常常源自多个观点的意外合成,这里的每个观点本身或许是人们熟知的,但只是在不同且不相关的专业领域内部所熟知。因此,位于三个无交互群体交界处的节点 B,不仅可以得到这些群体的所有信息,还有机会整合来自不同群体的信息。
  最后,网络中节点 B 的位置意味着某种社交“把关”的机会,该节点不仅可以控制节点 C 和 D 访问她所属的群体,还可以控制她所属的群体从节点 C 和 D 的群体获取信息。这样,这个位置给予 B 一种权力资源。可以想象,B 会试图阻止他们所在的捷径周边形成三角形,例如从节点 C 或 D 产生一条到达 B 所在群体另一节点的边,很有可能会削弱 B 的社交“把关者”的地位。
  这最后一点表明了节点 B 的利益不一定与其所属的群体整体的利益一致。对于组织机构而言,促进不同群体间的信息交流是有益的,但联系桥梁的建立会有损 B 自身在这些群体边界的权力。
  总之,节点 A 和 B 的相对位置各有利整。节点 B 在群体间交界的位置,说明她的交往不是嵌人在单一群体里,于是也很少得到网络邻居们的保护。另一方面,这种较冒风险的位置为她提供了访问多个群体信息的机会,可以控制信息流和重新整合这些信息。

  社会资本代表着执行者通过在社会网络或其他社会结构中的成员地位保障其利益的能力。

第4章 网络及其存在的环境

  同质现象:我们和自己的朋友间往往会有相同的特点。总体上看,朋友在种族和观念方面有着很多相似之处;处于相当的年纪;还具有很多相似特征,包括居住的地方、职业、经济情况、兴趣、信仰及价值观。普遍的事实是,在社交网络中互相连接的人倾向于相似。

  人们通常会与同自己相似的人们建立社会连接,这是关于社会网络结构形成的一种认识。
  
  社会化:人们会因为需要和朋友们保持一致而改变自己的行为。这个过程被描述为社会化(socialization)和社会影响(social influence),由于网络中存在的社会联系影响了节点个体的特征。社会影响可以看成是和选择相反的观念:在选择中,个体的特征主导网络连接的形成,但在社会影响中,已存在的社会网络连接将会改变人们(可变)的特征。

  在青年人群中,他们的行为与其朋友很相似,选择和社会影响都在此情况下发挥作用:青年人在社交圈内寻找与他们相似的人,且他们会因同龄人的压力而追使自己改变行为,以便更适应他们的社交圈。来自同龄人间压力的外界因素(即社会影响)作用并没有那么大,而选择的作用实际上是与社会影响的作用相当(有时会更大)。

  研究发现肥胖人群和非肥解大群程网络中都以与同质性一致的方式聚集。在一个社交网络中,人们的肥胖状况倾向子与周围的邻里相近。
  肥胖症显示出一种社会影响,你朋友的肥胖状况的变化也将间接使你受到影响。肥胖症可能像“传染病”一样传播:虽然你不一定像被传染流感一样从你的朋友那儿“感染”肥胖症,但你仍有可能因社会影响下的某种潜在机制被其影响。也许,该发现同样适用于那些具有明显行为特征的其他一些健康问题。

第6章 博弈

  博弈论是用来研究这样一种情境,即人们的决策结果不仅取决于他们如何在不同的备选项之间进行选择,而且取决于他们所互动的他人所做出的选择。博弈论的思想出现在许多不同的背景之中。在一些背景中表现为字面上的博弈,比如可以用博弈论的工具来分析如何选择球员罚点球以及如何进行防守。另外一些背量并不总是被人们称为博弈,但也可以用同样的工具加以分析。这样的例子包括:当市场上已经有某一产品时,生产相似新产品的定价问题;在拍卖会上确定如何投标竞价;选择因特网或者交通网络作为一种运输路径;在国际关系中选择一种比较强硬的立场还是比较温和的立场;在职业体育比赛中选择是否服用兴奋剂。在这些例子中,每一个决策者的选择结果都取决于别人的决策。这就为博弈论的分析提供了一种策略要素。

何谓博弈

  博弈论关注的背景是决策者彼此之间是进行互动的,即前言提到的行为的相互连通性。每个参与者对结果的预期不仅取决于自身的决策,而且取决于互动的他人所做出的选择。

  在博弈论框架中,没要求参与者只关心白已。假设存在利他主义者的参与人,则参与人可能不仅关心他/她自己的收益,还会关心其他参与人的收益。

  1. 第一个案例
  假设你是一名大学生,在规定的截止日期前一天,你有两项需要准备的工作。一是考试,二是报告。此时,你需要考虑在为考试而复习和为报告而准备二者之间做取舍。为使例子表达更加清晰,我们将利用一些假设。首先,我们假设你可以在为考试复习或者为报告做准备间进行选择,但只能选择一种。其次,我们假设在不同决策结果公布之前,你对预期成绩有准确估计。
  考试结果易于预测。假设进行复习,则预期成绩是 92 分。但是,假设没有复习,则预期成绩是 80 分。
  报告需考虑的因素稍为复杂。因为报告是你和拍档的联合性互动行为。假设你和拍档都做了充分准备,则报告会十分的完美,因而你们预期的共有成绩是 100 分。假设只有一人做了准备(另外一个拍档没有为报告准备),则你们的预期共有成绩是 92 分。假设两个人都不做准备,你们的预期共有成绩是 84 分。
  这个例子在推理时需注意,所有这些对你拍档也是一样的。对于考试,假设他会有同样的预期结果。假设进行复习,则会得到 92 分,假设没有进行复习,则得到是 80 分。同样地,他也必须在复习考试或是准备报告之间做出抉择。进一步假设,你们彼此不能相互接触,所以,你们不能共同商讨行为选择。而且,在彼此进行独立决策时,彼此都知道对方也在进行决策。
  假设你们都追求得到平均成绩的最大化,则可以通过上面的结论来理解,这种平均成绩是如何通过彼此之间投人的努力决定的:

  • 假设你们都选择准备报告,则彼此都将在报告得分 100 分,考试得分 80 分,每个人的平均成绩是 90 分。
  • 假设你们都选择复习考试内容,则都将在考试的得分是 92 分,在报告的得分是 84,每个人的平均成绩是 88 分。
  • 假设一方复习考试,同时另一方准备报告,则得分结果就如下所示:
    • 为报告准备一方在报告的得分是 92 分,但是在考试的得分是 80 分,这方的平均成绩是 86 分。
    • 另一方面,选择复习考试一方在报告的得分是 92 分,因为报告成绩是共有成绩,这方因对方的准备报告行为而获益,通过复习行为,这方在考试的得分是 92 分,所以他会获得的平均成绩是 92 分。
        如下所示,将通过简单的方法总结这些得分结果情况。此处,是通过 2×2 表格的行代表你的两种选择行为:是准备报告或是复习考试的选择。也同样通过 2×2 表格的列代表你拍档的两种选择行为。所以,2×2 表格中的每个单元格都代表你们的一种联合选择行为。在每个单元格中记录你们的平均成绩:左侧是你的成绩,右侧是你拍档的成绩。全部的记录结果,如图 6.1 所示。
      展开图片

        2×2 表格巧妙地表现了博弈论背景的设置。现在,需要决定行为选择:是准备报告,或是复习考试?很显然,各自的平均成绩不仅取决于个体在这两个备选项之间进行选择,还取决于你拍档的决策,即互动的他人的选择。因此,作为各自决策的一部分,参与方必须对对方可能性行为进行合理推理。当考虑自己策略的后果时,必须想到他人决策的影响,这正是博弈论的用武之地。所以,在分析考试或报告例子的结果之前,先介绍博弈论的一些基本定义,然后再继续用博弈论语言加以讨论。
        2. 博弈的基本要素
        刚描述的情景实际是一个博弈的例子。一般情况下,任何背景中的博弈都具有以下这三个方面特征。
        (1)存在一组参与者(不少于两个),不纺称之为博弈参与人。就上例而言,你和你的拍档就是两个参与人。
        (2)每个参与人都有一组关于如何行为的备选项,此处备选项指参与人的可能策略。在例子中,你和你的拍档彼此都有两个可能性策略。即准备报告和复习测试。
        (3)每个策略行为的选择,都会使参与人得到一个收益。当然,这个收益结果还受互动中他人策略选择的影响。一般用数字表示收益。每个参与人都倾向于更大的收益。在上例中,每个参与人在测试和报告上取得成绩的平均,就是参与人的收益。一般通过如图 6.1 所示的收益矩阵来记录不同收益情况。
        我们感兴趣的关注点是在给定的博弈中,推理参与人如何进行策略行为抉择。目前,讨论的重点将侧重在双人博弈类型。但是,这种分析观点可推广到任意数量参与人的博弈。同时,我们将会集中于简单的、一次性博弈。这种博弈类型的特征是,参与人会同时并独立的选择各自行为,并且他们的选择行为是一次性的。本章的 6.10 节还将讨论在分析动态博弈时,怎样重新解释这种理论。因为在动态博弈中,随着时间的推移,行为具有连续性。

博弈中的行为推理

  一旦我们确定了博弈类型、参与人构成、策略及收益等,便可以尝试探寻参与人的倾向性行为是如何取舍的,即他参与人的策略选择是如何确定的。
  1. 基本假设
  为了使探寻参与人的行为取舍问题易处理,此处需要有一些假设。首先,假设参与人最关心的是自身的最终收益。在图 6.1 描述的“考试—报告”博弈中,这个假设意味着两个参与人都仅仅关心自身平均成绩的最大化。然而,在博弈论框架中,没要求参与者只关心自已。假设存在利他主义者的参与人,则参与人可能不仅关心他/她自己的收益,还会关心其他参与人的收益。如果这样假设,则收益应该可以反映上面的事实。一旦收益情况被确定后,收益会构成一种完整的描述,有关博弈中每个可能结果都能反映参与人的取舍倾向的描述。
  其次,还假设每个参与人对博弈结构具有充分信息。首先,这意味着参与人都知道他/她自身的可能策略集。此处,在不同背景下,假设每个参与人都了解对方是谁(在双人博弈中)、对方的可用策略集以及他/她从任意策略选择中将会获得的收益,似乎也是合理的。在“考试—报告”博弈中,这个假设类似于假设你意识到你和你拍档都面临为复习考试或是准备报告的策略取舍,而且你们对不同行为的预期结果有准确的评估。尽管有这个假设,但是我们注意到有许多关于信息不完整博弈的研究工作。事实上,约翰·豪尔绍尼获得 1994 年诺贝尔经济学奖,就是因为他在不完全信息博弈上的贡献。
 最后,进一步假设每个个体策略的选择都是为了达到自身收益的最大化,假定他/她也知道其他参与人也会选择收益最大化的策略。有关个体行为策略模式,通常被称为是理性化模型,且个体行为模型实际上结合了两种观点。一是每个参与人都想要自已受益的最大化。因为个体收益被定义为是个体最在意的,这种假设看起来合理。二是每个参与人实际上都会选择最优策略。在简单的设置背景下,假设博弈中的参与人都是有经验的,这似乎就更加合理。在复杂博弈中,或者博弈中的参与人是经验比较少的,则确实是不够合理。有关参与人在博弈行为中出错并继续从中学习的思考,也是值得我们感兴趣的关注点。已有大量文献分析了这种性质类型的问题,但我们在此不加以讨论。
  2. “考试—报告”博弈中的行为推理
  通过上例的“考试—报告”博弈,探寻该怎样预测你和你拍档的行为,即预测博弈中参与人的行为。
  我们集中从你的角度加以分析。(对你拍档策略选择的推理是与你的策略选择推理呈对称性,因为从他的角度来说博弈也是一样的。)如果你可以预测你拍档的行为决策,则你的行为决策就容易决定。但是,还是先分析你拍档的每一个可能选择策略下你的反应行为策略吧。

  • 假设你得知拍档将复习考试内容。假设你也复习考试内容,则你的收益得分是 88 分;而假设你准备报告的话,你只能得到 86 分。所以,在这种背景下,你应该采取复习考试内容的策略。
  • 另一方面,假设你得知你拍档将准备报告。那么,假设你也准备报告,则你的收益得分是 90 分。但是,假设你复习考试内容,则收益得分是 92 分。在这种背景下,同样的,你也应该为考试复习。

  这种依次独立讨论你拍档选择策略的思考方法,在上面的情境中证明是一种有效的分析途径。它显示无论你拍档如何选择,你都应该选择为考试而复习。
  当无论其他参与人选择何种行为策略时,都会存在一个决策是最佳选择,则定义这个策略是严格占优策略(strictly dominant strategy)。当任意参与人有一个严格占优策略,则可以预期参与人会确定地选择它。在“考试—报告”博弈中,对你拍档来说,复习考试也是一个严格占优策略(在同样的推理条件下)。所以,可以预期结果将是你们都为考试复习,彼此都将得到 88 分的平均成绩。
  因此,这个博弈的分析过程是非常清晰的。它让我们很容易看到,博弈将会以什么样的预期结果结束。除了这点,还有一个与这结论有关的值得注意的情况,即如果你和你拍档商量好了,两个人都来准备报告,则双方都平均得 90 分。换句话说,双方的收益得分都会更高些。但是,尽管你们都理解这种潜在改进的事实,但这 90 分的收益是不可能在理性博弈中获得的。其中的原因,在前面的推理中已经显示得十分清楚。那就是即使你个人决定去准备报告,并且希望拍档也这么做从而都得到 90 分,可是即使你的拍档知道你在这么做。但他此时有动机去选择复习考试而不配合你来准备报告,因为前者会给他带来更高的收益 92 分。
  这样的结果取决于我们的假设,即个人收益是每个参与人评估博弈结果的唯一指标。对这个例子而言,就是你和你拍档只关心各自平均成绩的最大化。如果你关心你拍档得到成绩,则在这个博弈的收益情况就会不同,博弈结果也会不同。类似地,如果你想到你拍档可能会对你没有共同准备报告而生气,那么这个要素也应作为收益的一部分来考虑,就会再次潜在地影响到结果。但就前面讨论中的收益而言,我们看到了一个不可能通过理性行为博弈取得的更好结果(每人都得到平均 90 分)。
  
  这里的收益全是 0 或者小于 0,因为对于这两个嫌疑犯来说,这是负效益,只是不同程度的坏结果。
  假如嫌疑犯害怕坦白会带来另一个嫌疑犯的威胁报复时,则选择坦白策略不是一个理性的行为,那么这会影响到收益和潜在的结果。

  囚徒因境很好地刻画了有关个体私利前,建立合作是十分困难的模型。同时,在现实生活中,没有什么模型可以像囚徒因境这么简单而精确地刻画这种复杂的情景。所以,在大量不同的现实世界场景中,囚徒因境就长期被用来充当这些场景的途释性框架。
  比如,在专业性运动比赛中,服用兴奋剂也被构建成一种囚徒困境类型的博弈例子。在此,运动员对应参与人,服用兴奋剂与否对应两种可能策略。假设一方服用兴奋剂,然而对手方却没有服用兴奋剂,在比赛中服用方就会取得优势。但是,服用方自身将会遭受长期的伤害(而且,服用行为可能被检测到)。假设在一场比赛中,服用兴奋剂与否是很难被检测到的,进一步假设,相比起赛场得胜的获益情况,运动员认为服用兴奋剂的不利只是一个小因素。用数值来刻画这种收益情况,这里的数值是任意取的,我们只关注他们的相对大小。
  最佳结果(取得收益是 4)是当你的对手没有服用兴奋剂时,你选择了服用兴奋剂,因为这样会使你赢得比赛的机会最大化。但是,两个运动员都服用兴奋剂的收益(此时,收益是 2)却比彼此都不服用兴奋剂的收益(此时收益是 3)低,因为在这两种背景下,参与人彼此间的实力相当。但是在前一种背景下,参与人会对自身造成伤害。从上可知,服用兴奋剂是一个严格占优策略。因此,即使他们都知道对于他们来说,存在服用兴奋剂外的一个更优选择。但是在上述条件作用下,参与人还是会服用兴奋剂。
  一般而言,这种情形通常称为军备竞赛。在这种背景中,竞争双方为保持彼此实力相当,都会选择生产更具危险性武器。在上面提到的例子,兴奋剂就好比使用更具危险性武器。囚徒困境也已被用于在形式上解释敌对国家间的军备竞赛。在此,武器对应于一个国家的军事力量总和。
  事实上,即使是在博弈中出现极小的变化,也会使已有囚徒困境案例博弈变得比较温和。已有囚徒困境案例博弈变得比较温和。例如,回顾“考试—报告”博弈,假设保持其他因素不变,只是让考试更容易些,设任意参与人复习考试,则将会得到 100 分,否则可得到 96 分。因此,形成了新的收益矩阵。
  进而,我们可以考察新收益背景下的博弈行为。此时,准备报告成为严格占优策略。所以,完全可以预测到参与人都会采取准备报告策略,而且彼此都将从该策略选择中获益。前述情形的遗憾之处就会消失。同样,囚徒困境也只是在适当条件(某些特定的收益关系)下才显现出它的精妙之处。

最佳应对与占优策略

  在最佳应对定义中,参与人 1 可能存在不止一个策略,都是策略 T 的最佳应对。于是,很难预测参与人 1 究竟会在多个最佳应对策略中的具体选择。有时需要强调最佳应对的唯一性,即假设 S 会产生比任何和策略 T 相对应的其他策略都较高的收益,则参与人 1 的策略 S 是对于参与人 2 的策略 T 是严格最佳应对。
  在上一节中,我们发现,假设参与人有严格占优策略,则就可以预期他/她会采取该策略。占优策略概念也有小的不足。因为抗衡其他对立策略时,占优策略可能是一组最佳选项。自然地,参与人可能会有多个潜在的占优策略。在这种背景下,具体选择某个占优策略就不易预测。
  囚徒困境分析中,实际上也正是因为参与人彼此有严格占优策略,才会使分析过程简单化。因此很容易推导出可能会发生的策略选择。但是,多数背景不会如此明确。因此,现在有必要注意一些缺乏严格占优策略的博弈。

纳什均衡

  它的基本认识是:即使不存在占优策略,我们也可以通过参与人彼此策略的最佳应对,来预测参与人的策略选择行为。假定参与人 1 选择策略 S,同时参与人 2 选择策略 T。若 S 是 T 的最佳应对,同时 T 是 S 的最佳应对,则称策略组(S,T)是一个纳什均衡。这不是从参与者的理性行为中可以推导出来,这是一种均衡概念。均衡的观点是,假设参与人选择的策略彼此间都是最佳应对,即具有相互一致性。在一组备选策略中,任何参与人都没有激励动机去换一种策略。所以,该系统处于一种均衡的状态中,没有什么力量将它推向不同的行为结果。

多重均衡:协调博弈

  对于只有一个纳什均衡的博弈,比如上节提到的三客户博弈,如下预测每个参与人在均衡中将会采取的策略似乎是合理的:在博弈的其他任意应对方案中,至少存在一个参与人没有采用自己的最佳应对策略。但是,存在一些自然的博弈,可以有一个以上的纳什均衡。在这种背景下,很难预测博弈中理性参与人是怎样行为的。我们这里考虑一些基本的例子中也存在这个问题。

  假设丈夫和妻子想要一起看电影。他们必须在浪漫的喜剧片和动作片之间做出选择,而且也想要协调彼此的选择。但是(浪漫片,浪漫片)均衡给予他们中的一方较高收益,同时(动作片,动作片)均衡则是另一方有较高收益。在性别战中,则很难预测具体哪种均衡将会被采取。

  值得一提的是,在基本协调博弈中的一个最终变化,在近年得到了极大的关注。这个变化就是猎鹿博弈。该名称是在卢梭所写的例子中提到。假设两猎人外出猎物。若他们合作,则可以猎到鹿(这可以给猎者带来最高的收益)。但是猎人要是彼此分开猎物,则彼此只能猎到兔。棘手的问题是,假设一方想单独猎鹿,则他的收益是 0。同时另一方还能猎到免。所以,我们便得到一个博弈模型。猎人是两个参与人。猎鹿和猎免是参与人的两个策略。
  排除这两个参与人不合作的情况,该例子十分类似于不平衡协调博弈。尝试获得较高收益结果的一方比起尝试获得较低收益结果的另外一方,会受到更大的惩罚。(实际上,尝试获得较低收益的一方根本不会受到惩罚。)结果,在推理何种均衡会被选择时,就是要在获得高收益和由于另一方不合作造成损失之间进行权衡。
  有些人认为猎鹿博弈中也体现了囚徒困境博弈中的一些挑战。这两个博弈的结构显然是不同的(因为囚徒困境存在严格占优策略)。然而,这两个例子有一个共性,即若参与人彼此合作,则都将从中受益。但是,如果一方采取合作行为而另一方却不合作,则会遭受损失。当然,在这两种博弈类型中,还存在另一种途径来透视其相似性。假设我们回到最初的“考试—报告”博弈并对其稍加改变,假设除参与人双方为了有机会获得更好的成绩且都需要准备报告有变动外,其他收益结果保持与第 6.1 节保持一致。也就是,假设参与人双方都准备报告,彼此都在报告中的收益得分是 100,但是假设参与人中至多有一人准备报告,则彼此的收益得分是 84 分。此时,我们得到一个十分类似于猎鹿博弈的结构,即在策略组(报告,报告)或者(考试,考试)的协调都会达到均衡。但是,假设一方试图依据较高收益的均衡行为时,则这方可能事与愿违地得到较低成绩,因为另一方可能选择复习考试的策略。

多重均衡:鹰鸽博弈

  假设两只动物要决定一块食物在彼此之间如何分配。每种动物都可以选择争夺行为(鹰派策略)或分享性行为(鸽派策略)。若两种动物都选择分享性行为,他们将会均匀的分配食物,各自的收益是 3。若一方行为表现为争夺性,另一方行为表现是分享性,则争夺方会得到大多数食物,获得收益是 5,分享方只能得到收益为 1。但是,当两只动物都表现为争夺性行为,由于在争夺中践踏了食物(甚至会彼此伤害),则它们得到的收益将为 0。
  鹰鸽博弈在很多背景中被研究。比如,用两个国家替代两种动物,进一步假设这两个国家将在外交上同时选择是争夺型或是分享型。每个国家都希望通过争夺型外交提高国际声望。但是,假设两国都采取争夺型外交,最终可能导致彼此间发生战争危险。而战争对两国来说都是灾难性的。所以,在均衡状态,我们预期一方将会表现出争夺性行为,另一方则表现出分享型行为。但是,我们无法预测哪一方将会采取何种策略。为了了解均衡状态如何在两国间达到,我们再次需要了解更多有关两国的信息。
  在该类型的博弈中,存在两个均衡。事实上,参与人中的一方必须表现为分享型行为。同时,另一方则取得更高收益。假设参与人都尝试避免成为分享型一方,则彼此的最终收益是非常低的。但是,还是无法从这种博弈的结构中预测,哪方将会单独扮演该分享型角色。

混合策略

  硬币配对是一类简单的攻防博弈。它可如下描述。两个参与人各持一枚硬币,同时选择显示彼此手中硬币的正反面。正面记为(H),反面记为(T)。假如他们硬币的朝向相同,参与人 2 将赢得参与人 1 的硬币。反之,则参与人将赢得参与人 2 的硬币。
  硬币配对是大量有趣博弈类型中的简单一例。在每个结果中,参与人的总收益是 0。此类博弈被称为“零和博弈”。大量攻防博弈,或其他一般性存在参与人的利益是直接对立的博弈,都拥有这个结构。实际上类似硬币配对的博弈,常被比喻为战争中的决策。例如,欧洲 1944 年 6 月 6 日的盟军登陆——二战关键性的时刻之一,它涉及盟军的一项决策,即跨过英吉利海峡后在诺曼底或是在加莱登陆。决策还受到德国军方相关策略的影响,即德军在诺曼底或是在加莱大规模设防也会影响到盟军决策。这个拥有攻防博弈结构的例子,也非常类似于硬币配对博弈。
  在硬币配对博弈中,首先应注意到:不存在一组策略彼此是最佳应对。
  这意味着,假设我们仅认为参与人彼此仅有两个策略 H 和 T,则该博弃不存在纳什均衡。如果我们考虑硬币配对是怎样运行,这也毫无奇怪。纳什均衡要求,即使给定有关彼此策略的充分信息,参与人也没有动机改变一个可替代性的策略,即在纳什均衡中,参与人具有相互一致性,这体现在信念和行动上。但在硬币配对中,假如参与人 1 知道参与人 2 将选择特定的 H 或 T,则参与人 1 可以通过选择对方策略的对立策略来获得收益 +1。类似的推理也可把握参与人 2 的行为。
  当我们在直观上思考该类型的博奔是如何在真实生活中演绎时,所看到的将是,参与人通常会试图迷惑对手,让对手难以预测他们将有什么策略行为。它暗示着,在类似硬币配对的博弃模型中,我们不应只把策略当成是简单的 H 或 T,还应注意到参与人在 H 和 T 选择中行为的随机性。
  实际上每个参与人都不是直接选择 H 或 T,参与人选择依据的是概率,即概率表示她选择策略的机会大小。
  有两人在一起玩硬币配对游戏,他们都决定依据概率 p 和 g 随机地选择自己的行为。如果参与人 1 认定参与人 2 会在多于一半的时间里选择 H,则她一定会选择策略 T。可在这种情况下,参与人 2 选择策略 H 的次数不应该多于一半。对称的推理过程适用于当参与人 1 认为参与人 2 会在多于一半的时间里选择策略 T 的情形。无论是何种情况,我们均不能得到一个纳什均衡。所以关键的问题是,当参与人 2 的选择策略概率 q=1/2 时,参与人 1 的策略 H 及 T 是无所谓的:参与人 1 的策略 q=1/2 在效果上是“无利可图”策略。实际上,这便是在引人随机化时的最初直觉:每个参与人都想要对对方隐藏自己的行为,所以,他们各自的行为很难被对方得知。当然,应注意到概率都为 1/2 的策略,事实上是硬币配对的高度对称结构的结果。正如我们将在下一节的例子中看到:当收益是非对称时,纳什均衡也可以由非等同的概率策略组成。