《复杂》书摘


复杂 /(美)米歇尔著 ;唐璐译. — 长沙:湖南科学技术出版社,2011.6
(第一推动丛书.综合系列)
书名原文:Complexity : A Guided Tour
ISBN 978-7-5357-6713-4


总序

  科学教育,特别是自然科学的教育,是提高人们素质的重要因素,是现代教育的一个核心。科学教育不仅使人获得生活和工作所需的知识和技能,更重要的是使人获得科学思想、科学精神、科学态度以及科学方法的熏陶和培养,使人获得非生物本能的智慧,获得非与生倶来的灵魂。没有科学的“教育”,只是培养信仰,而不是教育。没有受过科学教育的人,只能称为受过训练,而非受过教育。

前言

  17 世纪以来,还原论一直在科学中占据主导地位。笛卡儿这样描述:“将面临的所有问题尽可能地细分,细至能用最佳的方式将其解决为止”,并且“以特定的顺序引导思维,从最简单和最容易理解的对象开始,一步一步逐渐上升,直至最复杂的知识”。
  还原论的计划在许多现象面前都止步不前:气候似乎无法还原的不可预测性;生物的复杂性和适应性;社会的经济、政治和文化行为;现代技术与通讯网络的发展和影响;智能的本质以及用计算机实现智能的可能前景。对复杂行为如何从简单个体的大规模组合中出现进行解释时,混沌、系统生物学、进化经济学和网络理论等新学科胜过了还原论,反还原论者的口号——“整体大于部分之和”——越来越有影响力。
  20 世纪中叶,许多科学家意识到,这类现象无法被归入单个学科,而需要在新的科学基础之上从交叉学科的角度进行理解。一些人开始尝试建立新的基础,这其中包括控制论、协同学、系统科学,以及最近才出现的——复杂系统科学。

  目前的物理学对于智能可以做的很少,即便是专门研究大脑细胞的神经科学,也无法理解思维如何从大脑活动中涌现出来。很显然还原论者对认知的研究是误入歧途——我们根本无法在单个神经元和突触的层面上理解认知。

  本书分为五部分。在第一部分将介绍四个主题的历史和内容,这四个主题是复杂系统研究的基础:信息、计算、动力学和混沌、进化。在第二到第四部分我将阐述这四个主题如何在复杂性科学中被组织到一起。最后,书的末尾还将讨论寻找复杂性科学一般性原则的问题。

第一部分 背景和历史

第 1 章 复杂性是什么

  复杂系统试图解释,在不存在中央控制的情况下,大量简单个体如何自行组织成能够产生模式、处理信息甚至能够进化和学习的整体。这是一个交叉学科研究领域。

昆虫群落

  巴西:亚马孙雨林。几十万只行军蚁(army ant)在行进。没有谁掌控这支军队,不存在指挥官。单个蚂蚁几乎没有什么视力,也没有多少智能,但是这些行进中的蚂蚁聚集在一起组成了扇形的蚁团,一路风卷残云,吃掉遇到的一切猎物。不能马上吃掉的就会被蚁群带走。在行进了一天并摧毁了足球场大的浓密雨林中一切食物后,蚂蚁会修筑夜间庇护所——由工蚁连在一起组成的球体,将幼蚁和蚁后围在中间保护起来。天亮后,蚁球又会散成一只只蚂蚁,各就各位进行白天的行军。
  如果将 100 只行军蚁放在一起,它们会不断往外绕圈直到体力耗尽死去。然而,如果将上百万只放到一起,群体就会组成一个整体,形成具有“集体智能(collective intelligence)”的“超生物(superorganism)”。

  蚁群由数百只至上百万只蚂蚁组成,单只蚂蚁相对简单,它们受遗传天性驱使寻找食物,对蚁群中其他蚂蚁释放的化学信号作出简单反应,抵抗入侵者,等等。然而,虽然单只蚂蚁的行为很简单,整个蚁群一起构造出的结构却复杂得惊人。它们使用泥土、树叶和小树枝建造出极为稳固的巢穴,巢穴中有宏大的通道网络,育婴室温暖而干爽,温度由腐烂的巢穴材料和蚂蚁自身的身体控制。一些种类的蚂蚁还会将它们的身体相互连在一起组成很长的桥,从而可以跨越很长的距离,通过树干转移到另一蚁穴。

大脑

  在大脑中,简单个体是神经元。虽然大脑中除神经元外还有其他细胞,但绝大多数脑科学家都认为是神经元的活动以及神经元群的连接模式决定了感知、思维、情感、意识等重要的宏观大脑活动。
  这与蚁群很类似:个体(神经元或蚂蚁)之间相互传递信号,信号的总强度达到一定程度时,会导致个体以特定的方式动作,从而再次产生信号。总体上会产生非常复杂的效果。

免疫系统

  免疫系统由许多不同的细胞组成,分布在身体各处(血液、骨髓、淋巴结等)。这些细胞在没有中央控制的情况下一起高效地工作。
  免疫系统中的主角是白细胞,也称为淋巴细胞。白细胞能通过其受体识别与入侵者相对应的分子。大量白细胞哨兵在血液中不停巡逻,如果被激活——特定受体偶然遇到了与其匹配的入侵者——就发出警报。一旦淋巴细胞被激活,就会分泌出大量能够识别类似入侵者的分子——抗体。这些抗体会到处去搜寻和摧毁入侵者。被激活的淋巴细胞的分裂速度也会加快,产生出更多后代淋巴细胞,帮助搜寻入侵者和释放抗体。后代淋巴细胞会不断繁衍,从而让身体能记住入侵者特征,再次遇到这种入侵者时就能具有免疫力。
  有一类被称为 B 细胞(B 是指它们产生自骨髓,Bone marrow),它具有一种奇特的性质:B 细胞与某种入侵者匹配得越好,它产生的后代细胞就越多。通过随机变异,子细胞与母细胞会稍有不同,而这些子细胞产生后代的能力也与它们同入侵者相匹配的程度成正比。这样就形成了达尔文自然选择机制,B 细胞变得与入侵者越来越匹配,从而产生出能极为高效地搜寻和摧毁微生物罪犯的抗体。
  还有许多种细胞也参与了免疫反应。T 细胞(产生自胸腺,Thymus)对于调节 B 细胞的反应很重要。巨噬细胞四处游荡,寻找已被抗体标记的东西,然后将其摧毁。有些细胞让免疫能长期有效。此外系统中还有一部分是用来防止免疫系统攻击身体的正常细胞。
  同大脑和蚁群一样,免疫系统的行为是通过大量简单参与者的独自行动产生,并没有谁在进行掌控。简单参与者——B 细胞、T 细胞、巨噬细胞,等等——的行动可以看做某种化学信号处理网络,一旦有一个细胞识别出入侵者就会触发细胞之间产生信号雪崩,从而产生精巧而复杂的反应。

经济

  经济也是复杂系统,在其中由人(或公司)组成的“简单、微观的”个体购买和出售商品,而整个市场的行为则复杂而且无法预测,个体的交易行为产生出金融市场无法预测的宏观行为,比如不同地区的住宅价格或股价的波动。很多经济学家认为经济在微观和宏观层面上都具有适应性。在微观层面上,个人、公司和市场都试图通过研究其他人和公司的行为来增加自己的收益。以前一直认为,微观上的自利行为会使得市场在总体上趋于均衡,在均衡状态下商品价格无论怎样变化都无法让所有人受益。从收益或消费者满意度来看,如果有人受益,就肯定会有人受损。市场能达到均衡态就认为市场是有效的。18 世纪经济学家亚当·斯密(Adam Smith)将市场的这种自组织行为称为“看不见的手”:它产生自无数买卖双方的微观行为。
  经济学家感兴趣的问题是,市场怎样才会变得有效,以及反过来,为何在现实世界中市场会失效。近年来,关注复杂系统研究的经济学家开始尝试用复杂系统的术语来解释市场的行为:动力学无法预测的全局行为模式,比如市场泡沫及其崩溃的模式;信号和信息的处理,比如个体买卖者的决策过程,以及市场作为整体“计算”有效价格的“信息处理”能力;还有学习和适应,比如商家调整产品以适应消费者的需求变化,以及市场作为一个整体对价格进行调整。

万维网

  互联网是能彼此通信的设备组成的网络。
  万维网是文件、图片、多媒体和其他资源的集合,资源通过超链接互相连接形成网络,并使用统一资源标志符(URL)标识。
  万维网诞生于 20 世纪 90 年代初,此后呈爆炸性增长。万维网可以视为自组织的社会系统:每个人都看不到网络的全貌,只是简单地发布网页并将其链接到其他网页。然而,复杂系统专家发现这个网络在整体上具有一些出人意料的宏观特性,包括其结构、增长方式,信息如何通过链接传播,以及搜索引擎和万维网链接结构的协同演化,这一切都可以视为是系统作为一个整体的“适应”行为。

复杂系统的共性

  1. 复杂的集体行为:前面讲到的所有系统都是由个体组分(蚂蚁、B 细胞、神经元、股票交易者、网站设计人员)组成的大规模网络,个体一般都遵循相对简单的规则,不存在中央控制或领导者。大量个体的集体行为产生出了复杂、不断变化而且难以预测的行为模式。
  2. 信号和信息处理:所有这些系统都利用来自内部和外部环境中的信息和信号,同时也产生信息和信号。
  3. 适应性:所有这些系统都通过学习和进化过程进行适应,即改变自身的行为以增加生存或成功的机会。

  复杂系统是由大量组分组成的网络,不存在中央控制,通过简单运作规则产生出复杂的集体行为和复杂的信息处理,并通过学习和进化产生适应性。
  如果系统有组织的行为不存在内部和外部的控制者或领导者,则也称之为自组织(self-organizing)。由于简单规则以难以预测的方式产生出复杂行为,这种系统的宏观行为有时也称为涌现(emergent)。这样就有了复杂系统的另一个定义:具有涌现和自组织行为的系统。复杂性科学的核心问题是:涌现和自组织行为是如何产生的。

第 2 章 动力学、混沌和预测

对预测的重新认识

  海森堡(Werner Heisenberg)提出了量子力学中的“测不准原理”,证明不可能在准确测量粒子位置的同时,又准确测量其动量(质量乘以速度)。对于其位置知道得越多,对于其动量就知道得越少,反过来也是一样。

  混沌指的是混沌系统对于其初始位置和动量的测量如果有极其微小的不精确,也会导致对其的长期预测产生巨大的误差。也就是常说的“对初始条件的敏感依赖性”。
  对于一些自然系统,并没有这个问题。如果对初始条件的测量不是十分精确,预测也会八九不离十。例如天文学家在测量行星位置时即使误差较大,也还是能准确预测曰食。而对初始条件的敏感依赖性指的是,如果系统是混沌的,在测量初始位置时即使只有极其微小的误差,在预测其未来的运动时也会产生巨大的误差。对于这样的系统(飓风就是例子),一点点误差,不管多小,也会导致长期预测很不精确。
  这一点很不符合直觉。然而,混沌现象在很多系统中都被观测到了,心脏紊乱、湍流、电路、水滴,还有许多其他看似无关的现象。现在混沌系统的存在已成为科学中公认的事实。

  对初始条件的敏感依赖性将会阻碍对天气的长期预报。即使是很简单的计算机气象模型,也会有对初始条件的敏感依赖性。现在虽然有了高度复杂的气象计算模型,天气预报也最多只能做到大致准确预测一个星期。目前还不清楚这个局限是否是天气的混沌本质导致的,也不知道通过收集更多数据和构造更好的模型,可以将这个局限推进多远。

线性兔子和非线性兔子

  每一次对过程的重复被称为一次“迭代”,而每一次迭代得到的结果会被用来作为下一次迭代的初始值。

混沌的共性

  同许多重要的数学发现一样,几乎在费根鲍姆做出他的发现同时,另一个研究小组也独立发现了这个规律。这个小组是法国科学家科雷特(Pierre Coullet)和特雷瑟(Charles Tresser),他们也用重正化技术研究了倍周期分叉,35 并且发现了单峰映射的普适常数4.6692016。费根鲍姆也许的确是第一个发现者,并且向科学界广泛而清晰地传播了这个结果,所以这个成就大部分被归功于他。不过在许多科技文献中,也称这个理论为“费根鲍姆-科雷特-特雷瑟理论”,称费根鲍姆常数为“费根鲍姆-科雷特-特雷瑟常数”。在书中还有几个这样的例子,都是在思想条件成熟时同时独立做出发现。

混沌思想带来的革命

  总的来说,变化、难以预测的宏观行为是复杂系统的标志。

第 3 章 信息

能量、功、熵

  热力学描述能量以及其与物质的相互作用。19 世纪的物理学家认为宇宙是由物质(固体、液体、气体,等等)和能量(热能、光能、声能,等等)组成。
  能量大致上可以定义为系统“做功”的潜力。做功等于对物体施加力的大小乘以物体沿力的方向前进的距离。
  假设你的车在路上抛锚了,你不得不自己把车推到最近的加油站。用物理学的话讲,你做的功等于你推车的力的大小乘以到加油站的距离。在推车的过程中,你将你体内储存的能量转化成了车的动能,而转化的能量就等于所做的功加上轮子与地面摩擦消耗的热量以及你自己体温升高所耗费的热量。这个热量损失可以用熵度量。熵是对不能转化成功的能量的度量。

  热力学定律所针对的是“封闭系统”——它们与外界没有能量交换。
  第一定律:能量守恒。宇宙中的总能量守恒。能量可以从一种形式转化成另一种形式,比如从体内储存的能量转化成推车的动能加上消耗的热能。但是能量既不能被创生也不能被消灭。因此说是“守恒的”。
  第二定律:熵总是不断增加直至最大。系统总的熵会不断增加,直至可能的最大值;除非通过外部做功,否则它自身永远也不会减少。

香农信息

  香农用信息源的熵定义信息量(通常被称为香农熵,以区别于玻尔兹曼给出的熵的定义)。
  根据香农的理论,信息可以是通信的任何单位,可以是一个字母、一个词、一句话,甚至是一个比特(0 或 1)。发送源的熵(信息量)用信息的可能性定义,而与信息的“意义”无关。

第 4 章 计算

什么是计算?什么可以计算

  第二次世界大战时被征召入伍手工计算弹道的妇女。

哥德尔和图灵的命运

  哥德尔在准备美国入籍面试时,他发现了美国宪法中的不一致性,结果他的朋友爱因斯坦在陪他去面试时只好不断同他聊天,以引开他的注意力。
  图灵没有隐瞒自己的同性恋倾向。在 20 世纪 50 年代的英国同性恋是非法的,图灵因为与男性发生关系而被逮捕,并被判决接受药物“治疗”以改变他的“状况”。他也被取消了接触政府机密的权力。这些事件最终导致他在 1954 年自杀。

第 5 章 进化

达尔文之前的进化观念

  拉马克认为生物在生命过程中会适应环境,而这种莸得的适应性会直接遗传给后代。
  到 20 世纪初,拉马克的理论已没有什么影响,不过一些杰出的心理学家还是认为它能解释思维的某些方面,比如本能。弗洛伊德(Sigmund Freud)就表达了这种观点,“如果动物的本能生活能有任何解释,就只能是这个:它们将其经验赋予了它们的后代;也就是说,它们在记忆思维中保留了祖先的经验。”不过在弗洛伊德之后这些观念在心理学中也不再有影响。

达尔文理论的起源

  早在《起源》出版之前 28 年,不为人知的苏格兰人马修(Patrick Matthew)出版了一本标题和内容都很晦涩的书,《论海军木材和树木栽培》(On Naval Timber and Arboriculture ),书的附录中提出了与达尔文的自然选择非常类似的思想。1860 年,马修在杂志《加蒂纳记事》(Gardiner’s Chronicle )上看到了达尔文的思想,就给杂志写了一封信申明他有优先权。达尔文心里也非常不安,他在信中回应道:“我完全承认马修先生多年前 76 就提出了我对于物种起源提出的自然选择解释……我只能向马修先生道歉,因为我完全不知道他的著作。”
  为什么最后是达尔文得到了一切荣誉呢?有几个原因,首先他当时已是声望很高的学者,最重要的是,与华莱士和马修的著作比起来,达尔文书中的思想更加清晰,给出的证据也多得多。是达尔文让自然选择从有趣而合理的猜测变成了极为完善的理论。

孟德尔和遗传律

  直到 20 世纪 40 年代才发现 DNA 是遗传信息的载体。
  对于每一种性状,等位基因中有一个是显性的(例如高矮性状中高为显性性状),另一个则是隐性的(矮为隐性形状)。高/高个体总是表现为高株。高/矮个体也会表现为高株,因为只要有一个显性基因就够了。而只有矮/矮个体——两者都是隐性基因——才会表现为矮株。
  假设你用两株高/矮个体进行异花授粉。父母都很高,却还是有四分之一的可能他们的后代会从两者都遗传到矮基因,从而产生出矮/矮个体。

现代综合

  大部分性状都是由许多基因一起决定的,每个基因都有数个不同的等位基因。多个不同等位基因会有数量极大的组合可能。生物在基因层面的离散变异会导致表型——基因决定的生理特征(例如高矮、肤色等)——变异。

对现代综合的挑战

  并不是生物的所有性状都能用“适应性”解释。饥饿感和性欲这些性状显然能增加我们的生存和繁衍机会。但有些性状可能是来源于偶然,或是适应性状和发育约束的旁效应。

第 6 章 遗传学概要

  细胞的细胞核中有狭长的大分子,这种分子被称为染色体(因为它们很容易在实验中被染色)。
  细胞可以分裂成两个同样的细胞,从而复制自身,这个过程被称为有丝分裂,分裂过程中染色体会进行复制。我们身体中许多细胞每过几小时就会分裂一次——这是身体发育、修复和日常维持的必要过程。
  二倍体生物在产生卵子和精子时是减数分裂。很多生物都是二倍体生物,它们的染色体(除了精子和卵子这些生殖细胞)都是成对出现(人类有 23 对)。减数分裂时,二倍体细胞会分裂成四个生殖细胞,每个生殖细胞的染色体数量为原细胞的一半。原细胞中每对染色体会断开,然后重组成新生殖细胞中的染色体。受精时,两个生殖细胞中的染色体会结合到一起,从而产生染色体数量正常的细胞。这样子代的染色体就是父母染色体的混合。这是有性生殖生物变异的主要来源。无性生殖的生物,后代与父代几乎一样。

  编码被细胞转化为蛋白质,DNA 复制错误、突变和性重组引起变异。
  生物的所有性状——表型——几乎都是源自细胞中蛋白质的特性及其相互作用。蛋白质是由氨基酸组成的长链分子。
  身体中每个细胞都有几乎一样的完整 DNA 序列,DNA 序列由核苷酸连在一起组成。核苷酸含有称为碱基的化合物,碱基有四种形式,(缩写为)A、C、G、T。人类的 DNA 序列实际上是由 A、C、G、T 分子对组成的双线。化学势使得 A 总是与 T 配对,C 与 G 配对。
  序列经常用两行符号(碱基对)表示,例如:
  TCCGATT…
  AGGCTAA…
  在 DNA 分子中,双线相互缠绕,形成一条双螺旋)。
  基因由 DNA 的序列片段组成。大致上,一个基因对应于一个特定的蛋白质。基因编码了构成蛋白质的氨基酸。氨基酸的编码方式就是遗传密码。三个碱基对应一种氨基酸。例如 AAG 就对应苯基丙氨酸,CAC 则对应缬氨酸。这种三联体被称为密码子。
  基因的转录和翻译称为基因表达,在亿万个细胞中不断进行。神奇的是这一切所需的能量非常少——如果你坐着看电视,所有亚细胞层面的活动每小时消耗的能量不会超过 418 焦。这是因为这些过程依靠的是分子的随机运动和大量的碰撞,只需从“环境热源”(比如你温暖的房间)中获取能量就够了。
  碱基配对错误,大约 1000 亿个核苷酸产生一次,从而导致变异。
  这其中含有绝妙的自指特性:所有决定 DNA 的转录、翻译和复制的复杂细胞机制——mRNA、tRNA、核糖体、聚合酶等——本身都编码在 DNA 中。就像侯世达说的:“DNA 中包含其本身的解码者的编码!”它也包含合成核苷酸的所有蛋白质的编码,而核苷酸是构造 DNA 的材料。

第 7 章 度量复杂性

用大小度量复杂性

  据估计人类大约有 25000 个基因——也就是对蛋白质进行编码的区域。让人吃惊的是,只有 2% 的碱基对组成了基因;其余的非基因部分被称为非编码区。非编码区有几个功能:其中一些用来防止染色体解体;一些则帮助调控真正基因的运作;有一些则可能是没有任何作用的“垃圾”或者功能还没有被发现。
  单细胞变形虫的碱基对是人类的 225 倍,拟南芥的基因与人类的大致一样多。

用分形维度量复杂性

  分形最经典的例子是海岸线。从空中俯瞰下去,海岸线崎岖不平,有许多大大小小的海湾和半岛。如果你下去沿着海岸线游览,它似乎还是一样的崎岖不平,只是尺度更小。如果你站在沙滩上,或是以蜗牛的视角近距离观察岩石,相似的景象还是会一次又一次出现。海岸线在不同尺度上的相似性就是所谓的“自相似性”。
  分形一词是由法国数学家曼德布罗特(Benoit Mandelbrot)提出的,曼德布罗特认识到自然界到处都有分形——现实世界中许多事物都有自相似结构。海岸线、山脉、雪花、树是很典型的例子。曼德布罗特甚至提出宇宙也是分形的,因为就其分布来说,有星系、星系团、星系团的聚团,等等。
  一般来说分形指的是“在任何尺度上都有微细结构”的几何形状。许多让人感兴趣的分形具有自相似特性,海岸线就是。许多系统的混沌域常被称为分形吸引子。


  科赫曲线是严格自相似的:曲线的部分,以及部分的部分,都与曲线整体是一样的形状。如果我们将科赫曲线规则应用无数次,图形在无数尺度上都将是自相似的——完美的分形。而真正的海岸线并不严格自相似。如果你观察海岸线的一小段,它并不与整段海岸线的形状完全一样,而是在许多方面相似(例如,蜿蜒崎岖)。另外,在真实世界中,自相似在无穷小的尺度上并不成立。为了简单起见,海岸线这类真实世界的结构通常被称为“分形”,但更严格的叫法应该是“类分形(fmctal-like)”,特别是有数学家在场的时候。
  我们熟悉的空间维度的概念对于分形完全不适用。分形维度与空间维度不同。直线是 1 维,平面是 2 维,立方体是 3 维。那科赫曲线是几维呢?
  首先我们来看看直线、正方形和立方体这些常规几何对象的维数到底指的是什么。
  先来看看直线段。将其一分为二。然后将得到的线段再二分,每次都将各段线段一分为二:

  每一次得到的图形都是由两个上次缩小一半的拷贝组成。再来看看正方形。从各边将其二分。然后将得到的正方形继续从各边二分,这样不断二分下去。

  每次得到的图形都是由上次四分之一大小的 4 个拷贝组成。将立方体从各边二分。将得到的立方体不断二分:

  每次得到的都是由上次八分之一大小的 8 个拷贝组成。
  这里已经能够看出维度的意义。一般而言,每次得到的图形都是由上次缩小的拷贝组成,而拷贝的数量则是 2 的维数次幂(2 维数)。对于直线,是 21=2 个拷贝;对于正方形,是 22=4 个拷贝;对于立方体是 23=8 个拷贝。类似的,如果不是二分,而是将各边三分,则每次得到的图形是上次的 3 维数个拷贝。由此可以总结出一个规律:将几何结构从各边分成 X 等份,不断重复这个过程。每次得到的将是前一次的个拷贝。
  根据维数的这种定义,直线是 1 维,正方形是 2 维,立方体是 3 维。都没有问题。
  现在将这个定义类推到科赫曲线。每次直线段都是之前的 1/3 长,而得到的则是之前的 4 个拷贝。根据前面的定义,应该是 3 维数=4。维数是多少呢?这里我们直接给出结果 104,根据前面的规律,维数约为 1.26。也就是说,科赫曲线既不是 1 维也不是 2 维,而是介于两者之间。太奇怪了,分形的维数居然不是整数。这正是分形的奇特之处。
  简而言之,分形维数决定了物体的自相似拷贝的数量。同样,分形维也决定了随着层次的变化,物体总的大小(或者面积、体积)会如何改变。例如,如果你在每次应用规则后测量科赫曲线的总长度,你会发现每次长度增加为原来的 4/3。只有完美的分形——可以缩小直至无穷——才有精确的分形维数。像海岸线这类真实世界的有穷类分形事物,我们只能测量近似的分形维数。
  有一种说法挺有诗意的,我很喜欢,即认为分形维数“量化了物体细节的瀑流”。也就是说,当你沿着自相似的瀑流越走越深时,它决定了你能看到多少细节。如果结构不是分形的,譬如平滑的大理石,你将它的结构不断放大,将不会出现有意思的细节。而分形则在所有层面上都有有趣的细节,分形维数一定程度上量化了细节的有趣程度与你观察的放大率之间的关系。
  这也就是为何人们对用分形维数度量复杂性感兴趣,许多科学家都用其来度量真实世界的现象。不过,除了崎岖度和细节瀑流,还有许多其他种类的复杂性我们也希望能进行度量。

第二部分 计算机中的生命和进化

第 8 章 自我复制的计算机程序

生命是什么

  我们都本能地知道生命是什么:它是可以用来吃的,可以爱的,甚至可能是致命的。
              ——洛夫洛克(James Lovelock),
              《盖亚时代》(The A-es of Gaia )

  皮格马利翁是奥维德《变形记》中的人物,他爱上了自己用象牙雕刻的美丽少女,并感动了爱神阿芙罗狄娜,爱神让雕塑变成了真人。

计算机中的自我复制

  要执行程序,计算机要有一个“指令指针”——存储在存储器中的一个数字,记录当前执行的指令在存储器中的位置。指令指针——简记为 ip——最初设为程序第一行的存储地址。我们称之为“指向”那条指令。在计算的每一步 ip 指向的指令会被执行,ip 加 1。

冯.诺依曼

  冯·诺依曼是 20 世纪科学和数学领域最重要的人物。
  不管和谁比,冯·诺依曼都是真正的天才。在相对短暂的一生中,他至少在 6 个领域作出了基础性的贡献:数学、物理、计算机科学、经济学、生物学和神经科学。人们说起他的故事时,总是忍不住摇摇头,惊叹如此的天才是不是真的是人类能做到的。
  冯·诺依曼出生在匈牙利。与爱因斯坦和达尔文的大器晚成不同,冯·诺依曼从小就是神童。据说他六岁时就能心算八位数除法。(很久他才发现不是所有人都能做到这一点)当时他还能和父亲谈论古希腊。
  冯·诺依曼 18 岁进入大学。最初他选择的是化学工程这样的实用课程,但还是无法离开数学。23 岁时,因为在数理逻辑和量子力学作出的基础性工作,他获得了数学博士学位。他的工作做得太漂亮了,5 年后他就获得了世界上最好的学术职位——加入新成立的普林斯顿高等研究院(IAS),爱因斯坦和哥德尔也是这里的成员。
  此后 10 年,冯·诺依曼开创了博弈论的研究(写出了被称为“有史以来最好的数理经济学论文” ),设计了第一台可编程计算机的原理架构(EDVAC,他为这台计算机写的报告被称为“计算和计算机领域有史以来最重要的文献” ),还在第一颗原子弹和氢弹的研制中作出了重要贡献。此后他又致力于研究自复制自动机以及计算机逻辑与大脑运作机制之间的关系。冯·诺依曼在政治上也很活跃(他的立场十分保守,持强烈的反共产主义观点),后来还成为原子能委员会的成员,这个委员会为美国总统在核武器政策方面提供咨询。
  除了冯·诺依曼,匈牙利还有一批年龄相仿的科学家后来都成了举世闻名的学者,这被称为“匈牙利现象”。这个群体中包括西拉德,物理学家维格纳(Eugene Wigner)、特勒(Edward Teller)、伽柏,数学家厄多斯(Paul Edos)、科蒙尼(John Kemeny)和拉克斯(Peter Lax)。许多人都奇怪为何当时会聚集这么多耀眼的天才。

第 9 章 遗传算法

GA演化的策略是如何解决这个问題的

  将我的策略记为 M,GA 生成的策略记为 G。
  首先来看看当前位置和四周都没有罐子的情形。如果罗比采用策略 M,它就会随机选择一个方向移动。但如果它采用的是策略G,它就会往东移动,直到遇到墙为止。然后它会往北移动,就这样逆时针围着格子边缘移动,直到发现罐子。
  这种围着绕圈的策略不仅让罗比不会撞墙(如果用 M,随机移动时有可能会撞墙),而且搜索罐子的效率也比随机移动要高。
  我知道我的策略不完美,但也没想到会有这种办法。进化聪明得多,GA 经常会让我们感到意外。

GA是如何演化出好的技巧的

  美国国家航空航天局(NASA)的遗传算法专家罗恩(Jason Lohn)曾这样说:“进化算法是探索设计死角的伟大工具。你向具有 25 年工业经验的专家展示,他们会说‘这个真的能工作?’……我们经常发现进化出来的设计完全无法理解。”

第三部分 大写的计算

第 10 章 元胞自动机、生命和宇宙

自然界中的计算

  大脑的计算方式——数以亿计的神经元并行工作,而无须中央控制——与现代的数字计算机的运作方式完全不同。

第 11 章 粒子计算

  元胞自动机则没有 CPU 和内存可以用来计数。它只有一个一个的元胞,每个元胞除了自己的状态就只知道相邻元胞的状态。这种情形其实也是对许多实际系统的理想化。例如,在大脑中,神经元只与其他少数神经元有连接,而神经元必须决定是否激发,以及以何种强度激发,使得大量神经元的整体激发模式能表示特定的感知输入。类似的,蚂蚁必须根据与其他少量蚂蚁的交互来决定做什么事情,让蚁群整体能够受益。

  所有有叶植物的叶子表面都布满了气孔——根据光线和湿度开合的微小孔隙。气孔打开时可以让二氧化碳进来,用于光合作用。但是气孔打开也会导致植物体内的水分蒸发。科学家认为气孔组成了一个有点类似于二维元胞自动机的网络。他们猜测植物通过气孔进行分布式计算——通过优化气孔的开合让二氧化碳的获取和水分流失达到最佳平衡。

第12章 生命系统中的信息处理

什么是信息处理

  计算是复杂系统为了成功适应环境而对信息进行的处理。

免疫系统

  有人认为避免攻击自身的一个主要机制是负选择(negative selection)。当淋巴细胞产生出来时,它们不会被立即释放到血液中去,它们会在骨髓和胸腺中进行测试,与身体自身的分子进行接触。与“自身”分子紧密结合的淋巴细胞可能会被杀死或对基因进行“编辑”以改变受体。也就是说免疫系统只使用不会攻击自身的淋巴细胞。这个机制经常会失效,有时候会产生出糖尿病或类风湿性关节炎这类自身免疫性疾病。
  虽然免疫系统攻击外来病原体,它也还是有义务在攻击的毒性和尽可能防止伤害身体之间进行平衡。免疫系统使用了一系列机制来实现这种平衡(目前对这些机制还知之甚少)。其中许多机制都依赖于一组信号分子,被称为细胞因子(cytokines)。对身体的伤害会导致细胞因子的分泌,细胞因子会抑制活跃的淋巴细胞。可能伤害越严重,细胞因子的浓度就越高,活跃的细胞也就越有可能遇到它们,从而被关闭,达到调节免疫系统的目的,而不用对整个免疫系统进行抑制。

蚁群

  蚂蚁的食物搜索大致是这样进行的。蚁群中搜寻食物的蚂蚁随机朝一个方向搜索,如果遇到食物,就返回蚁穴,沿途留下作为信号的化学物质——信息素(pheromones)。当其他蚂蚁发现了信息素,就有可能会沿着信息素的轨迹前进。信息素的浓度越高,蚂蚁就越有可能跟着信息素走。如果蚂蚁找到了那堆食物,就会返回巢穴,将信息素的轨迹增强。如果信息素的轨迹得不到增强,就会消失。通过这种方式,蚂蚁一起创造和沟通关于食物位置和质量的各种信息,并且这种信息还会适应环境的变化。存在的轨迹和强度很好地表达了搜索蚁协同发现的食物情报。
  蚁群的任务分配也是以分散方式进行的。红色收割蚁蚁群中的工蚁分为四个工种:搜寻食物、维护蚁穴、巡逻和垃圾处理。执行各种任务的工蚁数量能随着环境变化。如果蚁穴被稍微搅乱,维护蚁穴的工蚁数量会增加。如果附近的食物源很多,质量很好,搜寻食物的工蚁数量就会增加。单只蚂蚁可以根据蚁穴环境的变化作出适应性响应,决定采取哪种工作,无需另外的蚂蚁来指挥,每只蚂蚁也仅与其他少数蚂蚁交互,它们是如何做到的呢?
  蚂蚁可能是根据它们周围的环境以及它所遇到的执行各种任务的蚂蚁比例来决定自己干什么。比如,一只闲逛的蚂蚁——目前什么也没有做——在蚁穴附近遇到了杂物,它执行蚁穴维护工作的概率就会增加。另外,如果它发现很多维护蚁穴的工蚁在进进出出,也会增加执行蚁穴维护工作的概率;因为这种活动的增加表明有重要的蚁穴维护工作在进行。类似的,维护蚁穴的工蚁如果遇到了很多搜寻食物的蚂蚁带着种子返回蚁穴,就会增加它转向搜寻食物工作的概率;因为种子搬运信号的增加表明发现了高质量的食物源,需要进行采集。显然,通过用触须与其他蚂蚁交流,侦测与各项工作有关的特殊化学物质,蚂蚁就能知道其他蚂蚁在做什么。

生物代谢

  代谢是指一系列化学过程,生物消耗从食物、空气或阳光中获取的能量,维持生命所需的所有功能。这些化学过程大部分发生在细胞内部。

这些系统中的信息处理

  将生命系统视为在进行计算的观点激发了计算机学家编写程序模仿这类系统来完成真实任务。例如免疫系统的信息处理思想引出了所谓的人工免疫系统:保护计算机免受病毒和各种入侵者攻击的适应性程序。类似的,蚁群启发了所谓的“蚁群算法”,模拟蚂蚁释放信息素和转换工作的原理来解决移动电话路由优化和货运调度优化等困难问题。

第 13 章 如何进行类比(如果你是计算机)

容易的事很难

  人类的大部分言辞原则上讲都有些模棱两可,但是当你和别人说话时,他们还是知道你的意思。如果我对我丈夫说:“亲爱的,你知道我的钥匙在哪里吗?”如果他仅仅回答说:“知道”,我会很恼火——显然我的意思是“告诉我,我的钥匙在哪里”。当我最好的朋友说她感到在工作中寸步难行时,我回应说“心有同感”,她会知道我的意思不是说我觉得她的工作寸步难行,而是说我自己的工作。这种相互理解就是所谓的“常识”,说得更正式点是“对上下文敏感”。

简化的类比

  思考下面的问题:如果 abc 变成 abd,ijk 应该变成什么呢?大部分人会将变化描述为“将最右边的字母用其后继字母替换,”因此答案是 ijl。但其他答案也有可能,比如说:

  • ijd(“将最右边的字母用 d 替换”)
  • ijk(“将 c 用 d 替换;在 ijk 中没有c”)
  • abd(“不管什么字母串,都用 abd 替换”)

  显然有无穷多种可能的答案,虽然可能性要小些,比如(“将 c 用 d 替换,将 k 用两个 x 替换”),但几乎所有人都认为 ijl 是最佳答案。不过这毕竟是个没有实际意义的抽象问题,因此如果你真觉得 ijd 好些,我也没法让你相信 ijl 更好。但是人类似乎进化出了在现实世界中进行类比的能力,以便更好的生存和繁衍,而他们的类比能力也能应用于抽象领域。这意味着几乎所有人都会从内心同意有一个特定的抽象层次是“最合适的”,因而得出答案 ijl。那些从内心会相信 ijd 是更好答案的人可能在进化过程中已经被淘汰了,这解释了为什么现在这样认为的人寥寥无几。

  再来看第二个问题:如果 abc 变成 abd,那 iijjkk 应变成什么?abc→abd 仍然可以看做“将最右边的字母用其后继字母替换”,但如果将这条规则直接应用于 iijjkk,得到的答案就是 iijjkl,没有考虑到 iijjkk 的字母重复结构。大多数人会认同答案 iijjll,背后的规则是“将最右边的字母组合用其后继字母的组合替换”,将 abc 中字母的概念变成了iijjkk 中重复字母组合的概念。
  在下面的问题中可以看到另一种概念迁移(conceptual slif-page)
  abc→abd
  kji→?
  如果直接应用规则“将最右边的字母用其后继字母替换”,得到的答案就是 kjj,但这样就没有考虑到 kji 的反向结构,kjj 是从右向左呈升序结构,而不是从左向右。这使得 abc 中的概念右迁移到了 kji 中的概念左,从而产生出新的规则,“将最左边的字母用其后继字母替换”,得出答案 lji。大部分人都认同这个答案,有些人则倾向于答案 kjh,将 kji 视为方向仍然是从左往右,只是采取的是降序。这里是将“后继字母”迁移为“前继字母,”因此新规则就成了“将最右边的字母用其前继字母替换”。

  再看下一个问题
  abc→abd
  mrrjjj→?
  你想利用 abc 为字母升序这个明显的事实,但是现在呢?abc 的内在结构很显眼,似乎是这个字母串的主要特征,但是似乎不容易看出有这样的结构。因此你可能会像大多数人一样认同 mrrkkk(或是 mrrjjk),也可能会多琢磨一下。这个问题的有趣之处在于,mrrjjj 的背后正好潜藏着一个特征,认识到了这个特征,就能得出一个让大多数人更满意的答案。如果你忽略mrrjjj 的字母,只注意其字母组合的长度,就能发现连续结构:字母组合的长度按“1-2-3”递增。一旦发现了 abc 和 mrrjjj 之间的这个关联,就可以得出规则“将最右边的字母组合在长度上增加一个”,在抽象层面上变成“1-2-4,”在具体层面上则对应为 mrrjjjj。

  最后再来看看下面的问题
  abc→abd
  xyz→?
  粗一看这个问题似乎与前面的 ijk 那个问题一样,可是有一个问题:z 没有后继字母。大多数人的答案是 xya,但是规定字母表不许循环,因此这个答案不成立。这个问题陷入了僵局,做类比的人需要重新审视他们最初的观点,可能需要原来没有考虑过的概念迁移,从而发现一种不同的方式来对问题进行理解。
  人们对这个问题有各种答案,包括 xy(“干脆将 z 去掉”),xyd(“将最右边的字母用 d 替换”;由于问题不寻常,这个答案虽然不那么严格,但是比前面的 ijd 要合理),xyy(“如果不能用 z 的后一个字母,那么就不如用它的前一个字母”),等等。然而有些人却似乎有天才般的洞察力,对这个问题能另辟蹊径。其中关键是注意到 abc 与 xyz 互为“镜像”——xyz 位于字母表的末端,而 abc 则位于前端。因此 xyz 中的 z 可以看做与 abc 中的 a 对应,很自然的 x 就与 c 对应。在这种对应背后是一组平行的概念迁移:字母表头→字母表尾,最左→最右,后继→前继。这些迁移合在一起,就将最初的规则变成了适用于 xyz 的规则:“将最左边的字母用其前一个字母替换。”从而得出很让人吃惊却又很有说服力的答案:wyz。
  现在应该很清楚了,要在这个微型世界中进行类比,同在现实世界中一样,关键就是我所说的概念迁移。根据当前的背景找到合适的概念迁移对于找到好的类比极为重要。

如何做到

  侯世达提出了一种探索不确定环境的方案,“并行级差扫描”。根据这个方案,许多可能性被并行地进行探索,用获得的最新信息不断对各种可能性的收益进行估计,并根据反馈分配资源。同蚁群和免疫系统一样,所有可能性都有可能被探索,但是在同一时刻只有部分被探索,并且分配的资源也不一样多。当人(或蚁群或免疫系统)对所面临的情形只有很少的信息时,对各种可能性的探索开始时非常随机、高度并行(同时考虑许多可能性)和分散:没有理由要特别考虑某种可能性。随着获得的信息越来越多,探索逐渐变得集中(增加的资源集中于少数可能性)和确定:确实有收益的可能性会被开发。

第 14 章 计算机模型

模型是什么

  在科学中,模型是对某种“实在”现象的简化表示。科学家说是在研究自然,但实际上他们做的大部分事情都是在对自然进行建模,并对所建立的模型进行研究。
  以牛顿的引力定律为例:两个物体之间的引力正比于它们质量的乘积。这是对一种特定现象的数学描述——也就是数学模型。还有一种模型是用较为简单的概念来描述现象实际是如何运作的,也就是所谓的原理。

  牛顿的引力定律仍然被用来预测行星轨道,而爱因斯坦的广义相对论则成功预测了那些所预测的轨道的偏差。

对合作的进化进行模拟

  策略指的其实就是一组规则,规定了在各种情形中应该采取何种行动。

第四部分 网络

第 15 章 网络科学

小世界

  心理学家柯兰菲尔德(Judith Kleinfeld)研究发现,米尔格兰姆的发现被曲解了——事实上,大部分信件从没有到达收信人手中,而在米尔格兰姆的其他研究中,到达收信人的信件经过的平均熟人关系也不止 5 个。然而,六度分隔的小世界思想还是成了文化的传奇。

网络新科学

  数学家研究抽象网络结构的学科被称为“图论”。

什么是网络思维

  网络思维意味着关注的不是事物本身,而是事物之间的关系。人类和芥菜都大致有 25000 个基因,这似乎无法体现人类与这种植物的生物复杂性的差别。近几十年来,一些生物学家提出生物的复杂性主要来自基因之间交互作用的复杂性。

到底什么是“网络”

  网络是由边连接在一起的节点组成的集合。节点对应网络中的个体(例如神经元、网站、人),边则是个体之间的关联(例如突触、网页超链接、社会关系)。
  网络中存在的内部联系紧密、外部较松散的群体被称为集群(clustering)。进出一个节点的边的数量称为这个节点的度(degree)。借助这些术语,我们可以说网络中有少数高连接度的节点,以及大量低连接度的节点。
  高连接度的节点被称为中心节点(hub),它们是网络中主要的信息或行为的传递渠道。
  网络科学家发现,他们研究过的自然、社会和技术网络中,大部分都具有这些特征:高度的集群性、不均衡的度分布以及中心节点结构。

小世界网络


  重连后的网络与原来的规则网络的边数量一样多,但是平均路径长度一下就降到了 9 左右。节点数量越多,这个效应越明显。例如,如果是有 1000 个节点的规则网络,平均路径长度是 250,如果 5% 的边重连,平均路径长度会一下降到 20。只需很少的随机连接就能产生很大的效应……不管网络的规模多大,前 5 个随机重连会将平均路径长度平均减少一半。
  这解释了小世界性:一个网络如果只有少量的长程连接,相对于节点数量来说平均路径却很短,则为小世界网络。小世界网络也经常表现出高度的集群性:任选 3 个节点 A、B、C,如果节点 A 与节点 B 和 C 相连,则 B 与 C 也很有可能相连。这在图中不明显,因为这个网络中大部分节点都只与两个相邻节点相连。但如果网络更贴近真实,也就是说节点与更多节点相连,则集群性会很高。社会网络就是一个例子——朋友的朋友也很有可能是我的朋友。
  科学家们在现实世界中发现了越来越多的小世界网络。自然、社会和技术演化产生的许多生物、群体和产品似乎都具有这种结构。有假说认为至少有两种相互矛盾的选择压力导致了这种结果。在系统内快速传播信息的需要,以及产生和维持可靠的远程连接的高成本。小世界网络具有较短的平均路径长度,同时又只需相对较少的长程连接,从而解决了这两个问题。

无尺度网络

  在谷歌出现之前,搜索引擎是在一张索引上搜索查询的单词,索引将所有可能的英文单词对应到包含有这个单词的网页的列表。比如,如果你用“apple(苹果)records(唱片、记录)”这两个单词进行搜索,搜索引擎会列出包含这两个单词的所有网页,根据这些单词的出现次数进行排序。你可能会得到华盛顿州苹果的历史价格网页,或是塔斯马尼亚大苹果赛的最快时间记录,或是甲壳虫乐队 1968 年的著名唱片的网页。当时在一大堆不相关的网页中寻找你想要的信息是一件让人充满挫折感的事情。
  20 世纪 90 年代,谷歌改变了这一切。谷歌提出了一种革命性的思想,用一种称为“网页排名(PageRank)”的方法对网页搜索结果进行排序。其中的思想是网页的重要性(和可能的相关性)与指向这个网页的链接数量(入连接的数量)有关。例如,在我写下这些的时候,《美国西部果农》报道 2008 年苹果价格的网页有 39 个入连接,关于塔斯马尼亚大苹果赛信息的网页有 47 个入连接。甲壳虫乐队官网(www.beatles.com)有大约 27000 个入连接。在搜索“apple records”时这个网页位于列表前面。在搜索到的近一百万个网页中,另两个网页则远远排在后面。最初的网页排名的思想非常简单,但它极大地改善了搜索引擎,与搜索单词最相关的网页通常都位于列表的前面。
  如果我们将万维网看做一个网络,节点是网页,边是网页之间的超链接,我们就能发现网页排名之所以有效是因为这个网络具有特定的结构:同典型的社会网络一样,大部分网页为低连接度(入连接相对较少),极少部分网页具有高连接度(入连接相对较多)。此外,网页之间的入连接数量差别很大,这样才使得排名有意义——能真正对网页进行区分。换句话说,万维网具有前面描述的那种度分布和中心节点结构。而且它也具有高度的集群性——一些网页“群体”内部相互连接。用网络科学的术语说,万维网是无尺度网络。

  这样的分布被称为是自相似的,因为不管在哪种尺度上进行绘制,形状都是一样的。说得更专业一点,就是“在不同尺度下具有不变性”。这就是无尺度一词的由来。

网络稳健性

  无尺度网络有一个非常重要的特性,在节点被删除时具有稳健性。也就是说,如果随机删除一些节点,不会改变网络的基本特性:仍然会有多样的度分布、很短的平均路径以及很高的集群性,即使删除的节点很多也不会有什么变化。原因很简单:如果随机删除节点,则极有可能删除的是低连接度的节点,因为网络中绝大部分节点都是低连接度节点。删除这种节点对总体的度分布和路径长度的影响很小。万维网就是这样,网络上不断有计算机出故障或是被移除,但是这对万维网的运转不会有明显影响,也不会改变其平均路径长度。类似的,网页和链接也在不断被删除,但网上冲浪不会受什么影响。
  不过,这种稳健性是有代价的:如果删除了中心节点,网络就有可能会失去无尺度特性,并且无法正常运转。例如,芝加哥(航班网络的中心节点)的暴风雪可能会导致全国大面积的航班延误或取消。谷歌出故障会对整个万维网形成很大冲击。
  总而言之,无尺度网络对节点的随机删除具有稳健性,但如果中心节点失效或是受到攻击就会非常脆弱。

第 16 章 真实世界中的网络

真实世界中的网络

  为什么进化喜欢具有小世界特性的大脑网络呢?弹性可能是一个重要原因:我们知道神经元会不断死去,但幸运的是,大脑仍然能正常运转。大脑的中心节点则是另一回事:比如海马区(负责短时记忆的网络的中心),如果受到击打或是疾病侵袭,后果将会是毁灭性的。
  另外,研究者还猜测,连接度的无尺度分布使得大脑可以在两种大脑行为之间达成最佳妥协:信息在视觉皮层或语言区等局部区域的处理,以及信息的全局处理,例如视觉皮层的信息传递到语言区,或者反过来。
  如果每个神经元或是所有功能区相互之间都有连接,在这些连接上传递信号耗费的能量将大得惊人。进化可能选择了能效更高的结构。另外,如果那样大脑的体积也要大得多。另一方面,如果大脑中没有长程连接,则不同区域之间的通讯会困难得多。人类的脑容量——以及相应的颅骨大小——似乎在大小上形成了精妙的平衡,要大到足以进行复杂的认知,同时又要小到可以让母亲生下来。有观点认为正是小世界特性让这种平衡得以达成。
  科学家们普遍认为,同步——神经元群不断同时激发——是大脑中信息高效传播的主要机制,而小世界结构极大地促进了这种同步的产生。

  人类大约有 25000 个基因,与拟南芥的基因数量差不多。人类之所以比植物复杂,不在于基因数量,而在于基因如何相互作用。
  有很多基因的作用就是调控其他基因——即决定受调控的基因是否表达。
  稳健性对于基因调控网络也很重要。基因转录和调控的过程远不是完美的;它们难免犯错,而且经常受病毒等病原体的侵袭。无尺度结构能让系统基本上不受这些错误影响。

  研究性传播疾病的流行病学家经常需要研究性关系网络,这个网络中的节点代表人,边则代表人之间的性伴关系。最近,一个由社会学家和物理学家组成的团队分析了瑞典性行为调查数据,结果发现得出的网络为无尺度结构;其他对性关系网络的研究也得出了类似结论。
  在这种情形下,移除中心节点就对我们有利。专家建议,安全性行为宣传、疫苗接种等干预措施应当主要针对这类中心节点。
  但是得不到性关系的数据,绘制不出整个网络,又如何能识别出中心节点呢?
  另一个网络科学家团体提出了一个巧妙而简单的方法:从风险人群中随机选取一组人,让他们每人提供一位性伴的名字。然后给这些性伴接种疫苗。性伴很多的人出现在名单中的概率会很高,从而通过这种方案被接种疫苗。
  当然这种方法也可以用到其他场合,用来进行“中心节点打靶”,比如对付通过电子邮件传播的病毒:对于这种情况,杀毒应当重点针对邮件通讯录联络人很多的用户,而不是寄希望于所有计算机用户都能查杀病毒。

网络思想的意义

  在科学领域,网络思想为描述自然界复杂系统的共性提供了新的语言,也使得从不同领域得到的知识能相互启发。就其本身来说,网络科学正是它自己所说的那种中心节点——它使得本来相隔遥远的学科变得很近。
  在技术领域,网络思想为许多困难问题提供了新的思路,例如,如何让网络上的搜索变得高效,如何控制流行病,如何管理大型组织,如何保护生态系统,如何应对威胁身体中的复杂系统的疾病,如何应对现代犯罪和恐怖组织,以及在更高层面上,自然、社会和技术网络有怎样内在的稳健性和脆弱性,又应当如何利用和保护这种系统。

无尺度网络是如何产生的

  没有谁有意识地将万维网设计成无尺度分布。万维网的连接度分布,同前面提到的所有网络一样,是网络在形成过程中涌现的产物,是由网络的生长方式决定的。
  1999 年,物理学家巴拉巴西和艾伯特提出了一种网络生长机制——偏好附连(preferential attachment),用来解释大部分真实世界网络的无尺度特性。其中的思想是,网络在增长时,连接度高的节点比连接度低的节点更有可能得到新连接。直观上很明显。朋友越多,就越有可能认识新朋友。网页的入度越高,就越容易被找到,因此也更有可能得到新的入连接。换句话说就是富者越富。偏好附连的增长方式会导致连接度无尺度分布。这种机制以及所产生的幂律在以前至少被独立发现过三次。
  科技文献引用网络的增长是偏好附连效应的一个例子。在这个网络中节点是科技文献;一篇论文如果被另一篇论文引用,就得到一条入连接。因此论文被引用的次数越多,连接度就越高。人们一般认为被引用次数越多,论文就越重要;在科学界,这个指标会决定你的职位、加薪,等等。不过,偏好附连似乎经常在其中扮演重要角色。设想你和科学家乔各自独立地就同一个问题写了很出色的论文。如果我在我的论文中碰巧引用了你的文章,却没有引用乔的,其他人如果只读了我的文章就很有可能会引用你的文章(经常是读都没读)。其他人如果读到了他们的文章,也会更有可能引用你的而不是乔的文章。局势会越来越有利于你,不利于乔,尽管乔的论文和你的论文质量一样好。偏好附连机制会导致作家格拉德威尔(Malcolm Gladwell)所说的引爆点(tipping points)——论文引用、时尚流行等过程通过正反馈循环开始剧烈增长的点。另外,引爆点也可以指系统中的某处失效引发系统全面加速溃败,后面我们将讨论这种情况。

幂律以及对其的质疑

  无尺度网络的连接度幂律分布能使系统稳健、通讯迅速,这也使得这种网络在自然界很普遍,而它们的形成机制主要是偏好附连。
  网络的简化模型无法解释真实世界中的网络的一切。不管是小世界还是无尺度模型,所有节点都被当做是一样的,除了连接度;所有的边的类型和强度也是一样的。在真实世界中的网络不是这么回事。例如,在我的社会网络中,一些代表友情的边就比其他边的强度要大些。Kim 和 Gar 都是我的朋友,但是我和 Kim 关系更好,因此我也更有可能把我个人的重要事情告诉她。而且,Kim 是女人,而 Gar 是男人,这也使得我更倾向于信赖 Kim。同样的,比起 Kim 来,我的朋友 Greg 要懂数学一些,因此如果我想讨论纯数学方面的问题,我就更有可能找 Greg 而不是 Kim。边和节点类型的区别,以及边的强度,对于信息在网络上的传播有很大影响,而简化的网络模型无法把握这种影响。

网络中的信息传播和连锁失效

  连锁失效现象的存在促使人们关注网络中的信息传播以及其如何受网络结构影响。网络中的连锁失效是这样一个过程:假设网络中每个节点都负责执行某项工作(例如传输电力)。如果某个节点失效了,它的工作就会转移到其他节点。这有可能会让其他节点负荷过重从而失效,又将它们的工作传递到其他还未失效的节点,这样不断发展。结果是失效如同加速的多米诺骨牌一样扩散,从而让整个网络崩溃。
  连锁失效的例子在现实网络世界中很常见。

  • 2003 年 8 月:美国中西部和东北部发生大规模断电,是由俄亥俄州一家发电厂发生故障引发的连锁失效导致的。据报道,由于天气过于炎热,导致电线负荷过高,引起线路下垂,碰到了树枝,触发了线路自动断路,负载被转移到电网其他部分,使得其他部分也因过载而失效。过载失效迅速传播,最后导致加拿大和美国东部 5 千万居民断电,有些地区断电长达 3 天。
  • 2007 年 8 月:美国海关计算机系统崩溃了近 10 个小时,导致 17000 多名旅客滞留在洛杉肌国际机场。事故是由一台计算机的网卡故障引起的。这个故障很快导致其他网卡也连锁失效,不到 1 个小时,整个系统都崩溃了。海关职员无法处理到达的国际旅客,其中一些人不得不在飞机上等了 5 个多小时。
  • 1998 年 8~9 月:私人金融对冲基金美国长期资本管理公司(Long-TermCapital Management,LTCM)得到数家大型金融公司担保从事风险投资,结果将公司的权益价值几乎赔光。美联储担心它的亏损会导致全球金融市场崩溃,因为为了偿债,LTCM 会不得不卖掉大部分资产,导致股票等有价证券的价格下跌,从而迫使其他公司也抛售资产,导致价格进一步下跌,直至崩溃。1998 年 9 月末,为了防止出现这种局面,美联储召集了其主要债权银行援助 LTCM。

  前面我们说到,在节点随机失效时,对网络的平均最短路径长度不会有很大影响。这种特性在连锁失效的情况下并不成立,因为一个节点的失效会导致其他节点也失效。连锁失效是“引爆点”的又一个例子,小事件触发加速正反馈,结果小问题导致严重后果。许多人担心黑客和电脑恐怖分子威胁全球网络基础,但连锁失效带来的威胁可能更大。随着我们的社会越来越依赖计算机网络、网络投票机、导弹防御系统、电子银行,等等,连锁失效的情况也越来越常见,威胁也越来越大。正如研究这种系统的专家安东诺普洛斯(Andreas Antonopoulos)指出的,“威胁来自复杂性本身”。

第 17 章 比例之谜

生物学中的比例缩放

  人们很早就发现,相对于体重大小来说,较小动物的代谢率比较大的动物更快。1883 年,德国生理学家鲁伯纳(Max Rubner)尝试从热力学和几何的角度来确定准确的比例关系。代谢过程要将能量从一种形式转化成另一种形式,因此总是会发热。生物的代谢率可以定义为细胞将营养转化为能量的速率,能量用于细胞的运作和生成新细胞。在这个过程中生物会以同样的速率散发热量。因此通过测量生物产生的热量就能推导出代谢率。
  代谢率与体重的 3/4 次幂呈比例。也就是说,代谢率正比于体重 3/4。你肯定注意到了这就是一个指数为 3/4 的幂律。这个结果出人意料。指数为 3/4 而不是 2/3,这意味着动物——尤其是较大的动物——的代谢率比人们预想的要高,这也意味着动物要更高效。

一次跨学科合作

  这个幂律关系现在被称为克莱伯定律(Kleiber’s law)。最近有研究发现,3/4 次幂比例不仅对哺乳动物和鸟类成立,对鱼类、植物,甚至单细胞生物也成立。

代谢比例理论

  大多数动物循环系统的毛细血管都是一样大的。只是越大的动物毛细血管越多。这是因为细胞的大小不受身体大小影响:老鼠和河马的细胞都差不多大。只是河马的细胞更多,因此也需要更多的毛细血管向它们提供养分。

理论的应用

  圆这样的二维对象有周长和面积。如果是三维,就分别对应表面积和体积。如果是四维,表面积和体积则分别对应于“表面”体积和超体积——这个量很难想象,因为我们天生擅长思考三维,不擅长思考四维。表面积与体积呈指数为 2/3 的比例关系,通过类似的论证,就可以知道四维的表面体积与超体积呈指数为 3/4 的比例关系。
  简而言之,布朗、恩奎斯特和韦斯特的观点就是,进化将我们的循环系统塑造成了接近于“四维的”分形网络,从而使我们的新陈代谢更加高效。用他们自己的话说,“虽然生物是三维的,内部的生理结构和运作却表现为四维……分形几何给了生命一个额外的维度。”

幂律的未解之谜

  怀疑是科学家们最重要的职责,越是杰出而有雄心的理论,越是会受到质疑。
  争议不会很快平息;牛顿的引力理论提出来60年后都没有被广泛认可,许多最重要的科学进展都曾有类似的经历。
  科学家们一般都假定大部分自然现象都服从钟形曲线或者说正态分布。然而幂律却在很多现象中都有被发现。

第 18 章 进化,复杂化

基因是什么

  分子革命的一个诱因就是基因概念本身。下面来看看部分新近发现的许多现象,这些现象关注的是基因和遗传的运作机制。

  • 基因并不像“一根绳子上串着的豆子”。我在中学学生物时,基因和染色体被解释比喻成一根绳子上串着的豆子。后来发现基因并不是相互分开的。有些基因相互重叠——也就是说,它们各自编码不同的蛋白质,但是共用 DNA 核甘酸。有些基因甚至完全包含在其他基因内部。
  • 基因可以在染色体上移动,甚至移动到其他染色体,染色体的组成也会被重新排列。这在任何细胞中都有可能发生,包括精子和卵子,也就是说可以遗传。这样产生的变异率比 DNA 复制错误导致的变异率要高得多。一些科学家提出,近亲甚至同卵双胞胎之间的差别可能就是这种“可动遗传因子(mobile genetic element)”造成的。还有人提出,跳跃基因是导致生命多样性的机制之一。
  • 单个基因可以编码多个蛋白质。以前一直以为基因和蛋白质是一对一的关系。这个认识在人类基因组被测序后受到怀疑,基因编码的不同蛋白质的数量可能超过 100000 种,而人类基因组只有大约 25000 个基因。最近发现的多重剪接(alternative splicing)和 RNA 编辑(RNA editing)可以帮助解释这个差异。这些过程可以在信使 RNA 转录 DNA 之后和译码成氨基酸之前以各种方式变化。这意味着同样的基因通过不同的转录事件可以产生出不同的蛋白质。
  • 由于如此复杂,以至于最专业的生物学家也经常无法对“基因”的定义达成共识。最近一组科学哲学家和生物学家进行了一项调。向 500 名生物学家各提供一些不常见但真实的 DNA 序列,然后问他们这些序列是不是“基因”,以及他们对自己的答案有多大把握。结果发现对其中许多序列,他们的想法产生了分化,60% 的人相信一个答案,40% 的人相信另一个答案。《自然》杂志上报告这项调查的文章评论道,“对分子遗传学越专长的学者,越不确定基因到底是什么。”
  • 生物系统的复杂性主要来自基因网络,而不是单个基因独立作用的简单加总。以前的绳子串豆子的观念同孟德尔遗传律一样,都是把基因看做线性的——每个基因都各自负责某个表型。而现在的普遍观念则是,细胞中的基因组成了非线性的信息处理网络,一些基因会根据细胞状态控制其他基因的行为一基因并不是独立运作。
  • 即使基因的 DNA 序列不发生变化,基因的功能也会发生可遗传的变化。最近兴起的表观遗传学(epigenetics)研究的就是这种变化。一个例子就是所谓的 DNA 甲基化(methylation),细胞中的一种酶将特定的分子连接到 DNA 序列的某些部分,将这些部分“关闭”。一旦细胞中发生这种现象,这个细胞的所有后代就会产生同样的 DNA 甲基化。如果 DNA 甲基化发生在精子或卵子中,就会被遗传。
  • 一方面,这类表观遗传现象在所有细胞中都不断在发生,对生命活动的许多方面都很关键,因为它可以关闭不再需要的基因(例如,一旦进入成年期,我们就不再需要像小孩一样生长发育;控制青春期发育的基因就会甲基化)。另一方面,错误的甲基化,或者应当甲基化却没有甲基化,又会导致遗传紊乱和疾病。事实上,一些人认为,正是由于胚胎发育期缺乏必需的甲基化,使得很多克隆胚胎无法存活,许多克隆动物即便存活也会有严重甚至致命的缺陷。
  • 最近发现,在大部分生物中,DNA 转录为 RNA 之后很大部分最终都没有被译码成蛋白质。这些所谓的非编码 RNA 对基因和细胞的功能具有调控作用,这些以前都认为是由蛋白质单独完成的。非编码 RNA 的作用是目前遗传学中一个非常活跃的研究领域。

  遗传学已经变得非常复杂了。这种复杂对生物学的影响巨大。一些人曾以为人类基因的详尽图谱能让我们彻底理解遗传的运作原理,哪个基因对应哪项特征,并带来医学发现和靶向性基因治疗的革命。虽然发现了一些基因可能是某些疾病的原因,但结果表明仅仅知道 DNA 的序列还不足以让我们理解人(或其他复杂生物)的全部特性和缺陷。

进化发育生物学

  20 世纪80~90年代,观念有了很大变化。DNA 测序发现许多不同的物种 DNA 却很相似。遗传学的进展也使得对胚胎发育过程中基因表达的机制有了更详细的了解。结果发现这些机制与之前预想的差别很大。胚胎学家发现,在研究过的复杂动物中,都存在一小部分“主导基因”调控动物许多身体部位的发育成形。更让人吃惊的是,各物种之间,不管是果蝇还是人类,虽然形态差异极大,主导基因的 DNA 序列却有许多是相同的。
  如果发育过程是受相同的基因掌控,这些动物的形态怎么会如此不同呢?进化发育生物学的支持者提出,物种形态多样性的主要来源不是基因,而是打开和关闭基因的基因开关。这些开关是不编码蛋白质的 DNA 序列,通常长度为几百个碱基对。它们以前被认为是所谓的“垃圾基因”的一部分,但现在发现有基因调控的作用。
  基因开关是位于某个基因旁边的非编码 DNA 序列。这个序列一般包含有一组标签子序列,其中每个都可以与特定的蛋白质结合,从而让蛋白质附着到 DNA 上。旁边的基因是否能被转录,速度多快,都取决于蛋白质与这些子序列的结合情况。允许转录的蛋白质会为进行转录的 RNA 分子创造强结合点;阻止转录的蛋白质则会阻挡这些 RNA 分子同 DNA 结合。其中一些蛋白质还能消除其他蛋白质的作用。
  这些特定的调控蛋白质是从何而来呢?同所有蛋白质一样,它们由基因生成,这里是由调控基因对这些蛋白质进行编码,根据细胞的当前状态决定相应基因是开还是关。这些调控基因又是如何判断细胞的状态呢?一些蛋白质可以与这些调控基因本身的开关相结合,从而向其传递细胞状态的信号。这些蛋白质通常是由另外的调控基因编码,这些基因又由其他基因调控。
  简而言之,基因调控网络包括功能基因和调控基因,功能基因编码用于细胞结构和运转的蛋白质(和非编码 RNA),而调控基因编码的蛋白质则可与目标基因旁边的 DNA“开关”相结合,从而开启或关闭相应的基因。
  人类之所以与其他差别极大的物种能有如此多相同的基因,是因为虽然基因是一样的,基因开关的序列构成却已进化得不一样了。基因开关的微小变化能导致发育过程中基因采取截然不同的开关模式。因此,根据进化发育生物学,生物的多样性主要来自开关而不是基因的进化。这也是为什么形态的巨大变化——可能还包括物种形成——可以在很短的进化时间内发生:主导基因不变,但是开关变了。根据进化发育生物学的观点,进化的主要力量正是这种——长期以来一直被视为“垃圾”的 DNA 的——变化,而不是新基因的出现。生物学家马蒂克就此评论说:“讽刺的是……一直被视为垃圾的 DNA 却藏有人类复杂性的秘密。”
  进化发育生物学的一个惊人例证就是燕雀鸟喙的进化。加拉帕格斯群岛燕雀的喙的大小和形状差别很大。直到不久前,大部分进化生物学家都还认为这种差别是几种基因随机变异逐渐积累的渐变过程。但最近发现了一个名为 BMP4 的基因可以通过调控生成骨骼的基因来控制喙的大小和形状。鸟在发育过程中 BMP4 的表达越强烈,喙就越强大。另一种名为钙调素 (calmodulin)的基因则被发现与长细形的喙有关。为了证明 BMP4 基因确实能触发生长粗壮、能打开坚果的喙,研究者在小鸡胚胎发育出喙时人为加快了 BMP4 的产生。结果小鸡长出了宽厚而结实的喙,类似于能啄开坚果的燕雀……像 BMP4 一样,钙调素基因的表达越强,雀喙就会长得越长。如果在小鸡胚胎中人为增加钙调素,小鸡就会长出变长的喙,就像啄食仙人掌的燕雀……这样科学家就发现,无需几十上百种基因,只需这两种,就有可能让鸟喙变得或是厚重、或是短粗、或是细长。”结论是鸟喙(及其他特征)形态的巨大变化可以很快发生,而无须等待时间漫长的随机变异。
  进化发育生物学挑战进化传统观念的另一个例子是趋同进化(convergent evolution)。章鱼眼睛和人类眼睛——形态差异很大——是趋同进化的例子。这两个物种的眼睛是相互独立进化出来的,是自然选择作用于两种不同环境的产物,两种环境中眼睛都具有适应优势。
  然而,最近有证据表明,这两种眼睛的进化并不像以前认为的那样独立。人类、章鱼、苍蝇等物种都具有名为 PAX6 的基因,这种基因能引导眼睛的发育。瑞士生物学家格林将老鼠的 PAX6 基因取出插入到果蝇的染色体中。在不同实验中,PAX6 被插入染色体的三个不同部位:这三个部位分别引导腿、翅膀和触须的发育。结果非常怪异:果蝇的腿、翅膀和触须上长出了类似眼的结构。这种结构像果蝇的眼,而不是老鼠的眼。格林得出结论:眼睛不是多次独立进化出来的,而是只有一次,有一个具有 PAX6 基因的共同祖先。这个结论在进化生物学家中仍然极具争议。
  虽然主导基因引导的基因调控网络能产生多样性,它们也对进化施加了一些限制。进化发育生物学家认为任何生物的身体形态类型都受主导基因高度约束,这也是为什么自然界中只有少数基本的身体结构类型。如果基因组很不相同的话,也许会有新的身体结构类型,但实际上进化无法让我们变成那样,因为我们非常依赖现在的调控基因。我们的进化可能性是有局限的。根据进化发育生物学的观点,“所有特性都能无限变化”的观念是错误的。

基因调控和考夫曼的“秩序的起源”

  考夫曼认为,一旦网络结构变得足够复杂——即有大量节点控制其他节点——复杂和“自组织”行为就会涌现出来。
  他说:个体发育过程中的美丽秩序大部分是自发的,是极度复杂的调控网络所包含的惊人自组织的自然表达。

总结

第五部分 尾声

第 19 章 复杂性科学的过去和未来

统一理论和一般性原理

  更过分的是,霍根在文中引用我的话说:“在某种程度上你可以说所有复杂系统都体现了同样的根本原则,但我不认为那会很有用。”我真的这样说过吗?我怀疑。这样说的背景是什么?我是表示认同这种观点吗?霍根通过电话采访了我一个多钟头,我说了很多;他单单选了最负面的评论。当时我还没有多少同科学记者打交道的经验,我感到非常生气。
  这件事给了我一些教训:和记者打交道要非常小心。

复杂系统研究的根源

  据说爱因斯坦——他是杰出的理论大师——曾说过,“如果事实与理论不符,就改变事实。”当然,这取决于是什么理论和事实。理论越是稳固,你就越应当怀疑与之相抵触的事实,反过来如果与之相抵触的事实越是有根据,你就越应当怀疑你提出的理论。这就是科学的本性——永无止境的提议和质疑。

五个问題

  最近,一位名叫吉尔森逊(Carlos Gerehenson)的学者向一些同行分发了一份复杂系统问题表,并计划在名为《复杂性5个问题》(Complexity:5 Questions )的书中发表这些回应。问题如下:

  1. 你为何会研究复杂系统?
  2. 你怎样定义复杂性?
  3. 你喜欢的复杂性方面/概念是什么?
  4. 在你看来,复杂性最成问题的方面/概念是什么?
  5. 你如何看待复杂性的未来?

复杂性的未来,等待卡诺

  微积分发明之前牛顿受困于语言的混乱——有些词汇定义不清,有些词汇甚至还没有出现……牛顿相信,只要他能找到合适的词汇,他就能引领整个运动科学。……”通过发明微积分,牛顿最终创造了所需的词汇。借助于无穷小、微分、积分和极限等概念,微积分为严格描述变化和运动提供了数学语言。这些概念在数学中已经存在,但是不完整;牛顿能够发现它们之间的关联,并且构建出和谐统一的宏大建筑将它们结合到一起,让它们彻底一般化。这幢宏大的建筑使得牛顿能够创造出动力学体系。

附录 访谈——梅拉妮·米歇尔 谈复杂性

  复习系统定义:由大量相互作用的组分组成的系统,与整个系统比起来,组分相对简单,没有中央控制,组分之间也没有全局性的通讯,并且组分的相互作用导致了复杂行为。这里“复杂行为”指的是前面列出的那些术语(适应性、涌现,等等)。

  类比与复杂性有什么关系?
  类比是认知的核心。

  网络科学试图研究各学科中的各种网络,并给出共通的原理和方法。图论是对网络的数学研究;社会学家和社会心理学家研究社会网络;工程师研究电力网络和互联网这类技术网络;生物学家研究食物网;遗传学家研究基因调控网络;等等。但大多数时候各学科之间没有相互沟通。最近人们才开始发现这些不同系统之间有趣的共性。
  许多(也许是所有)复杂系统都可以被视为网络,个体(节点)与有限数量的其他个体进行通讯(连接),因此网络的交叉学科研究有可能揭示复杂网络的普遍共性。

  “无尺度”是否适用于互联网?大卫·奥尔德逊提出,互联网以及谷歌云这类互联网上的子系统具有针对性的工程设计,比无尺度模型所预测的更具有稳健性。
  米歇尔 :奥尔德逊的例子(路由跟踪数据、谷歌服务器)指的是互联网(由服务器和其间的通信连接组成),与万维网不是一个概念(万维网是由超链接组成的逻辑结构),而万维网才被许多人认为具有无尺度性。但大的问题仍然成立;总体上很难判断一个大型网络是否确实是“无尺度的”,还是具有某种其他结构。精确地说,“无尺度”一词指的是具有连接度幂律分布的数学性质。在现实世界中,这个性质只能被近似满足,没有绝对的“无尺度”网络,就像自然界中没有完美的分形一样。因此问题是:在何种程度上我们可以说网络是无尺度的,这种近似对于理解网络的行为有用吗?许多经验研究表明,包括万维网在内的许多自然和技术网络具有(近似的)无尺度特性。