牛津通识读本:网络 [11]
跟优先连接一样,适应度机制不大可能在所有的现实世界网络中起作用。巴拉巴西–奥尔贝特模型被用于扩张中的网络时还算可靠,适应度模型对静态网络也有效,后者的节点数大致是固定的。然而,这两种模型还能同时起作用:2001年,物理学家吉内斯特拉·比安科尼和巴拉巴西共同将适应度这一概念引入到优先连接模型中,证明了这两种效应的共同作用良好预测了网络的拓扑属性。但必须注意的是,适应度模型并不总呈幂律度数分布。大范围的适应度和连接规则才能产生幂律度数分布,但很多其他的则无法做到这一点。然而,这并非某种局限性,而是这种模型积极的一面,这使得它能应用于像世界贸易网络这样的非异质网络。
各种策略
邻家女孩(或男孩)的神话已成为历史。根据社会学家米歇尔·博宗和弗朗索瓦·埃朗1989年的一项研究,80年代中期,在自己小区找到配偶的人已微乎其微了,在法国这一比例仅为3%。然而,这种情况仅在30年前还十分普遍:博宗和埃朗发现,这一比例在1914年到1960年间为15%-20%。世界上许多国家中的情况依旧如此。在某些情况下,婚姻(以及一般意义上的社会关系)既不受某种流行趋势驱动,也不受相似性标准驱动:倘若地理限制影响很大(比如,无法定期搭乘远程交通),人们便会被迫与邻里以及同乡交友。
在这些情况下,网络的顶点被嵌入到物理空间中,这会带来许多重要后果。有时,人们几乎可以不费任何代价地与任何人建立联系(比如在虚拟网络上结交朋友)。但在其他情况下,远程联系则代价高昂。这两种情况下的网络属性也十分不同。许多基础设施网络(火车、煤气管、高速公路等)会显示出一种偏差,因为它们嵌入的是物理空间。其他网络则嵌入到时间之中:例如,科学论文会在某天发表,这会在网络连接中造成某种偏差,即新论文只能引用旧论文,而旧论文却无法引用新论文。
其他偏差和策略能够影响网络的形成。社会学家确定了人们在社交网络中建立联系的两种基本激励机制:一为基于机遇的前因,即两个人会建立联系的可能性,二为基于利益的前因,即某种促使关系形成的效用最大化或不适感最小化机制。某种数量上的全局最优化对于塑造技术网络能够发挥重要作用:例如,使万维网搜索成本最小化的压力会导致人们倾向于对最短路径长度和连接密度进行优化。
最后,甚至还可能出现这种情况:表面上的自组织起源于完全的随机状态。设想某公司发布了新的社交网络,并为10万人提供了昵称。然后,该公司许可1个人与其他1 000个人建立联系,2个人可与其他500人建立联系,3个人可与333人建立联系,4个人可与其他250人建立联系,以此类推。人们并不认识昵称背后的人,所以,他们会随机地选择伙伴。显然,这一过程中并不存在自组织:该公司建立的规则决定了网络的结构。然而,最后形成的网络在结构上仍呈现出幂律度数分布。这个例子表明,在某些情况下,幂律并不总是意味着自组织过程。
若人们试图通过为其行为建模的方式来理解网络的特征,则策略、偏差、过程和动机等一系列广泛的因素都必须被考虑进去。甚至,每个个体网络都需要自己的模型。然而,一些十分普遍的机制,比如优先连接或与适应度相关的动力机制,都可能会在许多明显不相关的众多网络的形成过程中发挥作用。本章描述的模型简单地解释了,在缺乏全局规划的情况下,局部机制何以确实能产生规模庞大、复杂、有序及有效的结构。
第七章 深入挖掘网络
谁是你的朋友?
根据上世纪90年代开展的一些研究,每有一个患有性传播疾病的美国白人,在美国某些地区就有多达20名同病相怜的非裔美国人。持续的种族不平等导致了这一结果。然而,产生如此巨大差异的真正传染机制在一定程度上仍晦暗不明。1999年,社会学家爱德华·O.劳曼和尤思科尤姆发现了一个有趣的证据:性活跃程度较低的非裔美国人(过去一年仅有1位性伴侣者)与性活跃程度更高的非裔美国人(过去一年中有4位或更多性伴侣的人)发生关系的可能性是相同情况下白人的5倍。换句话说,在白人的性关系网络中,不那么活跃的外围群体某种程度上与活跃的核心群体彼此隔离。相反,这两个群体在非裔美国人中的关联则更多。这种差异的原因尚不清楚,但其结果却很明确:在第一个网络中,性传播疾病主要在核心群体内部蔓延,而在非裔美国人中,这些疾病也溢出至外围人群。
在本例中,网络节点的度数对于理解这个现象并非最相关的变量。性伴侣数量相同的个体受感染的可能性也不尽相同,这取决于该个体是白人还是非裔美国人。在这样的情况下,仅仅知道你有多少“朋友”(即你所在节点的度数)还不够,还必须知道你的朋友有多少朋友。度数分布为图的大体结构提供了大量信息,比如它是否包含枢纽节点等。然而,度数分布并不能显示图的所有信息。比如,设想两个图具有相同数量的节点和边数:其中的节点可能有着完全相同的度数,但边的分布却可能导致这两幅图完全不同。度数乃顶点的局部特征。想要更加细致地认识网络结构,人们必须深入挖掘,并找到方法来描述节点的周边情况:距其最近的邻点,其邻点的邻点,等等。
在白人的性关系网络中,低度数节点往往与低度数节点相连,高度数节点则与高度数节点相连。这种现象又名相称混合:它是同质相吸的一种特殊形式,其中连接数类似的节点往往会互相连接。相反,在非裔美国人的性关系网络中,高度数节点和低度数节点则更容易彼此连接。这被称为不相称混合。这两种情况都显示了相邻节点在度数上的某种相关性。当相邻节点的度数呈正相关,则为相称混合;反之则为不相称混合。
通常,这些混合模式的存在是网络中某个重要机制作用的结果,这个重要机制可能就是自组织。在随机图中,给定节点的邻点完全是随机选择的:结果,相邻节点的度数之间并没有明确的相关性(尽管图的有限大小可在某种程度上掩饰这一点)。与此相反,大多数真实网络中都存在节点相关性。尽管不存在一般规则,但大多数自然和技术网络往往为不相称混合模式,而社交网络则为相称混合模式。例如,高度连接的网页、自主系统、物种或代谢物常常与其所在网络中连接较少的节点相互关联。另一方面,公司董事长、电影演员和科学文献作者往往与那些连接性与自己类似的人相关联:个体的节点度数越高,其网络邻居的度数也越高。
度数的相称和不相称仅为让节点相互关联发生偏差的大量可能相关性中的一个例子。例如,劳曼和尤姆也证明了,相比于其他群体,有更多的非裔美国人倾向于从自己的社区选择伴侣。因此,当感染进入社区之后,它便被“困”在里面了。单单这种简单的效应便让非裔美国人感染性病的可能性高出美国白人1.3倍。在这种情况下,相关性并非源于节点度数,而是与每个节点内在特性相关的一种同质相吸,这个内在特性即种族身份。另一个例子是体重的相关性:研究发现,相对于与自己体重指数不同的人而言,体重指数相似的人倾向于更频繁地在彼此之间建立社交联系。要注意的是,相关性并不必然就是支持同质相吸的正面因素:比如,在食物网中,边将植物与食草动物、食草动物与食肉动物相连,但绝少将食草动物与食草动物或者将植物与植物相连。
谁是你朋友的朋友?
科西莫·德·美第奇于15世纪带领家族接管佛罗伦萨,人们称他为“难以理解的斯芬克斯”。尽管他绝少公开发表言论,并且也从未公开采取任何形式的行动,但他依旧能够在自己周围建立起强大的党羽,并让自己成为文艺复兴时期最重要城市的国父(pater patriae)。1993年,社会学家约翰·F.帕吉特和克里斯托弗·K.安赛尔分析了美第奇家族与佛罗伦萨其他权势家族之间的婚姻关系、经济联系和赞助往来。他们发现,科西莫的家族位于众多权贵家族关系网络的中心。更重要者,若无美第奇家族搭线,其他家族多数时候的联系并不多,甚至彼此抵牾。科西莫的克制态度帮助自己建立起了与各家族的联盟和共治关系。
以美第奇家族为中心的网络便是自我中心网络的一个实例,在这种网络中,一组节点与中心节点(自我节点)直接连接,这组节点彼此之间也相互连接。每当后一种连接丢失一个(也就是自我节点的两个邻点彼此不再相邻),该网络就会出现结构洞。科西莫的网络布满了结构洞,其家族能够用它们实行分而治之(divide et impera)策略:美第奇家族被视为许多冲突的第三方,那些家族不得不要求美第奇家族调节他们彼此的关系。
然而,对个人而言,周围布满许多结构洞并不总是件好事。根据2004年的一项研究,朋友之间不构成朋友关系的青春期女孩,其自杀概率为相反情况的两倍。这个发现的可能解释是,当事人会暴露在无关朋友的冲突之中。另外一个例子来自工会:若工人之间的联系网不存在结构洞(即自我节点被大量相互关联的节点包围时),则会形成一个强大、协调良好、交往密切的组织。一般而言,结构洞的不同模式表示不同的情况。例如,专业领域的科学家常常与该领域其他科学家相互联系,后者可能彼此也有联系。另一方面,高度跨学科领域的科学家则很可能与不同领域的科学家都有联系,后者并不必然彼此关联。
在所有这些情况下,你有多少朋友(即你的节点度数),或者他们是谁(比如他们的节点度数与你的相似还是不同)都不重要。重要之事在于,你朋友的朋友是谁:特别是,你的朋友彼此之间是否也是朋友关系。这个概念通常被称为传递性或集聚性。让我们考虑有着两位朋友的一个人:他们三人构成了连接三元组。如果此人的两位朋友彼此也是朋友,那么他们三人同样构成了可传递三元组,或者三角形。网络中的三角形数量与其中的连接三元组总数的比值便是该网络集聚系数的基本组成:这个系数衡量了该图中的三角形密度及其总体的传递性。而在随机网络中,某节点最近邻点之间的连接与任意其他两个节点间的连接具有同样的随机性。因此,这些图仅有纯粹随机连接的边所组成的三角形。另一方面,几乎所有现实世界网络的集聚系数都高于其相应的随机网络。这意味着某种重要的过程——