Reader's Club

Home Category

牛津通识读本:大数据 [8]

By Root 975 0
林合作,发表了有关该新算法的论文。在512016年夏季之前,佩奇排名的结果可以公开获取,只要下载使用佩奇排名工具条就可以得到结果。公开的佩奇排名工具条指标范围从1到10。在该工具被下架之前,我保存了一些结果。如果我使用笔记本电脑在谷歌搜索栏中输入“大数据”,则会得到这样一条消息:“大约3.7亿个结果(0.44秒)”,佩奇排名指标为9。页面网页列表的顶端是一些付费广告,随后是维基百科。使用“数据”为关键词进行检索,返回的结果是:约55.3亿个结果(0.43秒),佩奇排名指标为9。其他的都是佩奇排名指标为10的例子,其中包括美国政府网站、脸书、推特和欧洲大学协会。

佩奇排名的算法基于指向网页的链接数——链接越多,得分越高,页面作为搜索结果的显示就越靠前。佩奇排名与访问页面的次数多少无关。如果你是网站设计师,你一定想优化你的网站,以使它能在给定的某些关键词搜索时靠近列表的顶部,因为大多数人只会看前三个或四个搜索结果。这需要大量的链接,因此链接交易在业内就成了公开的秘密。为了打击“人工”排名,谷歌会分配一个新的0排名给有牵连的公司,甚至将它们从谷歌完全删除,但这并不能解决问题;交易只是被迫潜入地下,链接继续被出售。

佩奇排名本身并没有被废弃,它现在是一个大型排名程序的一部分,只不过它不再提供给公众查看。谷歌会定期重新计算排名,以便及时反映新链接和新网站的情况。由于佩奇排名具有商业敏感性,因此无法获取其详细而完整的资料,但是我们可以通过一个示例来了解它的总体思路。佩奇排名算法是基于概率论所提出的一种分析网页之间链接的复杂方法,其中概率1表示“确定性”,概率0表示“不可能”,其他所有结果的概率值52都位于二者之间。

要搞清楚排名的工作原理,我们首先需要知道什么是概率分布。如果我们投一个六面匀称的骰子,那么从1到6这六个数字的概率是相等的,也就是说每个数字的概率都为1/6。所有可能结果的汇总以及与之相关的概率就是概率分布。

回到我们按照重要性对网页进行排名的问题,我们不能说每个网页都同等重要,但是如果我们有一种能为每个网页分配概率的方法,则可以合理地表示网页的重要性。因此,诸如佩奇排名之类的算法所要做的就是为整个网络构建概率分布。为了解释这一点,让我们设想有一个随机的网络浏览者,他实际上可能从任何网页开始,然后通过有效的链接进入另一个页面。

假设有一个简单的网络,它只有三个网页,分别为“大数据1”、“大数据2”和“大数据3”。页面间只有从“大数据2”到“大数据3”,从“大数据2”到“大数据1”,以及从“大数据1”到“大数据3”的链接。该网络的结构如图16所示,其中节点代表网页,箭头(边缘)表示链接。

每个页面都有一个佩奇排名,代表其重要性或受欢迎程度。“大数据3”的排名最高,因为指向它的链接最多,因此点击率也最高。假如现在那个随机浏览者访问了一个网页,如果我们把他或她对下一个网页的浏览视为投票,那么对所有备选的下一个网页来说得票的概率是均等的。例如,如果我们的随机浏览者当前正在访问“大数据1”,则接下来的唯一选择是访问“大数据3”。因此,可以说“大数据1”对“大数据3”投了1票。

图16 小型网络的有向图53

在真实的网络中,新链接会不断涌现。因此,假设我们现在发现“大数据3”链接到“大数据2”,如图17所示,则“大数据2”的佩奇排名将发生变化,因为随机浏览者在浏览“大数据3”之后有了一个可供选择的网页继续浏览。

图17 增加链接后的小型网络有向图54

如果我们的随机浏览者从“大数据1”开始,那么接下来的唯一选择就是访问“大数据3”,因此“大数据3”得到了1张票,也是全部的票。相比之下,“大数据2”的得票数为0。如果他或她从“大数据2”开始,则投票数被平均分配至“大数据3”和“大数据1”。最后,如果随机浏览者从“大数据3”开始,则他或她的全部投票只能投给“大数据2”。图18是对上述投票方式的汇总。

从图18我们可以看到每个网页的总得票数如下:

“大数据1”的总票数是1/2(来自“大数据2”)

“大数据2”的总票数是1(来自“大数据3”)

54“大数据3”的总票数是1½(来自“大数据1”和“大数据2”)

图18 各网页的得票数

由于冲浪者起始页的选择是随机的,因此起始页的机会均等,它们初始的佩奇排名分配值都为1/3。为了给以上示例最终赋值,我们需要根据每个页面的得票数更新初始的佩奇排名。

例如,“大数据1”仅从“大数据2”那里得到了1/2票,因此“大数据1”的佩奇排名为1/3×1/2=1/6。与之类似,“大数据2”的佩奇排名为1/3×1=2/6,“大数据3”的佩奇排名为1/3×3/2=3/6。由于所有网页佩奇排名的总数值为1,因此我们就得到了一个概率分布,它可以显示各网页的重要性或排名情况。

但是实际情况要复杂一些。我们说过,随机浏览者选择任意网页的概率为1/3。第一步之后,我们计算出随机浏览者浏览“大数据1”的概率为1/6。那么,第二步之后呢?好了,我们再次使用当前的佩奇排名作为得票数来计算新的佩奇排名。此轮的计算略有不同,因为当前的佩奇排名不相等,但是方法大同小异。计算所得的新的佩奇排名如下:“大数据1”为2/12,“大数据2”为6/12,“大数据3”为4/12。重复这些步骤或迭代,直到算法收敛为止,也就是说,对佩奇排名的计算过程一直持续,直到无法通过进一步的乘法运算修改数值为止。得出最终排名后,佩奇排名就可以为给定搜索选择排名最高的页面。55

佩奇和布林在其原始研究论文中提出了一种计算佩奇排名的方程式,其中包括一个阻尼因子d,它表示随机浏览者单击当前页面上任一链接的概率。因此,随机浏览者不单击当前页面上任一链接的概率为(1—d),也意味着该随机浏览者已经完成了浏览。正是阻尼因子确保了经过足够数量的迭代计算后,整个网络上的平均佩奇排名值稳定为1。佩奇和布林在论文中说,经过52次迭代后,包含3.22亿个链接的网络佩奇排名会趋于稳定。

公共数据集

有许多免费的大数据集,感兴趣的团体或个人可以将其用于自己的项目。本章前面提到的“爬网侠”就是其中一例。作为亚马逊公共数据集的一部分,到2016年10月的时候,“爬网侠”存档的网页数超过了32.5亿个。公共数据集包含广泛的专业领域数据,包括基因组数据、卫星图像和全球新闻数据。对于不太可能自己编写代码的人来说,谷歌的“N元浏览器”(Ngram Viewer)提供了一种有趣的方式来交互式浏览一些大型数据集(有关详细信息,请参阅“进一步阅读”)。

大数据范式

我们已经知道了大数据的一些有用之处,在前面的第二章我们还讨论了小数据。对于小数据分析来说,科学方法是行之有效的,并且必然涉及人机互动:某人有了个想法,提出了假设或模型,并设计了测试真伪的方法。著名的统计学家乔治·博克斯在1978年写道:“所有模型都是错误的,但有些却是有用的。”他的意思是,一般而言,统计和科学模型不能准确描述我们56所处的世界,但是好的模型也是有用的,我们可以据此进行预测并自信地得出结论。但是,正如我们已经看到的,在处理大数据时,我们并不遵循这种方法。相反,我们发现处于主导地位的是机器,而不是科学家。

托马斯·库恩在1962年的著作中描述了“科学革命”的概念,它发生在规范科学的现有范式在相当长的时间内得到充分发展和研究之后。当难以解决的异常现象不断出现,现有的理论受到挑战,研究人员会对理论失去信心,此时可以说“危机”来了。“危机”最终将由新的理论或范式来化解。如果新的范式要想被人们接受,那么它必须能够解答旧范式不能应对的一些问题。但是,总的来说,新范式不会完全压倒以前的范式。例如,从牛顿力学到爱因斯坦相对论的转变,改变了科学界看待世界的方式,但并没有使牛顿定律过时:牛顿力学变成了范围更广的相对论的一个特例。从经典统计学到大数据分析的转变,也代表了巨大的变化,并且具有范式转变的诸多特征。因此,不可避免地需要开发新的技术来应对这种新情况。

下面讨论一下在数据中寻找相关性的技术,该技术通过变量之间的关系强度进行预测。经典统计学已经确认,相关并不意味着因果关系。例如,老师有可能记录了学生的缺勤数和成绩,然后,老师发现两者之间存在明显的相关性,他或她可能会使用缺勤数来预测成绩。然而,缺勤会导致成绩差这个结论是错误的。仅通过盲目计算的结果,无法知道为什么两个变量之间具有相关关系:也许学习能力较弱的学生具有逃课的倾向;也许由于疾病而缺勤的学生以后无法追赶。只有通过对数据的分析和揣摩,才能确定哪些相关性是真实有用的。57

至于大数据,使用相关性会产生更多的问题。如果我们使用一个庞大的数据集,编写的算法会返回大量的虚假相关,它们与任何人的见解、观点或假设都大相径庭。错误的相关会产生问题,例如离婚率和人造黄油消费之间的关系,这只是媒体报道的许多虚假相关中的一例。通过应用科学方法,我们可以看到这种所谓的相关性原来如此荒谬。实际上,随着变量的增加,虚假相关的数量也会上升。这是试图从大数据中提取有用知识面临的主要难题之一,因为在用大数据挖掘这样做的时候,我们通常寻求的就是模式和相关性。正如我们将在第五章中看到的那58样,谷歌流感趋势预测失败的原因之一,就是这些问题。

第五章 大数据与医学

大数据正在显著地改变医疗保健行业,但其潜能尚未被充分认识。它的价值在包括医疗诊断、流行病预测、衡量公众对政府健康警示的反应,乃至减少与医疗保健体系有关的支出等领域,都有待重新评估。我们从保健信息学开始讨论。

保健信息学

运用前几章中描述的通用技术,可以对医疗大数据进行收集、存储和分析。广义上说,保健信息学及其多个分支学科,如临床信息学和生物信息学,利用大数据改进病人护理和降低成本。我们来看看大数据的定义标准(第二章中已讨论)——数量大、种类多、速度快和准确性,以及这些标准如何适用于医疗数据。例如,通过从社交网

Return Main Page Previous Page Next Page

®Reader's Club