牛津通识读本:大数据 [1]
本书的第一章首先向读者介绍了通常意义上的数据多样xv性,然后解释了数字时代如何改变我们定义数据的方式。通过讨论数据爆炸,顺便引入大数据的概念,其中涉及计算机科学、统计数据以及它们之间的接口。在第二章至第四章中,我使用了大量的图表来协助解释大数据所依赖的一些新方法。第二章探讨了大数据的特别所在,并借此提出了更具体的定义。在第三章中,我们讨论了与存储和管理大数据有关的问题。大多数人都熟谙在个人计算机上备份数据,然而,面对今时正在生成的海量数据,我们该如何应对?为了回答这个问题,我们将讨论数据库存储,以及在计算机集群之间分配任务的想法。第四章认为,大数据只有在我们可以从中提取有用信息时才有价值。通过简述几种公认的技术,我们可以了解如何将数据转换为有价值的信息。
然后,我们从第五章以大数据在医学中的作用开始,对大数据应用进行更详细的讨论。第六章通过亚马逊公司和奈飞公司(Netflix)的案例来分析商务实践,每个案例都彰显了使用大数据进行营销的不同特征。第七章探讨了围绕大数据的一些安全问题以及加密的重要性。数据盗窃已成为一个大问题,我们看到的是新闻中出现的一些案例,包括斯诺登和维基解密。本章最后说明了,网络犯罪是大数据不可回避的问题。在最后一章,即第八章中,我们会看到,通过先进的机器人及其在工作场所中的使用,大数据如何改变我们生活于其中的社会。本书结束于对未来智能家居和智能城市的思考。
本书只是简短的入门,不能论及大数据的所有内容,希望读xvi者能通过“进一步阅读”中的建议来继续自己感兴趣的探究。
致谢
当我对彼得说要感谢他对本书的贡献时,他给了我如下建议:“我要感谢彼得·哈珀,如果不是他执着于使用拼写检查器的话,这本书会完全不一样。”还有,我要感谢他在咖啡制作方面的专业知识和他的幽默感!这种支持本身就已无价,但彼得所做的远不止于此。可以说,没有他的持续鼓励和建设性贡献,这本书就不会写出来。
道恩·E.霍尔姆斯
2017年4月xvii
第一章 数据爆炸
什么是数据?
公元前431年,斯巴达向雅典宣战。修昔底德在对战争的描述中,记载了被围困于城中的忠于雅典的普拉蒂亚部队,如何翻越由斯巴达领导的伯罗奔尼撒军队所建的围墙而最终得以逃脱的过程。要做到这一点,他们需要知道城墙的高度,以便制造高度合适的梯子。伯罗奔尼撒军队所建城墙的大部分都覆盖着粗糙的灰泥卵石,但他们最终还是找到了一处砖块清晰可见的区域。接下来,大量的士兵被赋予了一项任务,就是每个人分别去计数这些裸露砖块的层数。要在远离敌人攻击的距离之外完成判断,误差难以避免。但正如修昔底德所解释的那样,考虑到计数的是众多的个体,最常出现的那个数应该是可靠的。这个最常出现的数,我们今天称之为众数,普拉蒂亚人正是使用它来计量围墙的高度。由于使用的墙砖的大小是已知的,因此适合翻越城墙所需高度的梯子也顺理成章地打造了出来。随后,数百的军人得以成功逃脱。此事可以被视为数据收集和分析最为生动的范例,也因而载入史册。但是,正如我们在本书的后续章节中将要看到的,数据的收集、存储和分析甚至比修昔底德的时代1还要早几个世纪。
早在旧石器时代晚期的棍棒、石头和骨头上,人们就发现了凹口。这些凹口被认为是计数标记,尽管学术界对此仍然存有争议。也许最著名的例子是,1950年在刚果民主共和国发现的伊山戈骨,它距今大约有两万年之久。这个有着凹口的骨头被解读为具有特殊的功用,比如用作计算器或日历,当然也有人认为,骨头上的凹口只是为了方便手握。20世纪70年代在斯威士兰发现的列朋波骨甚至更为久远,时间大概可以追溯到公元前35000年左右。这块刻有29个线条的狒狒腓骨,与今天远在纳米比亚丛林中生活的土著仍然使用的日历棒,有着惊人的相似之处。这表明它确有可能是一种用来记录数据的方式,对于他们的文明来说,这些数据至关重要。
虽然对这些凹口骨骼的解释仍然没有定论,但我们清楚地知道,人类早期有充分记录的数据使用之一,是巴比伦人在公元前3800年进行的人口普查。该人口普查系统记录了人口数量和商品,比如牛奶和蜂蜜,以便提供计算税收所需的信息。早期的埃及人也擅长使用数据,他们用象形文字把数据写在木头或莎草纸上,用来记录货物的运送情况并追踪税收。但早期的数据使用示例,绝不仅限于欧洲和非洲。印加人和他们的南美洲前辈热衷于记录税收和商业用途的数据,他们使用一种被称为“奇普”的精巧而复杂的打彩色绳结的方法,作为十进制的记账系统。这些由染成明亮色彩的棉花或骆驼毛制成的打结绳,可以追溯到公元前3000年。虽然只有不到1000个打结绳在西班牙人入侵和后续的各种毁灭性灾难中得以幸存,但它们是已知的第一批大规模数据存储系统的典范。现在有人正在开发计算机算法,试图解码“奇普”的全部含义,加深我们对其使用原理的2理解。
虽然我们可以将这些早期的计数方法设想并描述为使用数据,但英文词data(数据)实际上是源于拉丁语的复数词,其单数形式为datum。今天,datum已经很少使用,“数据”的单数和复数都用data表示。《牛津英语词典》将该术语的第一个使用者,归于17世纪的英国神职人员亨利·哈蒙德。他在1648年出版的一本有争议的宗教小册子中使用了“数据”这个词。在此书中,哈蒙德在神学意义上使用了“数据堆”这一短语,来指称无可争辩的宗教真理。但是,尽管该出版物在英语中首次使用了“数据”这一术语,但它与现在表示“一个有意义的事实和数值总体”并不是同一个概念。我们现在所理解的“数据”,源于18世纪由普里斯特利、牛顿和拉瓦锡等知识巨人引领的科学革命。到1809年,在早期数学家的研究基础上,高斯和拉普拉斯为现代统计方法奠定了坚实的数学基础。
在更实际的层面上,当属1854年伦敦宽街暴发霍乱疫情时,针对该疫情收集的大量数据,它使得约翰·斯诺医生得以绘制了疫情图。数据和疫情图证明他先前的假设是正确的,即霍乱通过污染的水源传播,而不是一直以来被广为认同的空气传播。通过收集当地居民的数据,他确定患病的人都使用了相同的公共水泵。接下来,他说服地方当局关闭了该饮水源。关闭饮水源并不难,他们拆下了水泵的手柄,任务也就完成了。斯诺随后制作了一张疫情图,该图现在很出名,它清楚显示患病者以宽街的饮水泵为中心,成集群状态分布。斯诺继续在该领域潜3心钻研,收集和分析数据,并成为著名的流行病学家。
约翰·斯诺之后,流行病学家和社会学家进一步发现,人口统计数据对于研究弥足珍贵。如今,在许多国家进行的人口普查,就是非常有价值的信息来源。例如,出生率和死亡率的数据,各种疾病的发生频率,以及收入和犯罪相关联的统计数据,现在都会有所收集,而在19世纪之前这些都是空白。人口普查在大多数国家每十年进行一次。由于收集到的数据越来越多,最终导致手工记录或以前使用的简单计数器,已经难以应对实际的海量数据登录。在为美国人口普查局工作期间,赫尔曼·何乐礼就遇到了如何应对这些不断增长的人口普查数据的挑战。
到1870年美国开展人口普查时,所依靠的是一种简单的计数器,但这种机器效率有限,已无法满足人口普查局的要求。1890年的人口普查有了突破,这完全得益于赫尔曼·何乐礼发明的用于存储和处理数据的打孔卡制表机。通常情况下,处理美国人口普查数据需要八年左右的时间,但使用这项新发明后,时间缩短到了一年。何乐礼的机器彻底改变了世界各国人口普查数据的分析处理,其中包括德国、俄罗斯、挪威和古巴。
何乐礼随后将他的机器卖给了一家后来称为国际商用机器(IBM)的公司,该公司开发并生产了一系列广泛使用的打孔卡机。1969年,美国国家标准协会制定了以何乐礼命名的打孔卡代码(或称何乐礼卡代码)标准,以对打孔卡机的先驱何乐礼表示敬意。
数字时代的数据
在计算机广泛使用之前,人口普查、科学实验或精心设计的抽样调查和调查问卷的数据都记录在纸上——这个过程费时且4昂贵。数据收集只有在研究人员确定他们想要对实验或调查对象询问哪些问题后才能进行,收集到的这些高度结构化的数据按照有序的行和列转录到纸张上,然后通过传统的统计分析方法进行检验。到20世纪上半叶,有些数据开始被存储到计算机里,这有助于缓解部分劳动密集型工作的压力。但直到1989年万维网(或网络)的推出及其快速发展,以电子方式生成、收集、存储和分析数据才变得越来越可行。面对网络上可访问的海量数据,问题也接踵而来,它们需要及时得到处理。首先,让我们看看数据的不同类型。
我们从网络上获得的数据可以分为结构化数据、非结构化数据或半结构化数据。
手工编写并保存在笔记本或文件柜中的结构化数据,现在以电子的形式存储在电子表格或数据库中。电子表格样式的数据表由行和列组成,行记录的是数据,列对应的是字段(比如名称、地址和年龄)。当我们在线订购商品时,我们实际上也正在贡献结构化数据。精心构建和制表的数据相对容易管理,并且易于进行统计分析,实际上直到最近,统计分析方法也只能应用于结构化数据。
相比之下,像照片、视频、推文和文档这些非结构化数据就不太容易归类。一旦万维网的使用变得普遍,我们就会发现,很多这样的潜在信息仍然无法访问,因为它们缺乏现有分析技术所需的结构。但是,如果通过识别关键性特征,那么初看起来为5非结构化的数据也可能不是完全没有结构。例如,电子邮件虽然正文的数据是非结构化的,但标题中包含了结构化元