Reader's Club

Home Category

牛津通识读本:大数据 [3]

By Root 969 0
集、存储和分析的方式。得益于大数据革命,我们才有了智能汽车和家庭监控。

以电子方式收集数据的能力,催生了令人兴奋的数据科学,也促成了统计学和计算机科学的融合。大量的数据得到有效分析,从而在跨学科应用领域产生了新的见解,获得了新的知识。处理大数据的最终目的是提取有用的信息。例如,商业决策越来越依靠从大数据中分析所得的信息,并且期望值很高。但是,目前还有一些大难题亟待解决,尤其是缺乏训练有素的数据科学家,只有他们才能有效地开发和管理那些提取有用信息的系统。

通过使用源自统计学、计算机科学和人工智能的新方法,人们正在设计新的算法,有望推动科学的进步和产生新的科学见解。例如,尽管无法准确预测地震发生的时间和地点,但越来越多的机构正在使用卫星和地面传感器收集的数据来监测地震活动。其目的是想大致确定,从远期来看,可能会发生大地震的地方。美国地质调查局(USGS)是地震研究领域的主要参与者。该机构2016年预测:“加利福尼亚州北部地区未来三十年发生里氏7级地震的概率为76%。”诸如此类的概率评估有助于将资源集中于重要事项,比如确保建筑物能够更好地抵御地震并实施灾害管理计划等。来自不同国家和地区的数家公司,正在使用大数据来改进地震的预测方法,这些方法在大数据出现之前是不可想象的。现在我们有必要来看一下大数据的非凡之处。13

第二章 大数据为什么不一般?

大数据不是凭空而来的,它与计算机技术的发展密切相关。计算能力的快速提升和存储容量的迅猛增长,致使收集的数据越来越多。谁首创“大数据”这个术语现在已无从查考,但是它的本义一定与规模相关。然而,不可能仅根据生成和存储多少Pb甚或Eb来定义大数据。我们可以借由术语“小数据”来讨论由数据爆炸引发的“大数据”——尽管“小数据”并没有被统计学家广泛使用。大数据肯定是大而复杂的,但为了最终给出一个定义,我们首先需要了解“小数据”及其在统计分析中的作用。

大数据与小数据

1919年,罗纳德·费希尔来到位于英国的洛桑农业实验站分析农作物的数据。今天,费希尔被广泛认可为现代统计学这一强大学科的创始人。有关这些农作物的数据,来自19世纪40年代以来在洛桑进行的经典田间实验,包括针对冬小麦和春大麦所收集的数据,还有来自野外观测站的气象数据等。费希尔启动的项目被称为“实验田”,目标是研究不同肥料对小麦的影响,目前该项目仍然在运行。

费希尔注意到,他所收集的数据颇为混乱,因此他将自己最初的工作称作“耙粪堆”,这个说法后来变得很出名。然而,通过仔细分析研究那些记录在皮革装订的笔记本上的实验结果,费希尔终于理解了这些数据。没有充裕的时间,没有今天的计算技术,费希尔只有一个机械计算器。尽管如此,他还是成功地完成了对过去七十年累积的数据的计算。这个被称为“百万富翁”的计算器,依赖于单调乏味的手摇程序获取动力,但这在当时已经是创新的高科技了,因为它是第一个可以进行乘法运算的商用计算器。费希尔的工作是计算密集型的,没有“百万富翁”的帮助,他肯定无法完成计算工作。如果在今天,现代计算机在几秒钟内就能完成他所做的所有计算。

虽然费希尔整理并分析了很多数据,但今天来看,数据量并不算大,而且肯定不会被视为“大数据”。费希尔工作的关键是,使用精确定义和精心控制的实验,旨在生成高度结构化的、无偏的样本数据。鉴于当时可用的统计方法只能应用于结构化数据,这样做是必要的。实际上,这些宝贵的技术今天仍然是分析小型结构化数据集的基石。然而,我们今天可以使用的电子数据源是如此之多,以至这些技术已不再适用于我们现在可以访问的超大规模数据。14

定义大数据

在数字时代,我们不再完全依赖于样本,因为我们经常可以收集到总体的所有数据。但是,这些越来越大的数据集的规模还不足以定义“大数据”——我们必须在定义中包含复杂性。

我们现在处理的并非精心构建的“小数据”样本,而是不针对15任何具体问题而收集的规模宏大的数据,它们通常都是非结构化的。为了描述大数据的关键特征,从而达到定义该术语的目的,道格·莱尼在2001年的文章中提出使用三个“v”来表征大数据:数量大(volume)、种类多(variety)和速度快(velocity)。通过依次审视这三个不同的“v”,我们就可以更好地了解“大数据”这个术语的含义。

数量大

“数量”指的是收集和存储的电子数据量,而且数据一直在持续的增加中。“大数据”一定很大,但到底有多大?以当前的眼光,给“大”设定一个数量标准是很容易的一件事,但我们应该明了,十年前被认为“大”的东西已经不再符合今天的标准。数据采集的增速是如此之快,任何设定的标准都将不可避免地很快过时。2012年,IBM公司和牛津大学报告了他们的大数据工作调查结果。在这项针对来自95个不同国家的1144名专业人士的调查中,超过一半的人认为1Tb和1Pb之间的数据集可视为“大”,然而有大约三分之一的受访者回答“不知道”。该调查要求受访者从八个选项中选择一个或两个表示大数据的特征,只有10%的人投票选择“数据量”,排名第一的选择是“范围广泛的数据”,该选项吸引了18%的人选。不能以“数量”门槛定义大数据还另有原因,比如存储和收集的数据类型这些因素,会随着时间的推移而发生变化并影响我们对数量的认知。诚然,一些数据集确实非常大,例如来自欧洲粒子物理研究所(CERN)的大型强子对撞机的数据。它是世界上首屈一指的粒子加速器,自2008年以来一直在运行。即便只提取其总数据的1%,科学家每年需要分析处理的数据也会高达25Pb。通常情况下,如果一个数据集大到不能使用传统的计算和统计方法进行16收集、存储和分析时,我们就可以说它满足了数量标准。像大型强子对撞机生成的这类传感器数据只是大数据的一种,所以让我们也看看其他类型的数据是何种情形。

种类多

虽然你可能经常看到“互联网”和“万维网”这两个术语被当作同义词而交替使用,但它们实际上是非常不同的概念。互联网是网络中的网络,由计算机终端、计算机网络、局域网(LAN)、卫星、手机和其他电子设备组成。它们都连在一起,通过IP协议从某个地址相互发送数据包。万维网(www或Web)的发明人伯纳斯——李将其描述为“全球信息系统”。在此系统中,互联网是一个平台,所有拥有联网计算机的个人都可以通过此平台与其他用户进行通信,比如通过电子邮件、即时消息、社交网络和短信进行交流。从互联网服务提供商(ISP)那里申请开通网络后,就可以获得“万维网”和许多其他服务。

一旦连接到万维网,我们就可以访问网络上那些无序而混杂的数据了。数据源既有可靠的,也有令人生疑的;重复和讹误的数据随处可见。这与传统统计所要求的干净和精确的数据相去甚远。尽管从万维网收集的数据有结构化的、非结构化的或半结构化的多种(例如社交网站上的文档或帖子等非结构化数据,电子表格等半结构化数据),但来自万维网的大数据主体上都是非结构化的。例如,全球的推特用户每天发布大约5亿条140个字符的消息或推文,这些数据都是非结构化的。[2]推特上的这些短消息具有宝贵的商业价值,可以根据它们所表达的情绪划分为积极的、消极的和中立的三类。作为一个新领域,情感17分析需要开发专门的技术。我们只有使用大数据分析法,才能有效地完成这项工作。虽然医院、军方和众多的商业企业出于各种目的,收集了大量差异化的数据,但从根本上说,它们都可以归类为结构化、非结构化或半结构化数据。

速度快

今天,万维网、智能手机和传感器等,正源源不断地生产着数据。速度自然与数量相关:生成数据的速度越快,数据量也就越大。例如,当今社交媒体上的消息常以滚雪球的方式传播,其传播方式与“病毒”无异。我在社交媒体上发布了某个内容,我的朋友们看到了,每个人都与朋友分享,朋友的朋友再发给朋友分享。很快,这些消息就会传遍世界各地。

速度也指数据被处理的速度。比如,传感器数据(像自动驾驶汽车生成的数据)必须实时生成。如果要确保汽车安全行驶,通过无线方式传送到数据中心的数据必须要得到及时分析,并将必要的指令实时发送回汽车。

可变性可以被认为是“速度”的附加维度,它指的是数据流量的变化率,例如高峰时段数据流量的显著增加。这一点也很重要,因为计算机系统在这个时段更容易出现故障。

准确性

除了莱尼提议的三个基本的“”v(即数量大、种类多和速度快)之外,我们可以添加“准确性”为第四个维度。准确性是指所收集数据的质量。准确且可靠的数据,是20世纪统计分析的标志,为了设计出实现上述两个目标的方案,费希尔和其他一些18学者可谓呕心沥血。但是,数字时代产生的数据通常是非结构化的,数据采集也常常在没有实验设计的前提下进行,甚至事先任何有价值问题的概念都没有。然而,我们就是寻求从这种大杂烩中获取信息。以社交网站生成的数据为例,这些数据本质上是不精确、不确定的,甚至通常被发布的信息就是彻头彻尾的谬误。那么,我们如何相信这些数据能产生有意义的结论呢?数量可以克服数据的如上缺陷。正如我们在第一章中所看到的那样,修昔底德所描述的普拉蒂亚部队让尽可能多的士兵计数砖块,就是想发挥数量的优势,以期获得他们意欲翻越的城墙的精确(或接近精确)高度。然而,我们需要多一个心眼,正如统计理论所告诉我们的,更大的数量会导致相反的结果。数据量越大,虚假的相关性就越多。

可视化和其他的“v”

在描绘大数据时,“v”不再固定,具有了可选择性,在莱尼最初的3v之外,竞争性的新词汇有“脆弱性”(vulnerability)和“可行性”(viability)等词,其中最重要的或许是“价值”(value)和“可视化”(visualization)。“价值”一般指的是大数据分析结果的质量。它也被用来描述商业数据企业对其他公司出售数据,而购买了数据的公司会利用自己的分析方法处理和使用数据,因此,“价值”是一个在数据商业领域中经常被提及的术语。

“可视化”虽然并不是大数据的特征,但其在展示数据分析

Return Main Page Previous Page Next Page

®Reader's Club