Reader's Club

Home Category

牛津通识读本:大数据 [2]

By Root 980 0
数据,因此它可以归类为半结构化数据。元数据标签本质上是描述性引用,可用于向非结构化数据添加可识别的结构化信息。给网站上的图像添加单词标签,它就可以被识别并且更易于搜索。在社交网站上也可以找到半结构化数据,这些网站使用主题标签,以便识别特定主题的消息(非结构化数据)。处理非结构化数据具有挑战性:由于无法将其存储在传统数据库或电子表格中,因此必须开发特殊工具来提取有用信息。在后面的章节中,我们会谈到非结构化数据的存储方式。

本章的题名“数据爆炸”一词,指的是逐渐产生的越来越多的结构化、非结构化和半结构化数据。接下来,我们将梳理产生这些数据的各种不同来源。

大数据简介

在本书的写作过程中,我在网上检索相关资料,体验了被网上可用的数据所淹没的感觉——来自网站、科学期刊和电子教科书的数据可谓海量。根据IBM公司最近进行的一项全球范围内的调查,每天产生的数据大约为2.5Eb。一个Eb是1018(1后面跟18个0)字节(或100万Tb;请参阅本书结尾的“字节大小量表”)。在写作本书时,一台高配的笔记本电脑的硬盘通常会有1Tb或2Tb的存储容量。最初,“大数据”一词仅指数字时代产生的大量数据。这些海量数据(结构化和非结构化数据)包6括电子邮件、普通网站和社交网站生成的所有网络数据。

世界上大约80%的数据是以文本、照片和图像等非结构化数据的形式存在,因此不适合传统的结构化数据分析方法。“大数据”现在不仅用于指代以电子方式生成和存储的数据总体,还用于指数据量大和复杂度高的特定数据集。为了从这些数据集中提取有用的信息,需要新的算法技术。这些大数据集来源差异很大,因此有必要让我们先详细了解一下主要的数据源以及它们生成的数据。

搜索引擎数据

到2015年,谷歌是全球最受欢迎的搜索引擎,微软的必应和雅虎搜索分居第二位和第三位。从谷歌可以查阅的最近一年数据来看,也就是2012年的公开数据,仅谷歌每天就有超过35亿次搜索。

在搜索引擎中输入关键词能生成与之最为相关的网站列表,同时也会收集到大量数据。网站跟踪继续生成大量数据。作为试验,我用“边境牧羊犬”为关键词进行了检索,并点击返回的最顶层网站。通过一些基本的追踪软件,我发现仅通过点击这一个网站就可以生成大约67个第三方站点的链接。商业企业之间通过此类方式共享信息,以达到收集网站访问者兴趣爱好的目的。

每次我们使用搜索引擎时,都会创建日志,它记录我们访问过的推荐网站。这些日志包含诸多有用信息,比如查询的术语、所用设备的IP地址、提交查询的时间、我们在各个网站停留的时长,以及我们访问它们的顺序——所有这些都以匿名的方式进行。此外,点击流日志记录了我们访问网站时所选择的路径,以7及我们在网站内的具体导航。当我们在网上冲浪时,我们所做的每次点击都记录在某个地方以备将来使用。企业可以使用获取的软件来收集他们自家网站生成的点击流数据,这也是一种有价值的营销工具。通过提供有关系统使用情况的数据,日志有助于侦测身份盗用等恶意行为。日志还可用于评估在线广告的有效性,通过计算网站访问者点击广告的次数,广告的效用一目了然。

通过启用客户身份识别,“网络饼干”(Cookie)(一个小文本文件,通常由网站标识符和用户标识符组成)可用于个性化你的上网体验。当你首次访问所选网站时,“网络饼干”将被发送到你的计算机中,除非你已经禁用了它。以后每次你访问该网站时,“网络饼干”都会向网站发送一条消息,并借此跟踪你的访问。正如我们将在第六章中要看到的,“网络饼干”通常用于记录点击流数据,跟踪你的偏好,或将你的名字添加到定向广告中。

社交网站也会产生大量数据,脸书(Facebook)和推特(Twitter)位居榜首。到2016年年中,脸书平均每月有17.1亿个活跃用户。所有用户都在生成数据,仅日志数据每天就能达到大约1.5Pb(或1000Tb)。视频共享网站优兔(YouTube)创建于2005年,目前广受欢迎,影响深远。在近期的新闻发布会上,优兔声称其全球用户数超过了10亿。搜索引擎和社交网站产生的有价值数据可用于其他许多领域,比如健康问题的处理。

医疗数据

如果我们看看医疗保健,就会发现一个涉及人口比例越来越大的被电子化的领域。电子健康记录逐渐成为医院和手术的8标配,其主要目的是便于与其他医院和医生共享患者的数据,从而提供更好的医疗保健服务。通过可穿戴或可植入传感器收集的个人数据正日益增加。特别是为了健康监测,我们很多人都在使用复杂程度各异的个人健身追踪器,它们输出前所未有的新型数据。现在可以通过收集血压、脉搏和体温的实时数据,来远程监控患者的健康状况,从而达到降低医疗成本并提高生活质量的潜在目的。这些远程监控设备正变得越来越复杂,除了测量基本生命体征参数之外,睡眠跟踪和动脉血氧饱和度也成了测量的对象。

有一些公司通过激励措施来吸引员工使用可穿戴健身设备,公司设定某些具体目标,比如减肥或每天走多少步路。作为免费使用设备的条件,员工须同意与雇主共享数据。这似乎是合理的,但不可避免地要涉及个人隐私。此外,选择加入此类计划的员工很可能会承受额外的心理压力。

其他形式的员工监控也正变得越来越频繁,例如监控员工在公司提供的计算机和智能手机上的所有活动。使用自定义软件,此类监控可以包括从监视访问了哪些网站到记录键盘输入,以及检查计算机是否用于私人目的(如访问社交网站)。在大规模数据泄露的时代,安全性越来越受到关注,因此必须保护企业数据。监控电子邮件和跟踪访问的网站,只是减少敏感资料被盗的两种常用方法。9

如前文所述,个人健康数据可以来自传感器,例如健身追踪器或健康监测设备。然而,从传感器收集的大部分数据都以高度专业化的医疗为目的。伴随着对各物种开展的基因研究和基因组测序,产生了一批当今规模最为宏大的数据库。脱氧核糖核酸分子(DNA)以保存生物体遗传信息而闻名于世;1953年,詹姆斯·沃森和弗朗西斯·克里克首次将其描述为双螺旋结构。一个家喻户晓的基因研究项目是近年来的国际人类基因组计划,它的目标是确定人类DNA的30亿个碱基对的序列或确切顺序。这些数据最终会帮助研究团队进行基因疾病的探索。

实时数据

有些数据被实时收集、处理并使用。计算机处理能力的提高,惠及的不仅是数据处理,同时也大幅提升了数据生产能力。

有时候,系统的响应时间至关重要,数据必须要得到及时处理。例如,全球定位系统(GPS)使用卫星系统扫描地球并发回大量实时数据。安装在你的汽车或内置在智能手机中的GPS接收设备,需要实时处理这些卫星信号才能计算你的位置、时间和速度。(“智能”表示某个物品,这里指的是手机,具有访问互联网的功能,并且能够提供可以链接在一起的多种服务或应用。)

该技术现在用于无人驾驶或自动驾驶车辆的开发。这样的车辆已经在工厂和农场等封闭的专门场所使用,一些大品牌汽车制造企业也在开发无人驾驶车辆,包括沃尔沃、特斯拉和日产10等。相关的传感器和计算机程序必须实时处理数据,以便将车辆可靠地导航到目的地,并根据道路实况控制车辆的移动轨迹。这需要事先创建待行进路线的三维地图,因为传感器不能应对没有地图的路线。雷达传感器用于监控其他车流,并将数据发回控制汽车的外部中央执行计算机。传感器必须得到有效编程以探测不同的形状,并区分诸如跑进公路的孩子和风吹起的报纸这样的不同物体,或者甄别交通事故发生后的应急交通管制。然而,到目前为止,自动驾驶汽车还没有能力应对由瞬息万变的环境所带来的各种问题。

自动驾驶汽车首次致命碰撞事故发生在2016年。当时,驾驶员和自动驾驶仪都没有对切入汽车行进路线的车辆做出反应,也就是说没有任何制动的操作。自动驾驶汽车的制造商特斯拉在2016年6月的新闻稿中说,“引发事故的情况极为罕见”。自动驾驶系统会提醒驾驶员要始终将手放在方向盘上,并且还会检查他们是否在这样做。特斯拉表示,这是他们在1.3亿英里自动驾驶中发生的第一起死亡事故,而相比之下,美国每9400万英里的常规驾驶(非自动驾驶)就会造成一人死亡。

据估计,每辆自动驾驶汽车每天平均生成30Tb的数据,其中大部分数据必须立即处理。一个被称为流计算的新研究领域,绕过了传统的统计和数据处理方法,以期能提供处理这一特殊大数据的解决方案。

天文数据

2014年4月,国际数据公司(IDC)的一份报告估计,到2020年,数字世界将达到44万亿Gb(1000Mb等于1Gb),数据总量11是2013年的十倍。天文望远镜所产生的数据与日俱增,例如位于智利的超大光学望远镜由四个望远镜组成,每晚都产生大量的数据,单个望远镜每晚所产生的数据就高达15Tb。该望远镜在大型天气调查项目中起着引领的作用,它通过不停地扫描夜空制作和更新夜空图;该项目为期十年,产生的数据总量估计能达到60Pb(250字节)。

在数据生成方面数量更大的是,建在澳大利亚和南非的平方公里阵列探路者(SKAP)射电望远镜。[1]该望远镜预计于2018年开始运行。第一阶段它每秒将产生160Tb的原始数据,随着建设进程的推进,产生的数据还会进一步的增加。当然,并非所有这些数据都会被存储,但即便如此,仍需要世界各地的超级计算机来分析剩余的数据。

数据到底有何用途?

如今我们的日常活动也会被收集并成为电子化的数据,想避免个人数据被收集几乎已经是不可能的事。超市收银机记录我们购买的商品的数据;购买机票时,航空公司收集我们旅行安排的信息;银行收集我们的财务数据。

大数据广泛应用于商业和医学,并在法律、社会学、市场营销、公共卫生和自然科学的所有领域得到运用。如果我们能够开发合适的数据挖掘方法,那么所有形式的数据都有可能提供大量有用的信息。融合传统统计学和计算机科学的新技术,使得分析大量数据变得越来越可行。统计学家和计算机科学家开发的这些技术和算法,可用以搜索数据模式。梳理出关键的模式,是大数据分析成功与否的关键。数字时代带来的变化大大12改变了数据收

Return Main Page Previous Page Next Page

®Reader's Club