牛津通识读本:大数据 [11]
2016年9月里约奥运会之后,国家兴奋剂计划被曝光,多数俄罗斯运动员被禁赛。顶尖运动员,包括威廉姆斯姐妹、西蒙·拜尔斯和克里斯·弗鲁姆等人的医疗记录遭到黑客攻击,并被一群俄罗斯网络黑客在奇幻熊网站公开曝光。这些由世界反兴奋剂机构掌管在其数据管理系统ADAMS上的相关医疗记录,仅仅显示医疗用途豁免,并没有关于这些遭到网络中伤运动员的违禁行为。非法侵入系统可能源自鱼叉式网络钓鱼邮件,利用该技术,邮件被伪装成来自机构内部的高级可信源,如健康保健提供者,发给下级的信件。通过下载的恶意软件,该技术被用来非法获取诸如密码和账号等敏感信息。
防止大数据医疗数据库遭受网络攻击,进而确保病人的隐私越来越受到重视。匿名个人的医疗数据买卖是合法的,但即便如此,有时单个病人的真实身份还是有可能被发现。哈佛大学数据隐私实验室的科学家拉坦娅·斯威妮和刘吉素做了一个有价值的实验,显示了安全数据的脆弱性。他们运用合法获取的来自韩国的加密(即打乱排列顺序而使文件难以识读,见第七73章)医疗数据,不仅能够解密医疗记录中的独特标识符,而且通过与公开的医疗记录进行比对就可以确定单个病人的身份。
医疗记录对网络罪犯极具价值。2015年,健康保险公司安森保险声称其数据库被非法侵入,超过7000万人受到影响。分众识别的关键数据,如姓名、地址以及社会保障号码等被黑客组织攻破。他们运用被盗密码进入系统并安装恶意木马软件。尤为严重的是,在美国作为唯一身份证明的社会保障号码是不加密的,这给盗取身份留有极大便利。很多安全漏洞都是从人为错误开始的:人们太忙,注意不到网址中的细微差别。闪存盘等设备丢失、被盗,有时甚至一旦某个毫无戒心的员工将设备插入USB端口,设备瞬间就被蓄意植入恶意软件。心怀不满的员工和犯错的员工,都会导致不计其数的数据泄露。
世界知名机构,诸如美国的梅奥医学中心和约翰·霍普金斯医学院,英国的国民医疗服务系统(NHS),以及法国的克莱蒙费朗大学医院,都在加速将大数据这种全新的利好运用到医疗保健管理中。云系统让受权用户得以使用世界任何地方的数据。仅举一个例子,英国的国民医疗服务系统计划到2018年的时候,让医疗记录可以通过智能手机悉数获取。这些发展不可避免地会令他们使用的数据招来更多的攻击,因此需要加倍努74力,开发出有效的安全方法以确保数据安全。
第六章 大数据,大商务
20世纪20年代,以“街角房子”咖啡馆闻名的英国餐饮提供商里昂公司,雇用了年轻的剑桥大学数学家约翰·西蒙斯做统计工作。1947年,雷蒙德·汤普森和奥利弗·斯坦汀福德双双被西蒙斯招募,派往美国做实情调查。正是这次美国之行,他们了解到电子计算机及其执行常规运算的能力。西蒙斯对他们了解到的情况非常重视,他设法说服里昂公司购买了一台计算机。
莫里斯·威尔克斯当时正在剑桥大学致力于建造电子延迟存储自动计算器(EDSAC)。在他的协助下,LEO计算机成功建成。该计算机依赖穿孔卡片运行,1951年首次用于基本会计事务,诸如将一列数字相加。到1954年,里昂公司已经形成了自己的计算机业务,并且正在建造“LEO II”系列,接着又建造了“LEO III”系列。尽管第一批办公计算机早在20世纪50年代就在安装使用,但由于它们使用电子管(“LEO I”系列是6000个)和磁带,加上内存太小的缺陷,这些早期的机器并不可靠,应用也非常有限。最初的LEO计算机被普遍看作第一台商业化计算75机,它为现代电子商务铺平了道路。经过数次合并,里昂公司于1968年成为新组建的国际计算机有限公司(ICL)的一部分。
电子商务
LEO计算机和稍后出现的大型计算机,仅适合于诸如会计和审计之类的数字运算任务。传统上花费大量时间来统计数字列的工人,现在却要将时间花在制作打孔卡上,这不仅是一项烦琐的工作,同时还需要同样高的准确性。
由于在商业企业使用计算机已经可行,如何使用计算机提高效率,降低成本并收获利润,成了人们感兴趣的话题。晶体管的发展及其在市售计算机中的使用促成了机器的小型化,以至于在20世纪70年代初就有了建造个人计算机的想法。但是,直到1981年,IBM公司在市场上推出IBM—PC并使用软盘进行数据存储时,建造个人计算机的想法才真正开始为商家所认可。个人计算机的文字处理和电子表格功能,很大程度上减轻了办公室烦琐的日常工作。
用软盘存储电子数据的技术很快让人们想到,将来无须使用纸张即可有效地开展业务。1975年,美国《商务周刊》杂志发表的一篇文章推测,到1990年差不多会实现无纸化办公。理由是停止或显著减少纸张使用,办公会变得更为有效,成本也会降低。20世纪80年代,办公用纸曾一度下降,当时许多需要存档的文书工作被大量转移到计算机上。但随后在2007年,办公用76纸上升到历史新高,增加的主要部分是复印。2007年以后,纸张使用逐步减少,这主要得益于人们使用越来越多的移动智能设备和诸如电子签名之类的工具。
尽管早期数字时代人们致力于无纸化办公的乐观愿望还未实现,但电子邮件、文字处理以及电子表格已经让办公环境发生了革命性变化。然而,让电子商务变得切实可行的,还是要归功于互联网的普遍使用。
家喻户晓的例子也许要算网购了。作为顾客,我们享受着在家购物的便利,不用再费时去排队。网购对顾客的不利方面很少,但由于交易类型的不同,与店员之间缺乏沟通可能会抑制在线购物。通过“即时聊天”,在线评论和星级评定,大量的商品和服务选择,以及慷慨的退货政策等在线客户引导工具,与店员缺乏沟通导致的问题正逐步消解。现在,除了购物,我们还能在线支付账单、处理银行业务、购买机票以及在线使用许多其他服务。
易贝的营运方式有些不同,并且值得一提,因为它生成的数据量很大。通过买卖竞价进行交易,易贝每天产生大约50Tb数据。这些数据是由190个国家或地区的1.6亿活跃用户在其网站上进行的搜索、售卖和竞拍所生成的。通过使用这些数据和适当的分析,易贝现在已经实现了类似于奈飞的推荐系统,本章稍后将进行讨论。
社交网站可为企业提供从酒店和度假到衣物、电脑和酸奶等所有方面的即时反馈。运用这些信息,商家能够明白什么可行,可行程度如何,什么会遭到投诉,以便在情况失控之前解决问题。更有价值的是,根据用户过往的购物及其在网站内的行77为预测客户将要购买什么。社交网站,如脸书和推特,收集了大量的非结构化数据,若加以恰当分析,商家也可获得商业利益。猫头鹰(TripAdvisor)等旅游网站也与第三方共享信息。
点击付费广告
现在,专业人士越来越认识到,恰当运用大数据能够获得有用信息并吸引顾客,这些可以通过改进商品促销方式和使用针对性更强的广告来实现。我们只要上网,就不可避免地看到在线广告。我们甚至还可以在诸如易贝等各种竞拍网站上自己免费张贴广告。
点击付费模式,是最受欢迎的广告类型之一。它是一种在你进行在线搜索时弹出相关广告的系统。如果商家想要让其广告随同特定的搜索项显示,他们会向服务提供商出价购买与该搜索词相关联的关键字。商家还会设定每天预算的上限。系统多半会参照商家的出价高低来确定广告的显示顺序。
如果你点击其广告,广告商就必须按照报价向服务提供商支付报酬。商家仅在利益相关方点击其广告时才付费,因此广告必须与搜索项匹配才能吸引网络浏览者点击它们。先进的算法可确保为服务提供商(如谷歌或雅虎)带来最大的收益。实施点击付费广告最著名的,要数谷歌的“关键词广告”。当我们78用谷歌搜索时,屏幕侧面自动出现的广告就是“关键词广告”工具生成的。点击付费广告的缺点是,可能会非常费钱,此外,为了让你的广告不占用太多空间,对使用的字符数也有限制。
电子欺诈也是一个问题。例如,竞争对手的公司可能会反复点击你的广告,以耗尽你的每日预算。或者通过使用一种被称为“点击机器人”(clickbot)的恶意计算机程序来生成点击。
这种欺诈的受害者是广告商,因为服务提供商的费用照付,而用户并没有参与。不过,由于确保安全性并保证商家有钱可赚最符合提供商的利益,因此服务提供商正在进行大量研究工作以打击欺诈。最简便的方法,大概是跟踪促成一笔买卖需要的点击量。如果点击量突然飙升,或者点击量巨大而没有实际购物,那就有可能存在欺诈性点击。
与这种点击付费的做法不同,定向广告明确基于每个人的在线活动记录。要搞清它是如何运作的,我们先来认真了解一下我在第一章中简要提到的“网络饼干”。
网络饼干
该术语最早出现在1979年,当时操作系统尤尼克斯(UNIX)运行了一款叫作“幸运饼干”(Fortune Cookie)的程序。该程序向基于大型数据库而生成的用户提供随机报价。“网络饼干”有几种形式,所有形式都源自外部,并用于记录网站和/或计算机上的某些活动。当你访问网站时,网络服务器会将一条由存储在计算机中的小文件组成的消息发送到浏览器。此消息就是“网络饼干”的一种,但是还有许多其他种类,例如用作用户认证目的和第三方跟踪的“网络饼干”。79
定向广告
你在互联网上的每一次点击都会被收集并用于定向广告。
用户数据将被发送到第三方广告网络,并以“网络饼干”的形式存储在你的计算机上。当你单击此网络支持的其他站点时,你以前查看过的产品的广告将显示在屏幕上。使用“光束”(一款火狐的免费附件),你可以跟踪哪些公司在收集你的互联网活动数据。
推荐系统
推荐系统提供过滤机制,基于用户兴趣向他们提供信息。其他类型的推荐系统(不基于用户的兴趣)实时呈现用户都在关注什么,并且通常都以“趋势”的形式来加以显示。奈飞、亚马逊和脸书都使用推荐系统。
向顾客推荐产品的一个流行方式是协同过滤。笼统地说,该算法使用收集自单个顾客以往购物和搜索的数据,并将其与其他顾