牛津通识读本:大数据 [13]
互联网点播电视,是奈飞公司的另一个增长点。随着大数据分析的不断发展,它将变得越来越重要。除了收集搜索数据和星级评定之外,奈飞现在还能够记录用户暂停或快进的频率,以及他们是否看完了他们打开的节目。奈飞还监视观看节目的方式、时间和地点,以及其他许多变量,这里无法一一提及。据我们所知,运用大数据分析,奈飞现在甚至能够十分准确地预测客户是否会取消订购。
数据科学
“数据科学家”是送给在大数据领域工作人员的通用头衔。
2012年的《麦肯锡报告》强调了数据科学家的缺乏,估计到2018年,数据科学家的短缺仅在美国就达到19万之多。这种趋势在全世界都很明显,尽管政府在积极推动数据科学技能的训练,但专业知识供需的鸿沟似乎仍在扩大。数据科学正成为大学里热门的学习对象,但是到目前为止,毕业生一直无法满足工商业界88的需求,只有工作经验丰富的申请人才可以获得高薪。大数据对商业企业来说事关利润。如果经验不足的数据分析师不堪重负,未能提供预期的积极成果,那么希望很快就会破灭。很多时候,公司都在寻找“万能的”数据科学家,期望他能够胜任从统计分析到数据存储和数据安全的所有工作。
数据安全对任何公司都事关大局,大数据会产生自己的安全性问题。2016年,由于数据安全问题,奈飞取消了第二阶段算法大赛。近年来的其他黑客事件包括,2013年的奥多比公司(Adobe),2014年的易贝和摩根大通银行,2015年的安森保险(一家美国健康保险公司)和卡丰手机商贸,2016年的聚友网(MySpace),还有2012年就遭到黑客侵入,但直到2016年才发现被攻击的全球最大职业社交网站领英(LinkedIn),等等。这仅是少数几例,还有很多公司遭到黑客攻击或者其他类型的安全破坏,导致敏感信息未经授权就被传播。在第七章中,我们将89深入探讨一些大数据安全漏洞。
第七章 大数据安全与斯诺登事件
2009年7月,当奥威尔的小说《1984》从亚马逊公司的Kindle上被删除时,Kindle的客户发现,原来艺术作品中的情节真的能够变成现实。在小说《1984》中,一种被称为“记忆洞”的设施专门用来焚毁那些被认为具有颠覆性或者不再需要的文件。文件永久消失,历史被重新改写。亚马逊Kindle事件原本就像一个闹剧,亚马逊和出版商之间的分歧导致了奥威尔的小说《1984》和《动物庄园》被删除,客户成了受害者。客户很不满,他们已经为电子书付了费,并认为电子书归他们所有。由一位中学生和另外一个人提起的诉讼最终得以庭外和解。在和解协议中,亚马逊表示,除了像“司法或监管命令要求删除或修改”这种特殊情况之外,公司将不再从人们的Kindle上删除书籍。亚马逊答应给客户提供退款、发放礼品券,或者恢复被删除的书籍。Kindle电子书不仅无法售卖或出借,而且实际上我们似乎并不能真正拥有。
尽管Kindle事件是对法律问题的一个回应,并非恶意为之,却表明删除电子文件是何等容易。如果没有印刷件的话,完全90删除任何被看作不想要的或者危险的文本真是易如反掌。如果你明天拿起一本书的纸质版本,你绝对可以肯定你读到的和今天的完全一样。但你今天在网上读到的东西,你不能肯定明天读到时是否依然相同。网上没有绝对的确定性。由于电子文档很容易被操控,可以在作者不知晓的情况下被修改和更新。在许多情况下,篡改数据极具破坏力,比如对电子医疗记录的篡改。甚至设计用来证明电子文件真实性的电子签名,也会遭到黑客攻击。这些凸显了大数据系统面临的诸多问题,例如如何确保它们按预期工作,崩溃时可以修复,防止被篡改,以及只有获得授权的人才可访问等。
确保网络及其持有的数据安全,是问题的关键。保护网络免受未经授权的侵入所采取的基本措施,是安装防火墙,即将网络与未经授权的通过互联网的外部访问隔离开来。即使网络不会受到直接攻击,比如病毒和木马的攻击,存储于其中的数据仍然会有危险,尤其是未加密的数据。一种称为“网络钓鱼”的技术,通过将恶意代码植入受害人的电脑系统来盗取信息。它的惯用伎俩是伪装成电子邮件,在邮件中携带可执行文件,或窥探诸如密码等个人安全信息的插件。总的来说,大数据面临的主要问题是黑客问题。
零售商塔吉特2013年遭到黑客攻击,导致估计1.1亿客户的资料被盗,包括4000万人的信用卡明细。据报道,到那一年的11月底,侵入者已经成功地将恶意软件推送到大部分塔吉特销售点的机器中,并能够收集用户卡实时交易记录。此时,塔吉91特的安全系统由工作地点在班加罗尔的专家小组每天二十四小时监控。可疑活动被标记出来,小组联系了位于明尼阿波利斯的一级安全团队。遗憾的是,他们没有及时采取行动。我们下文谈到的家得宝黑客攻击事件使用的技术与此相似,但规模更大,导致了大量数据被盗。
家得宝黑客事件
2014年9月8日,自诩为世界最大家居装修用品零售商的家得宝公司在新闻公报中宣布,其支付系统遭到黑客攻击。在2014年9月18日的更新中,家得宝报告说,攻击使大约5600万张借记卡或信用卡受到影响。换言之,5600万张借记卡或信用卡的详细资料被盗走。此案中,黑客首先盗取了商家日志,这让他们轻易就能访问系统——但还只是系统中单个商家的那一部分。网络钓鱼技术助黑客达此目的。
下一步,黑客还需要攻破扩展系统。那时,家得宝使用的是微软的XP操作系统,该系统存在可被黑客利用的固有漏洞。自助付费零售结账系统成了目标,因为在整个系统中该分系统清晰可辨。最后,黑客用恶意软件让7500个自助结账系统终端感染了病毒,从而盗取客户信息。他们使用一种叫“黑POS机”的特定恶意软件,从感染病毒的终端窃取信用卡或借记卡信息。为安全起见,在销售点终端刷卡时,支付卡信息本该加密。但是很显然,这种点对点加密并未实施,结果导致详细资料对黑客敞开了大门。
当银行侦测到近期在家得宝上的账户欺诈行为时,盗窃事件被发现。银行卡详细资料通过暗网上的网络犯罪专营店被卖92出。有趣的是,使用收银机(收银机也刷卡)的人未受到此次攻击的影响。其原因似乎是,在计算机主机中,收银机只有编号,罪犯们还没有将其识别为结账点。假如家得宝自助结账终端也使用了简单编号,这次黑客攻击就有可能避免。话虽如此,但在那个时候,“黑POS机”被视为最高水平的恶意软件,几乎无法被发现。所以一旦黑客获得公开访问系统的机会,最终几乎肯定会将“黑POS机”这种恶意软件成功植入。
史上最大数据黑客事件
2016年12月,雅虎宣布,2013年8月发生了数据泄露,涉及的用户数超过10亿。此事件被称为有史以来最大的个人数据网络盗窃,或至少是有史以来最大的公司数据被盗案。窃贼显然使用了伪造的“网络饼干”,让他们无需密码就能访问账号。此前的2014年还曝光了一次针对雅虎的攻击,那次攻击造成5亿账户被破坏。令人毛骨悚然的是,雅虎声称2014年的黑客攻击是由不知名的“国家资助的行为体”干的。
云安全
大数据安全漏洞几乎每天都在增加。数据盗窃、数据勒索和数据破坏,在这个以数据为中心的世界成为重大关切。关于个人数据安全和所有权有很多细思极恐之处。在数字时代来临之前,我们常常将照片保存在影集中,底片是我们的备份。数字时代来临之后,我们将照片用电子方法存储在我们的电脑硬盘里。存储在硬盘上的照片可能会丢失,我们最好有备份,但起码的安全措施是要让这些文件不能被公开访问。我们很多人现在将数据存储在云端。照片、录像、自制电影都需要很大存储空间,所以从这个角度看,云是有意义的。你将文件存储到云端,93就等于将数据上传到数据中心——更加可能的情况是,数据将被存储在多个中心——不止一个备份被保存下来。
如果你将全部照片存储在云端,以今天系统之复杂,你不太可能会丢失它们。但另一方面,如果你想删除某些内容,照片或是录像,要确保所有备份都被删除也变得困难重重。一般情况下,不依赖提供商你无法做到这一点。另一个重要问题是,设定谁有权访问你上传到云端的数据。如果你想让大数据安全,加密是不可或缺的。
加密
我们在第五章中简略提到过,加密是指“打乱排列顺序而使文件难以识读”的方法。其基本技术至少可回溯远至罗马时代。苏埃托尼乌斯在他的《罗马十二帝王传》中描述了恺撒大帝是如何使用左移三个字母的方法为文件加密的。使用这种方法,单词“secret”就被加密成为“pbzobq”。这被称为“恺撒加密”,它并不难破解。但即使当今使用的最安全的密码,也将移位用作其算法的一部分。
1997年,当时可公开获得的最佳加密方法——数据加密标准算法(DES),被证明是可以攻破的。这很大程度上是由于计算能力的长足进步和相对较短的56位密钥长度。尽管此加密算法可以提供多达256种不同的密钥,但还是有可能通过逐一测试直到找出正确密钥,并将信息解密。这种情况1998年就发生了,为了达到此目的,电子前线基金会专门建造了计算机“狂暴破解”,它仅用了差不多二十二个小时就完成了任务。
1997年,美国国家标准和技术协会(NIST)担心,DES缺乏94保护最高机密文件所要求的安全性,于是发起了一场公开的、全球性的竞赛,以期找到比DES更好的加密方法。竞赛于2001年结束,高级加密标准算法(AES)脱颖而出。提交的算法名称为“Rijndael”,它是两位比利时原创者琼·戴门和文森特·里杰门名字的合成词。
AES是一种用来给文本加密的软件演算法,密钥长度可选128位、192位或256位。密钥长度为128位时,该算法需要九轮处理,每轮由四个步骤组成,再加上只有三个步骤的最后一轮。
AES加密算法是迭代算法,对矩阵执行大量计算——这种计算正好是计算机最为擅长的。不过,我们可以不涉及数学转换来非正式描述一下这一过程。
AES算法首先给我们想要