Reader's Club

Home Category

牛津通识读本:大数据 [4]

By Root 974 0
结果和交流中意义重大。常见的静态饼图和柱状图已经得到进一步优化,它们之前用以帮助我们理解小数据集,现在也可以在大数据可视化方面发挥作用,但其适用性仍然有限。例如,信息图虽然能进行更复杂的数据呈现,但却是静态的。由于大数据是持续增加的,所以最佳的可视化手段应是用户交互式的,且创19建者应能进行定期更新。比如,当我们使用GPS规划汽车旅行时,我们访问的是一个基于卫星数据的高度交互性图像,该图像能对我们进行定位。

综上所述,大数据的四个主要特征,即数量大、种类多、速度快和准确性,给数据管理带来了巨大挑战。我们在应对挑战的过程中期待获得的优势,以及我们期望用大数据来回答的问题,都可以在数据挖掘中找到答案。

大数据挖掘

在工商界和政界领袖中,“数据就是新石油”这句话广为流传。大家普遍认为,它是乐购(Tesco)客户忠诚卡的创始人克莱夫·胡姆比于2006年提出的。这句话不仅朗朗上口,也指出了数据的特征:它既像石油一样异常珍贵,但也必须先经过处理才能实现其价值。数据供应商们最初使用这句话作为营销口号,是为了销售自己的产品,他们试图让企业相信大数据就是未来。未来可期,但这个比喻于当下而言却并不完全准确。一旦你发现了油矿,你就拥有了适销对路的商品。但大数据不同,除非你有正确的数据,否则你无法创造任何价值。所有权是个问题;隐私也是个问题;而且与石油不同的是,数据似乎是一种无限资源。但是,也不必苛责这种以石油作比的说法,大数据挖掘的任务,确实是从大量的数据集中提取有用和有价值的信息。

利用数据挖掘、机器学习方法与算法,不仅可以侦测数据中的异常模式或异常现象,也可以进行预测。为了从大数据集中获得这类信息,我们可以使用有监督机器学习技术或无监督机器学习技术。有监督机器学习,有点类似于人类从例证中学习知识的过程。通过学习有正确范例标记的训练数据,计算机程序会生成规则或算法,然后据此对新数据进行分类。算法会通过测试数据进行验证。相较之下,无监督机器学习的算法,使用20的是无标记的输入数据,且不给出数据处理目标,旨在探究数据并发现其中的隐藏模式。

我们可以将信用卡欺诈侦测作为一个例子,从而了解每种方法是如何工作的。

信用卡欺诈侦测

人们在侦测和防止信用卡欺诈方面做了很多努力。如果你不幸接到了信用卡欺诈侦测办公室的电话,你可能会好奇,他们是如何确定最近你卡上出现的消费很可能是欺诈消费的。由于信用卡交易的次数非常多,人们已无法再用传统数据分析技术通过人工来侦测交易活动,因此,大数据分析正变得越来越重要。金融机构不愿透露欺诈侦测的具体细节是可以理解的,因为这样做会让网络罪犯获知具体细节,从而找到规避欺诈侦测的方法。但是,粗线条的简单描述也能让我们感知其趣味所在。

信用卡欺诈存在几种可能的情形,我们可以先看看个人银行业务。假设是信用卡被盗,且诈骗者利用被盗信息,如PIN码(个人识别码)使用了信用卡。在这种情况下,信用卡支出可能骤增,发卡机构很容易就能侦测到这种欺诈行为。但更常见的情况是,诈骗者会先用盗取的信用卡进行“测试交易”,在“测试交易”中,他们会购买一些并不昂贵的商品。如果此次交易后平安无事,那么诈骗者接下来就会刷取更大的数额。这样的交易活动可能是欺诈,也可能不是,或许持卡人的购买模式发生了变化,也或许就是那个月花了很多钱而已。那么,我们如何侦测哪21些交易是欺诈呢?首先来看一种被称为聚类的无监督技术,以及在上述情况下它的工作原理。

聚类

基于人工智能算法,聚类算法可用于侦测客户购买行为中的异常。我们通过研究交易数据找出交易模式,并据此侦测任何异常或可疑情况,这些异常情况可能是欺诈,也可能不是。

信用卡公司采集了大量数据,并利用这些数据建立个人档案,显示客户的购买行为。然后,通过迭代(即重复进行同一运算以生成结果)程序以电子方式识别具有类似属性的个人档案,从而获得聚类。例如,可以根据有代表性意义的支出范围或位置信息、客户的最高支出限额或购买的商品种类来定义聚类,每种标准都会形成一个独立的聚类。

信用卡提供商收集的数据,并未标记交易是否为欺诈。我们的任务是将这些数据作为输入数据,并使用合适的算法对交易进行精确分类。为此,我们需要在输入的数据中找到相似性,从而进行分组或确定聚类。例如,我们可以根据消费金额、交易地点、物品种类或持卡人年龄对数据进行分组。当达成新交易时,系统将对该交易进行聚类识别,若新交易与该客户的现有聚类标识不同,则新交易会被视为可疑交易。即使新交易属于常见聚类,但若与聚类中心相距甚远,那么仍是可疑交易。

例如,一位住在帕萨迪纳八十三岁的老奶奶突然买了一辆豪华跑车,若这与她平时的购物习惯,如去杂货店和理发店不一22致,则会被视为反常现象。所有像老奶奶购买豪华跑车这样的反常事件都值得进一步调查,而联系持卡人通常是调查的第一步。图1是说明上述情况的简单聚类图解。

聚类B是老奶奶平时的月支出,该聚类也包括月支出与她类似的其他人。然而,在某些情况下,例如她的年度旅行期间,老奶奶的月支出就会有所增加,这样一来也许就会把她归到聚类C中。但是,聚类C离聚类B并不太远,所以并没有太大的不同。即便如此,由于这笔消费属于不同的聚类,也是可疑的账户活动,因而需要进行核实。像购买豪华跑车这样的行为则会被归于聚类A,这与她惯常所在的聚类B相去甚远,所以极有可能是非法交易。

图1 聚类图解[3]

与此相反的是,如果我们已经有了一组欺诈数据,我们就会使用分类法,而不是聚类算法,这是欺诈侦测中的另一种数据挖23掘技术。

分类

分类是一种有监督学习技术,前提是对相关群体事先就有所了解。我们以一个数据集为例,对该数据集的各种观察结果(先前掌握的知识)都已正确标记或分类。数据集被分为训练集和测试集两部分,训练集帮助我们构建数据的分类模型,测试集则用于检查分类模型是否良好。然后,我们就可以利用这个模型对新监测结果进行分类。

为了说明分类的具体情况,我们将构建一个用于侦测信用卡欺诈的小型决策树。

如图2所示,为了构建决策树,我们假设已经采集了信用卡交易数据,并且已根据所了解到的历史情况,将诸多交易划分为真实交易或欺诈交易。

通过这些数据,我们可以构建如图3所示的决策树,计算机可据此对输入系统的新交易进行分类。我们希望通过提出一系列问题,确定新交易的类别,即到底是真实交易还是欺诈交易。

图2 分类的欺诈数据集24

图3 交易决策树

如图3所示,从交易决策树的顶部开始,自上而下有一系列的测试问题,这些问题将帮助我们对新交易进行分类。

例如,如果史密斯先生的账户信息显示他已报告信用卡遗失或遭窃,那么任何使用此信用卡的交易都将被视为欺诈。若信用卡没有遗失或遭窃的报告,那么系统将会核查该客户是否购买了不寻常的商品,或是所购商品的金额是否符合客户的消费习惯。如果与往日没什么差别,那么这笔交易就会被视为正常交易,并被标记为“真实”;反之,如果所购商品与往日相去甚远,银行则会致电史密斯先生。如果史密斯先生确认他购买了该商品,那么这笔交易则为真实交易,否则,此次交易就是欺诈。

在大致了解何为大数据,并讨论了大数据挖掘所能解决的25问题之后,接下来让我们看看数据存储问题。

第三章 大数据存储

IBM公司在加利福尼亚州圣何塞开发和销售的第一款硬盘驱动器的存储容量约为5Mb,存储在50个磁盘上,每个磁盘直径有24英寸。在1956年的时候,这绝对是尖端技术。作为大型计算机的组成部分,该硬盘驱动器体积庞大,重量超过一吨。到1969年“阿波罗11”号登月时,美国宇航局在休斯敦的载人航天中心使用的大型计算机每台都有高达8Mb的内存。令人惊讶的是,由尼尔·阿姆斯特朗驾驶的“阿波罗11”号登月飞船的机载计算机只有64Kb的内存。

计算机技术发展迅速。到20世纪80年代个人计算机热肇始之时,个人计算机硬盘驱动器的平均容量是5Mb。此时硬盘驱动器是选配的硬件,有些计算机就没有硬盘驱动器。今天,5Mb只够存储一两张图片或照片。计算机存储容量增长迅猛,虽然个人计算机存储量落后于大数据存储,但近年来也大幅增加。现在,你可以购买到配备8Tb硬盘甚至更大的个人电脑。闪存现今的存储空间也达到了1Tb,足以存储约500小时的电影或超过30万张照片。这样的存储空间似乎已经很大,但当我们将其与每天产生的估计能达到2.5Eb的新数据相比时,它们立26刻就显得相形见绌。

一旦从真空管到晶体管的变化在20世纪60年代被触发后,放到芯片上的晶体管数量的增长就一发不可收。增长速度大致符合我们将在下一节讨论的摩尔定律。尽管有预测说小型化即将达到极限,但在到达极限前的进一步小型化仍然合理且价值连城。我们现在可以将数十亿个计算速度越来越快的晶体管植入同一块芯片,这样我们就可以存储更多的数据。与此同时,多核处理器和多线程软件也使得处理这些数据成为现实。

摩尔定律

1965年,英特尔的创始人之一戈登·摩尔曾预测道,在未来十年内,芯片中包含的晶体管数量将每二十四个月增加一倍。该预测在业内家喻户晓。1975年,他修改了自己的预测,认为芯片的复杂度将每十二个月翻一番并能持续五年,然后退回到每二十四个月增加一倍。摩尔的同事戴维·豪斯通过对晶体管增长速度的评估,认为微芯片的性能每十八个月就会增加一倍,这是当前摩尔定律最新的预测数值。事实证明,新的预测值非常准确。自1965年以来,计算机确实变得越来越快、越来越便宜、越来越强大,但摩尔本人认为这一“定律”很快就会失效。

根据米歇尔·沃尔德罗普2016年2月发表在科学期刊《自然》上的文章,摩尔定律的失效确实近在咫尺。微处理器是专门负责执行计算机程序指令的集成电路。它通常由数十亿个晶体管组成,晶体管嵌入硅微芯片的微小空间里。每个晶体管中的栅极能使它被接通或断开,用以存储0和1。极小的输入电流通过每个晶体管的栅极,并在栅极闭合时产生放大的输出电流。27米歇尔·

Return Main Page Previous Page Next Page

®Reader's Club