Reader's Club

Home Category

牛津通识读本:大数据 [10]

By Root 981 0
些问题:隐私问题首当其冲,电话被追踪的人身份完全暴露,而他们自己对此却一无所知。

在受埃博拉影响的西部非洲国家,移动手机分布密度并不均衡,在贫穷的乡村地区比例最低。例如2013年的时候,在利比里亚和塞拉利昂,拥有手机的家庭刚刚过半,它们是2014年疾病暴发时受到直接影响的两个国家。但即便如此,它们仍然能够提供足够多的数据用于跟踪人口流动情况。

一些重要的移动电话数据交给了弗洛明德基金会。这是一家总部设在瑞典的非营利机构,致力于使用大数据从事面向世界最贫穷国家的公共卫生服务工作。2008年,弗洛明德基金会率先运用移动运营商的数据跟踪医学难以应对的人口流动情况。这是世卫组织消灭疟疾倡议的一部分,于是该基金会就成了应对埃博拉危机的首选机构。另一个著名的国际团队运用重66要的匿名数据,构建了埃博拉感染地区的人口流动地图。由于流行病蔓延期间人们的行为与往日不同,这些数据用途有限,但对于人们遇到紧急情况会倾向去往何地,也给出了强烈的暗示。

移动电话信号塔的记录提供了实时人口活动的详情。

不过,世卫组织发布的埃博拉预测数字比实际记录的病例要高出50%以上。

谷歌流感趋势与埃博拉预测具有类似的不足,即运用的预测算法仅仅基于初始数据,未将动态变化考虑在其中。实际上,这些模型均假定病例数量未来会继续上升,上升速度与医学干预开始之前并无二致。显然,医疗和公共卫生措施会产生预期的正面效果,而这些并没有被融入模型之中。

由伊蚊传播的寨卡病毒于1947年在乌干达被首次记录,此后病毒传播远至亚洲和美洲。最近的寨卡病毒暴发于2015年发生在巴西,它导致了又一起国际关注的突发公共卫生事件。对于大数据统计建模,谷歌流感趋势以及埃博拉暴发期间的工作,已经给了我们很多教训。现在公认的是,数据应该从多种渠道收集。回想一下谷歌流感趋势计划仅从其自身的搜索引擎收集数据吧。

尼泊尔地震

那么,运用大数据进行流行病跟踪的未来前景如何?移动电话通话详细记录具有实时性特征,已经被用于协助监控灾难发生期间的人口流动情况,比如运用于范围广泛的尼泊尔地震区和墨西哥猪流感暴发区域。2015年4月25日,尼泊尔地震发生之后,由弗洛明德基金会牵头,汇集了来自英国的南安普敦大学和牛津大学,以及美国和中国的多个机构的科学家组成了一67个国际团队,他们使用移动电话通话详细记录对人口流动情况做了评估。尼泊尔人持有手机的比例很高,利用1200万用户的匿名数据,弗洛明德团队能够跟踪地震发生九天内人口的流动情况。这种快速反应部分是由于跟尼泊尔主要服务提供商有约在先,碰巧的是,合作细节在灾难发生前一周刚刚完成。提供商的数据中心拥有硬驱达20Tb的专用服务器,这使得团队能够立即开展工作,从而能在短时间内让灾难救援机构获取地震发生九天内的信息。

大数据与智能医学

只要病人去医生办公室或是医院,相关电子数据按照惯例都要被收集。电子健康病历成为病人保健联络的法定文件:病人的病史、处方用药、检验结果均记录在案。电子病历还可能包括诸如核磁共振扫描等传感数据。数据匿名入库,供研究之用。据估计,在美国,普通医院平均存储超过600Tb的数据,其中大部分为非结构化数据。如何挖掘这一数据以提供改进病人护理和减少成本呢?简单地说,我们将数据拿来,包括结构化和非结构化的,确定与病人相关的特征,运用诸如分类和回归等统计技术将结果建模。病人数据主要是非结构化文本格式,要有效进行分析需要使用如IBM公司的“沃森”人工智能所使用的那种自然语言加工技术。这将在下一节讨论。

据IBM公司预计,到2020年,医学数据每七十三天会翻一68番。可穿戴设备被越来越多地用以监测健康个体,广泛使用于计算我们每天行走的步数,测量和平衡我们需要多少卡路里,跟踪我们的睡眠模式,以及给出我们心率和血压的即时信息等。获得的这些信息,可被上传到我们的个人电脑。记录由我们私下保存,或者——有时会有这种情况——自愿与雇主共享。这种关于个体的真实的数据级联,为医疗保健专业人士提供了有价值的公共卫生数据,并提供了一种识别个体变化的方法,这些变化可能对避免诸如心脏疾病等的突发有所裨益。与人群相关的数据,有助于医生根据患者的特征来跟踪监测特定治疗方案的副作用。

2003年,人类基因组计划完成之后,基因数据会逐渐成为我们个人医疗记录的重要组成部分,它本身也为研究提供了海量数据。人类基因组计划的目的是绘制人类基因图谱。总的来说,有机体的基因信息被称为基因组。典型的人类基因组包含大约两万组基因,绘制这样一个基因组需要大约100Gb的数据。绘制基因图谱是一个高度复杂、高度专业和多元化的领域,但运用大数据分析法的意义令人神往。收集到的基因信息存储在庞大的数据库中,近来一直有人担心这些数据会遭到黑客攻击,并将捐献DNA的病人查找出来。有人建议,为安全起见,应该往数据库中添加虚假信息,当然虚假数据的量应控制在一定范围之内,以防数据库变得对医学研究毫无价值。由于需要管理和分析基因组学产生的大数据,生物信息学这一跨学科领域应运而生。近年来,基因测序速度越来越快,成本越来越低,绘制个人基因组图谱现在已切实可行。算上十五年的研究成本,第一个人类基因组测序花费将近300万美元。而现在,很多公司能以69合理的价格给个人提供基因组测序服务。

诞生于人类基因组计划的虚拟生理人类(VPH)计划,使用实际病人的庞大数据库来建立一套计算机仿真模型,让临床医生模拟看病治疗,找出特定病人的最佳治疗方案。将这些方案与类似症状及其他相关医疗细节进行比较,计算机模型可以预测出一个病人治疗的可能结果。进一步运用数据挖掘技术并结合计算机仿真,可找到个性化治疗方案。因此,诸如核磁共振这样的检查结果,可能会集成到仿真系统当中。未来的数字病人会包含真实病人的所有信息,并根据智能设备数据予以更新。不过,数据安全越来越成为该计划不得不面对的重要挑战。

医学中的沃森

2007年,IBM公司决定建造一台计算机,用来挑战美国电视游戏节目《危险边缘》中的顶级竞赛选手。以IBM公司的创始人托马斯·J.沃森名字命名的大数据分析系统应运而生。与之对垒的是两位《危险边缘》节目昔日的冠军:一位是布拉德·鲁特,74次参赛连胜;另一位是肯·詹宁斯,总共赢取了让人震惊的325万美元奖金。《危险边缘》是一档智力竞赛节目,节目主持人给出“答案”,而参赛选手要猜出“问题”。参赛选手有三位,答案或线索出自多种类别,如科学、体育和世界历史等,也包括不太规范、有些奇怪的类别,诸如“之前和之后”。举个例子,对于线索“他葬在汉普郡教堂的墓地,墓碑上写着‘骑士、爱国者、医生和文人;1859年5月22日—1930年7月7日’”,正确答案是:“阿瑟·柯南·道尔爵士是谁?”有个比较边缘的类别叫70“抓住这些人”,对于“通缉犯,波士顿人,犯有19次谋杀,1995年潜逃,最后于2011年在圣莫妮卡海滩被抓获”这条线索,正确答案是:“白佬·巴尔杰是谁?”线索以文本格式发送给沃森,竞赛中略去音视频线索。

在人工智能领域,自然语言处理(NLP)被公认为是对计算机科学的巨大挑战,它对于沃森的发展最为重要。信息必须可访问、可检索,这在机器学习中是个难题。研究团队按照词汇应答类型(LAT)从分析《危险边缘》线索入手,将线索中确定的答案分类。在上面的第二个例子中,词汇应答类型是“这位波士顿人”。第一个例子中没有词汇应答类型,无法对代词“it”进行归类。IBM团队分析了两万条线索,找出了2500个特有的词汇应答类型,但它们也只覆盖了大约一半的线索。接下来,解析线索以确定关键词以及它们之间的关系。再对电脑里相关的结构化和非结构化数据进行检索,然后基于初步分析提出假设,最后通过寻找更深层的证据,提出可能的答案。

要赢得《危险边缘》游戏,快速而先进的自然语言处理技术、机器学习、统计分析至关重要。其他要考虑的因素包括准确性和类别的选择。运用以往获胜者的数据,计算出合格表现的基准。几次尝试过后,整合了很多人工智能技术的深度问答分析给出答案。这一系统使用了多台计算机进行平行运算,但不连接互联网;它的计算基于概率和专家提供的知识。除了生成答案,沃森运用置信度评分算法凸显最佳结果。只有达到置信度阈值时,沃森才准备显示它已得出的答案,相当于参赛选手按响抢答铃。沃森战胜了两位《危险边缘》的冠军。詹宁斯71坦然接受失败,用他本人的话说:“我本人欢迎我们的计算机新霸主。”

以《危险边缘》的人工智能为基础,沃森医疗系统得以成功开发,它可以检索和分析结构化和非结构化数据。由于建立了自己的知识库,该系统本质上如同对特定领域人类思想过程的模拟。医学诊断是基于现有医学知识的,它依靠证据,要求输入的信息准确无误并包含全部相关信息,且具有一致性。人类医生拥有经验但会犯错误,诊断水平良莠不齐。沃森医疗系统的诊断过程与《危险边缘》中的人工智能相似,在通盘考虑全部相关信息后给出判断,每个判断都附有置信度等级。沃森内置的人工智能技术使它能够加工大数据,包括医学影像生成的海量数据。

现在,沃森超级计算机已经发展为多应用系统,亦是巨大的商业成功。另外,沃森已应用在人道主义工作中,例如通过特别研发的开源分析系统,帮助跟踪埃博拉在塞拉利昂的扩散情况。

医疗大数据的隐私问题

大数据显然具有预测疾病流行和定制个性化医疗方案的作用,但是,硬币的另一面——个人医疗数据的隐私又当如何应对呢?尤其是在当下,随着越来越多地使用可穿戴设备和智能手机应用,问题就产生了:数据归谁所有?该存储在哪里?谁可以接触和使用数据?面对网络攻击,安全如何保障?还有大量道德和法律问题都悬而未决。

健康跟踪器数据或许会让雇主得到,并用来做以下事情:好72的方面,例如给达到某些指标的员工发奖金;不好的方面,确定哪些员工未能达标,兴许还会招致辞退。2016年9月,德国达姆施塔特工业大学和意大利帕多瓦大学的科学家合作研究团队,发布了他们对健康跟踪器数据安全的研究报告

Return Main Page Previous Page Next Page

®Reader's Club