Reader's Club

Home Category

牛津通识读本:大数据 [9]

By Root 972 0
站收集与公共卫生相关的数据来跟踪流行病,数量大和速度快这两项都能得到满足;种类多也能达到要求,由于病历是以文本格式保存的,结构化和非结构化的都有,此外,收集的数据还包括如核磁共振提供的传感数据;准确59性是医学应用的基础,需特别小心以便消除不准确数据。

通过从脸书、推特等网站,各种博客、留言板以及网络搜索等收集到的数据,社交媒体成为医疗相关信息的潜在宝贵源泉。关注具体医疗保健问题的留言板随处可见,提供了大量非结构化数据。使用类似于第四章中描述的分类方法,采集脸书和推特上的帖子以监测药物不良反应经历,可以为医疗保健专业人士提供有关药物相互作用和药物滥用的重要信息。采集社交媒体数据用于公共卫生相关研究,现在也是学术界公认的做法。

塞尔莫情报(Sermo Intelligence)是一家全球医疗网站,它自称是“全球最大的保健数据收集者”。像这种面向医学专业人士的社交网站,为保健人士提供了与同事互动的机会,从而产生即时的众包福利。在线医疗咨询网站越来越受欢迎,并将生成更多信息。尽管收集到的庞大的电子病历不能被公开访问,但或许是最重要的信息源。这些病历,通常根据其首字母被称为EHR,它是病人完整病史的电子版,包括诊断、处方用药、医学影像(如X光),以及全程收集的所有其他相关信息。据此可以构建起“虚拟病人”——我们将在本章下文中讨论这一概念。

在使用大数据改进病人护理和降低成本的同时,通过汇集各种在线渠道生成的信息,也使得对新暴发的流行病进程的预测成为可能。

谷歌流感趋势

与许多国家一样,美国每年都会遭受流感袭击,导致医疗资源紧张和许多人失去生命。公共健康监测机构,即美国疾病控60制中心提供的过往流行病数据,加上大数据分析,为研究人员预测疾病的传播,进而实施精准服务和减少疾病的影响提供了强大支撑。

谷歌流感趋势团队是利用搜索引擎数据进行流感预测的先行者。他们感兴趣的是:如何在每年的流感预测时能走在美国疾病控制中心的前面。2009年2月出版的权威科学杂志《科学》上发表了一封信,由六位谷歌软件工程师组成的团队解释了他们正在从事的工作。如果数据能够用来预测每年流感的进程,那么疾病就能得到及时遏制,从而拯救生命并节省医疗资源。为了实现这一目标,谷歌团队的做法是收集和分析与流感相关的搜索引擎查询数据。以往利用在线数据预测流感暴发的尝试要么失败,要么收效甚微。不过,通过学习这些早期的开拓性研究所犯的错误,谷歌和美国疾病控制中心有望能成功利用搜索引擎查询生成的大数据来实现对流行病的跟踪。

美国疾病控制中心与欧洲的类似机构——欧洲流感监督计划(EISS),从各种渠道收集数据,其中包括内科医生报告的类似流感症状的病人数量。核实数据通常需要两周左右的时间,而在此期间,流感又会进一步扩散。运用从互联网上实时收集的数据,由谷歌和美国疾病控制中心组成的团队旨在提高流行病预测的准确性,并且每二十四小时发布一次预测结果。为了做到这一点,从流感相关搜索查询中收集的数据,覆盖从关于流感药方和症状的单个互联网搜索,到诸如打给医疗咨询中心的电话这样的大量数据。谷歌能够利用其从2003年到2008年间的大量搜索查询数据,并通过IP地址能够确定搜索查询的发生61地,从而按照州别对数据进行分组。美国疾病控制中心的数据收集自十个地区,每一地区包含出自数个州的累积数据(例如第九区包括亚利桑那州、加利福尼亚州、夏威夷州以及内华达州),数据最终被集成到模型中。

谷歌流感趋势计划基于如下假设:有关流感的在线搜索数量与去医生诊所的数量高度相关。假如某个特定地区有很多人在线搜索有关流感的信息,那么就可以预测流感病大概率会扩散至邻近区域。由于我们的兴趣是寻找趋势,数据可以是匿名的,因而无须征得个人同意。运用五年来与美国疾病控制中心在同一时段,即流感季节所收集的数据,谷歌对覆盖所有主题的共5000万条最常见的搜索查询逐条统计,并计算出各搜索词每周出现的次数。然后,将这些搜索查询统计结果与美国疾病控制中心的流感数据进行比较,使用相关性最高的数据建构流感趋势模型。谷歌选用了前45个与流感相关的搜索关键词,并进而在人们的搜索查询中进行跟踪。完整的搜索关键词表属于秘密,包括诸如“流感并发症”“流感治疗”“流感一般症状”等。以历史数据为基准,评估搜索关键词与流感活动的相关性,再将新的实时数据与这一数据做比对,这样就建立起了从一级到五级的分类,五级为最严重级别。

在2011—2012年及2012—2013年美国流感季节,谷歌的大数据算法未能成功预测。这一事件引起广泛关注。流感季节结束后,他们将自己的预测与美国疾病控制中心的实际数据做了对照。基于现有数据所建立的模型本该能表征流感趋势,但实62际情况是,谷歌流感趋势算法在其被运用的年份里,对流感病例数量的预测高出了至少50%。模型失灵有多种原因。有些搜索项被刻意排除,只是因为它们与研究团队的预期不符。广为人知的例子是高中篮球,它与流感看似毫不相干,却与美国疾病控制中心的数据高度拟合,但被排除在模型之外。变量选取,即选取最恰当预测项的过程,始终是一个具有挑战性的工作,只有通过优化算法才能避免偏差。谷歌将其算法细节定为秘密,仅透露出高中篮球在搜索关键词表的前100位中,并辩解说将其排除是有理由的,因为流感和篮球在一年中同一时间达到峰值只是虚假相关。

我们已经注意到,谷歌在模型构建中运用了45个搜索项作为流感搜索因子。假如他们仅仅使用一个搜索项,如“流行性感冒”或“流感”,那么诸如“感冒药”之类的所有搜索将被忽略。数量充足的搜索项会提高预测的精准度,但搜索项过多也会降低预测的精度。运用当前数据作为训练数据来构建模型,可以预测未来数据的走向。但是如果预测因子太多,训练数据中那些微不足道的随机病例就会被模型化。如此一来,模型尽管与训练数据非常拟合,却不能很好地进行预测。这种看似自相矛盾的现象,叫作“过拟合”,谷歌团队对此没有充分关注。因其与流感季节巧合而忽略高中篮球还情有可原,但是对于5000万个不同的搜索项来说,数量太过庞大,不可避免地会出现与美国疾病控制中心数据高度相关,而与流感趋势并不相关的搜索项。

类似流感症状的病人去看医生,诊断结论常常不是流感(例如只是普通感冒)。谷歌运用的数据从搜索引擎查询中选取收集而来,由于数据收集出现了偏差,比如将不使用计算机的和使用其他搜索引擎的人排除在外,因而得到的结果并不很科学。63预测结果不佳可能还有另一个原因,在谷歌上搜索“流感症状”的用户很可能浏览过多个与流感相关的网站,导致同一搜索被多次计算,从而使数字被夸大。另外,搜索行为因时而异,特别是在疾病流行期间,这一点也需要予以考虑并定期更新模型。预测中一旦出现错误,就会产生连锁反应。谷歌流感预测中发生的正是这种情况:某一周出现的错误传递至下一周。搜索查询按实际是否发生而被收集和分析,并没有按拼写和措辞进行分组。谷歌自己就有将“流感的症候”“流感症候”“流感之症候”分别计入的先例。

谷歌的这项始于2007—2008年间的工程受到大量批评。这些批评有时并不公正。诟病的主要对象是缺乏透明度,比如拒绝透露全部搜索选项,不愿回应学术界获取信息的请求。搜索引擎查询数据并非精心设计的统计实验产品,如何找到一种方法对这些数据进行有意义的分析以获取有用知识,这是一个全新的和富有挑战性的领域。然而,这也需要合作。2012—2013年的流感季节,谷歌算法发生了重大变化,开始运用一种被称为弹性网络的相对较新的数学技术,此举为选取必要的和减少不必要的预测因子提供了严谨的方法。2011年,谷歌启动了一个跟踪登革热的类似项目,但他们不再发布预测。2015年,谷歌流感趋势被撤销。不过,现在他们开始与学术科研人员分享他们的数据了。

谷歌流感趋势是运用大数据进行流行病预测的早期尝试64之一,它为后来的研究人员提供了灵感。尽管其结果未达预期,但将来有可能开发出新技术,将大数据用于跟踪流行病的潜能充分释放。美国洛斯——阿拉莫斯国家实验室的一群科学家,就运用维基百科的数据做过此类尝试。卡内基·梅隆大学德尔菲研究小组,在美国疾病控制中心“流感预测”的竞赛中拔得头筹——在2014—2015年和2015—2016年两个年度均为最精确的预测者。研究小组运用来自谷歌、推特以及维基百科的数据成功监测了流感的暴发。

西部非洲埃博拉暴发

我们的世界,过去经历过很多流行病。1918—1919年的西班牙流感,死亡人数在2000万到5000万之间,共有大约5亿人感染。由于对病毒知之甚少,没有有效治疗方法,公共卫生响应非常有限——因对疾病不明就里,此是必然。1948年,负责通过全球合作协同监督和改进全球卫生状况的世界卫生组织(WHO)成立,此种窘境才得以改变。2014年8月8日,在国际卫生条例紧急委员会的电视电话会议上,世界卫生组织宣布:西部非洲埃博拉病毒的暴发正式构成了“国际关注的突发公共卫生事件”(PHEIC)。世界卫生组织明确指出,埃博拉的暴发是一个“非常事件”,需要国际社会付出史无前例的努力加以遏制,从而避免疾病的大流行。

2014年西部非洲埃博拉的暴发,主要限于几内亚、塞拉利昂和利比里亚。这与美国每年一度的流感暴发有所不同,因此也提出了一系列不同的问题。埃博拉的历史数据要么无法获得,要么毫无用处,因为此等规模的暴发从未有过记录,制定新的应对策略迫在眉睫。考虑到人口流动数据对公共卫生专业人士监65督流行病的扩散会有帮助,人们认为移动电话公司掌握的信息可以用来跟踪感染区的人员行踪,如果再加上其他措施,例如旅游限制,就可以遏制病毒传播,并最终拯救生命。据此构建的疾病暴发实时模型,会预测出下一个病例很可能会出现的区域,然后再针对性地聚集资源。

从移动手机上可以获取基本的数字信息,如呼叫者和被呼叫者的电话号码、呼叫者的大致方位等。移动手机呼叫都会留下痕迹,根据呼叫使用的发射塔,可以大致判断呼叫者的位置。接触这些数据也产生一

Return Main Page Previous Page Next Page

®Reader's Club