Reader's Club

Home Category

牛津通识读本:大数据 [12]

By Root 967 0
客喜恶商品的大数据库进行比较,以便为进一步的购物提供适当的推荐。不过,简单的比较通常并不能产生良好的效果。试看下面的例子。

假设网上书店向顾客出售烹饪书。推荐所有的烹饪书籍会很容易,但这不太可能确保顾客会购买。书籍太多,顾客无法根80据自己的喜好选择。需要一种方法将推荐量减少到顾客可能会实际购买的数量。我们来看看三位顾客,史密斯、琼斯和布朗以及他们的购书情况(图19)。

图19 史密斯、琼斯和布朗购买的书

推荐系统面临的问题是,应该分别向史密斯和琼斯推荐什么书。我们想知道,史密斯更可能会购买《今日意大利面》还是《大众葡萄酒》。

要做到这一点,我们需要运用通常用来比较有限样本集的统计学方法,即所谓的杰卡德系数。它指的是两个集合的交集数与两个集合的并集数的比值。通过交集的占比,该系数可衡量两个样本集之间的相似性。杰卡德距离用于衡量两个集合之间的差异,计算方法为“1减去杰卡德系数”。

我们再来看图19,可以看出史密斯和琼斯买的书有一本是相同的,即《每日沙拉》。他们总共买了三种不同的书:《每日沙拉》、《明日甜点》和《大众葡萄酒》。这样,他们的杰卡德系数为1/3,杰卡德距离为2/3。图20显示了所有可能的客户对的计算结果。

史密斯和琼斯之间的杰卡德系数或相似分数,比史密斯81和布朗之间的更高。这表明史密斯和琼斯的购物习惯更为接近——因此我们向史密斯推荐《大众葡萄酒》。我们该向琼斯推荐什么呢?史密斯和琼斯之间的杰卡德系数比琼斯与布朗之间的更高,于是我们向琼斯推荐《明日甜点》。

图20 杰卡德系数和距离

现在假设客户使用五星级系统对购买进行评分。为了利用这些信息,我们需要找到对特定书籍给予相同评级的其他客户,看看他们还购买了什么以及购买历史如何。每次购物的星级评定如图21所示。

图21 购物星级评定

在该示例中,我们使用了一种被称为余弦相似度度量的不同计算方法,该方法也将星级评定考虑在内。对于此计算来说,星级评定表给出的信息代表向量。向量的长度或大小归化为1,不再参与计算。向量的方向用作发现两个向量的相似程度以及82谁的星级评定最高。根据向量空间的理论,找到两个向量之间的余弦相似度值。这种计算方法与我们熟悉的三角函数方法大不相同,但基本属性仍然保持余弦取0到1之间的值。例如,如果我们发现两个分别代表星级评定的向量之间的余弦相似度为1,那么它们之间的角就是0,因为余弦(0)=1。这种情况下,它们一定重合,于是可以得出如下结论:他们的趣味相同。余弦相似度数值越大,趣味的相似度也越高。

如果你想看数学细节,本通识读本末尾的“进一步阅读”部分提供有参考书目。在我们看来,有趣的是史密斯和琼斯之间的余弦相似度是0.350,史密斯和布朗之间是0.404。这是先前结果的逆转,先前的结果显示,史密斯和布朗的趣味比史密斯和琼斯的更接近。此矛盾可初步解释为,史密斯和布朗对《明日甜点》的看法,比史密斯和琼斯对《每日沙拉》的看法更接近。

我们将在下一节中介绍奈飞和亚马逊都在使用的协同过滤算法。

亚马逊

1994年,杰夫·贝佐斯创立了卡达布拉网站,但不久后更名为亚马逊。1995年亚马逊网站上线,最初是一家线上书店,现在已发展成为一家在全球拥有3.04亿客户的国际电子商务公司。它生产和销售范围广泛,从电子设备到书籍应有尽有,甚至通过亚马逊生鲜服务提供新鲜食品,诸如酸奶、牛奶、鸡蛋等。它还是一家领先的大数据公司,亚马逊网络服务运用基于海杜普的开发成果,能为企业提供基于云的大数据解决方案。

亚马逊收集的数据包括:买了哪些书?哪些书顾客看了但没有买?他们找书花了多长时间?某本书他们看了多长时间?83以及他们保存到购物车里的书是否被最终购买?他们能从这些数据中计算顾客每月或每年购买书籍的花销,还可以确定他们是否为老主顾。早期,亚马逊对收集的数据使用标准统计技术来进行分析。抽取个人样本,基于发现的相似度,亚马逊会向顾客提供更多类似的书籍。2001年,亚马逊研究人员又前进了一步,他们申请了一项名为“项对项协同过滤”技术的专利,并获得了成功。此方法查找相似的商品,而不是相似的顾客。

亚马逊收集大量的数据,包括地址、支付信息,以及个人在亚马逊上浏览过或买过的所有物品的详细信息。亚马逊运用其数据,竭力进行着客户市场研究,以激励顾客把更多的钱花在它那里。例如,就书籍而言,亚马逊不仅提供大量选择,还对单个顾客提出重点建议。如果你订阅了“亚马逊金牌服务”(Amazon Prime),它还会跟踪你观看电影和阅读书籍的习惯。许多客户使用具有GPS功能的智能手机,从而方便了亚马逊收集时间和位置的数据。如上大量数据被用来构建客户画像,从而实现为相似的个人推荐类似的物品。

2013年起,亚马逊开始向广告商售卖客户元数据,以提升其网络服务运营,结果大获成功。对作为云计算平台的亚马逊网络服务来说,安全是至关重要和全方位的。为确保只有得到授权的人才能获得客户账户,亚马逊使用了众多安全技术,比如口令、密钥对和数字签名等。

亚马逊自己的数据同样使用AES(高级加密标准)算法进84行多重保护和加密,并存储于世界各地的专用数据中心。运用工业标准SSL(安全套接层),在两台机器——如你的家用计算机和亚马逊——之间建立安全连接。

基于大数据分析,亚马逊在预期出货方面独领风骚。其理念是运用大数据预估客户会订购何物。起初,这一想法是为了在订单实际兑现之前将物品运至配送中心。服务稍作延展,物品可随获得免费惊喜礼包的幸运客户订单一并发送。根据亚马逊的退货政策,这不是一个坏主意。可以预见,大多数客户将保留他们订购的商品,因为这些物品是基于其个人喜好,通过使用大数据分析找到的。亚马逊2014年在预期出货方面的专利项目还表明,赠送促销礼品可以买来诚意。为了诚意,也为了通过目标营销增加销售量和缩短交货时间,这一切都让亚马逊相信这种冒险很值得。亚马逊还为无人机送货申请了一项专利,称为“金牌空运”(Prime Air)。2016年9月,美国联邦航空管理局放宽了商业机构放飞无人机的规定,允许他们在高度受控的情况下,飞越操作人员的视野范围之外。这可能是亚马逊寻求在订单提交后三十分钟内发货的第一块敲门砖。也许在你的智能冰箱传感器显示牛奶快要用完之后,无人机配送就开始了。

位于西雅图的“亚马逊购”(Amazon Go)是一家食品便利店,也是第一家此类商店,在此购物无须结账。截至2016年12月,商店只服务于亚马逊员工,原计划2017年1月向公众开放,但已经宣告延期。目前,仅有的技术细节只能通过两年前提交的专利申请获得。专利描述了一种无须逐项结账的系统,在客户购物过程中,其实际购物车的商品详情会被自动添加到虚拟85购物车里。只要他们拥有亚马逊账号和安装有“亚马逊购”应用程序的智能手机,他们离店通过过渡区时,电子支付就会自动完成。该系统基于一系列数量众多的传感器,它们用来鉴别物品何时从货架上被拿走,或者何时又放回到了货架上。

该系统会给亚马逊生成大量有价值的商业信息。显然,既然从进店到离店期间的每一步购物行动都被记录在案,亚马逊就能够运用这一数据为你下一次前来做好推荐,方式与其在线推荐系统相仿。不过,考虑到对隐私的保护,有些做法很可能会涉及对隐私的侵犯,比如专利申请中提到的使用人脸识别系统鉴别顾客的手段。

奈飞公司

硅谷的另一家公司——奈飞公司,成立于1997年,起初只是免费邮寄DVD的租赁公司。你选择一张DVD后,可以将另一张添加到队列中,它们会被依次发送给你。你还可以对队列进行优先级排序,这一点很有用。这种服务目前仍然存在且获益颇丰,尽管似乎有逐渐消亡的趋势。如今,奈飞已成为国际互联网流媒体供应商,在190个国家或地区拥有约7500万订户。

2005年,奈飞公司成功扩展,开始提供自己的原创节目。

奈飞公司收集和使用大量数据以改进客服,例如在努力提供可靠的电影流媒体的同时,积极向单个客户提供个性化的推荐。推荐是奈飞商务模式的核心,其大部分业务都归功于基于86数据分析后为客户所做的推荐。奈飞现在可以跟踪你观看的、浏览的或搜索的内容,以及执行这些操作的日期和具体时间。

它还会记录你是否正在使用苹果平板电脑、电视或其他设备。

2006年,奈飞公司启动了一项旨在改进其推荐系统的大奖赛。它提供100万美元的奖金,征求能将用户电影评级的预测精度提高10%的协同过滤算法。奈飞提供了超过1亿项的训练数据,用于此次机器学习和数据挖掘竞赛——几乎是可以获得的全部数据。奈飞提供的价值5万美元的中期奖金(进展奖),于2007年由科贝尔团队获得。该团队解决了一个相关的但比较容易的问题。“比较容易”在此是个相对的说法,因为他们的解决方案综合了107种不同的算法后才最终得出两种算法。这两种算法仍在不断改进中,奈飞公司也一直在使用。据测算,这些算法符合1亿条用户电影评分,但要获得全部奖金,算法必须符合50亿条评分。全奖最终于2009年颁给了BPC团队,该团队的算法比现有算法提高了10.6%的预测精度。奈飞公司从未完全采用获奖的算法,主要因为此时他们的商业模式已经发生了改变,变成了我们现在所熟悉的流媒体。

在奈飞公司将其商业模式从邮寄服务扩展到通过流媒体提供电影后,他们便能够收集有关客户喜好和观看习惯的更多信息,而这又能让他们提供更好的推荐。然而,奈飞公司也有背离数字形态的做法。他们在全球雇用了总共大约40位兼职标记员,让他们观看电影,根据内容贴上标签,比如“科幻”或“喜剧”等。这就是电影的分类方式——最初使用人工判断,而不是计算机算法。计算机算法是下一步的事。87

奈飞公司运用多种推荐算法,合成了一个推荐系统。所有这些算法都基于公司收集的聚合大数据来进行运算。例如,基于内容的过滤通过分析标记员提供的数据,并根据题材和演员等条件找出类似的电影和电视节目。协同过滤监测你的观看和搜索习惯之类的事情。推荐是基于具有相似口味的观看者

Return Main Page Previous Page Next Page

®Reader's Club