大数据带给我们什么

资源描述

《大数据带给我们什么》由会员分享，可在线阅读，更多相关《大数据带给我们什么（6页珍藏版）》请在金锄头文库上搜索。

1、大数据带给我们什么？大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。五年前，谷歌的一个研究小组在全球顶级的科学杂志自然上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势，而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时，而 CDC 则需要汇总大量医师的诊断结果才能得到一张传播趋势图，延时超过一周。谷歌能算的这么快，是因为他们发现当人们出现流感症状的时候，往往会跑到网络上搜索一些相关的内容。”谷歌流感趋势“不仅快捷、准确、成本低廉，而且没有使用什么理论。谷歌的工程师们不用费劲的

2、去假设哪些搜索关键字（比如”流感症状“或者”我身边的药店“）跟感冒传染有相关性。他们只需要拿出来自己网站上 5000 万个最热门的搜索字，然后让算法来做选择就行了。谷歌流感趋势的成功，很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问，谷歌给我们带来了什么新的科技？在这诸多流行语中，“大数据”是一个含糊的词汇，常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模大型粒子对撞机每年会产生 15PB 的数据，相当于你最喜欢的一首歌曲重复演奏 15000 年的文件大小。然而在“大数据”里，大多数公司感兴趣的是所谓的“现实数据”，诸如网页搜索记录、信用卡消费

3、记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据，这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大（例如 facebook），更重要的是虽然这类数据的规模很大，但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起，而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上，互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化，这些在十年前都是无法想象的。大数据的鼓吹者们提出了四个令人兴奋的论断，每一个都能从谷歌流感趋势的成功中印证：1) 数据分析可以生成惊人准确的结果；2) 因为每一个数据点

4、都可以被捕捉到，所以可以彻底淘汰过去那种抽样统计的方法；3) 不用再寻找现象背后的原因，我们只需要知道两者之间有统计相关性就行了；4) 不再需要科学的或者统计的模型，”理论被终结了”。连线杂志 2008 年的一篇文章里豪情万丈的写到：“数据已经大到可以自己说出结论了“。不幸的是，说的好听一些，上述信条都是极端乐观和过于简化了。如果说的难听一点，就像剑桥大学公共风险认知课的 Winton 教授（类似于国内的译者注）David Spiegelhalter 评论的那样，这四条都是“彻头彻尾的胡说八道”。在谷歌、facebook 和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中，现实数

5、据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模和范围，很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算，从临床试验到医疗保险报销到智能跑鞋，如果能把所有的这些健康相关的数据加以更好的整合分析，那么美国的医疗保险系统每年可以节省 3000 亿美金的开支，平均每一个美国人可以省下 1000 美元。虽然大数据在科学家、企业家和政府眼里看起来充满希望，但如果忽略了一些我们以前所熟知的统计学中的教训，大数据可能注定会让我们失望。Spiegelhalter 教授曾说到：“大数据中有大量的小

6、数据问题。这些问题不会随着数据量的增大而消失，它们只会更加突出。”在那篇关于谷歌流感趋势预测的文章发表 4 年以后，新的一期自然杂志消息报道了一则坏消息：在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天，在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了，谷歌的模型显示这一次的流感爆发非常严重，然而疾控中心在慢慢汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍。问题的根源在于谷歌不知道（一开始也没法知道）搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了

7、一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的，或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像 Viktor Mayer-Schnberger 和 Kenneth Cukier 在大数据这本书中形容的那样：“因果关系不能被忽略，然而曾作为所有结论出发点的它已经被请下宝座了。”这种不需要任何理论的纯粹的相关性分析方法，其结果难免是脆弱的。如果你不知道相关性背后的原因，你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是，2012 年 12 月份的媒体上充斥着各种关于流感的骇人故

8、事，看到这些报道之后，即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释，就是谷歌自己的搜索算法，在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样，球飞进了错误的大门。谷歌将使用新的数据再次校准流感趋势这个产品，重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据，这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训，才能避免重蹈覆辙。统计学家们过去花了 200 多年，总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了，更新更快了，采集的成本也更低了。但我们不能掩耳盗

9、铃，假装这些陷阱都已经被填平了，事实上它们还在那里。在 1936 年，民主党人 Alfred Landon 与当时的总统 Franklin Delano Roosevelt（富兰克林.罗斯福译者注）竞选下届总统。读者文摘这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法，调查人员雄心勃勃，计划寄出 1000 万份调查问卷，覆盖四分之一的选民。可以预见，洪水般寄回的邮件将超乎想象，然而文摘似乎还乐在其中。8 月下旬的时候他们写到：“从下周起，1000 万张问卷的第一批回执将会到达，这将是后续邮件洪峰的开始。所有这些表格都会被检查三次，核对，交叉存档五份，然后汇总。”最终文摘

10、在两个多月里收到了惊人的 240 万份回执，在统计计算完成以后，杂志社宣布 Landon 将会以 55 比 41 的优势击败 Roosevelt 赢得大选，另外 4%的选民则会投给第三候选人。然而真实选举结果与之大相径庭：Roosevelt 以 61 比 37 的压倒性优势获胜。让读者文摘更没面子的是，观点调查的先创人 George Gallup 通过一场规模小的多的问卷，得出了准确得多的预测结果。Gallup 预计 Roosevelt 将稳操胜券。显然，Gallup 先生有他独到的办法。而从数据的角度来看，规模并不能决定一切。观点调查是基于对投票人的的大范围采样。这意味着调查者需要处理两个难

11、题：样本误差和样本偏差。样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度，则会随着样本数量的增加而减小。对于大部分的调查来说，1000 次的访谈已经是足够大的样本了。而据报道 Gallup 先生总共进行了 3000 次的访谈。就算 3000 次的访谈已经很好了，那 240 万次不是会更好吗？答案是否定的。样本误差有个更为危险的朋友：样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人；而样本偏差则意味着这个样本可能根本就不是随机选择的。George Gallup 费了很大气力去寻找一个没有偏差的样本集合，因为他知道这远比增加样本数量要重要的多。而读者

12、文摘为了寻求一个更大的数据集，结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在 1936 年那个时代，这个样本群体是偏富裕阶层的。而且 Landon 的支持者似乎更乐于寄回问卷结果，这使得错误更进了一步。这两种偏差的结合，决定了文摘调查的失败。Gallup 每访谈一个人，文摘对应的就能收到 800 份回执。如此大规模而精确的调查最终却得出一个错误的结果，这的确让人难堪不已。如今对大数据的狂热似乎又让人想起了读者文摘的故事。现实数据的集合是如此混乱，很难找出来这里面是否存在样本偏差。而且由于数据量这么大，一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实

13、上，问题依然存在。大数据这本书的联合作者，牛津大学互联网中心的 Viktor Mayer-Schnberger 教授，曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”，在这里不再需要采样，因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果，他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题，因为采样已经包含了所有人。但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗？恐怕不是。“我不相信有人可以获得所有的数据”，Patrick Wolfe 说，他是伦敦大学学院的一名计算机学家和统计学教授。推特(Twitter)就是一个例子。理

14、论上说你可以存储和分析推特上的每一条记录，然用后来推导出公共情绪方面的一些结论（实际上，大多数的研究者使用的都是推特提供的一个名为“消防水龙带”的数据子集）。然而即使我们可以读取所有的推特记录，推特的用户本身也并不能代表世界上的所有人。（根据 Pew 互联网研究项目的结果，在 2013 年，美国的推特中年轻的，居住在大城市或者城镇的，黑色皮肤的用户比例偏高）我们必须要搞清楚数据中漏掉了哪些人和哪些事，尤其当我们面对的是一堆混乱的现实数据的时候。Kaiser Fung 是一名数据分析师和数字感知这本书的作者，他提醒人们不要简单的假定自己掌握了所有有关的数据：“N=所有常常是对数据的一种假设，而不

15、是现实”。在波士顿有一款智能手机应用叫做“颠簸的街道”，这个应用利用手机里的加速度感应器来检查出街道上的坑洼，而有了这个应用市政工人就可以不用再去巡查道路了。波士顿的市民们下载这个应用以后，只要在城市里开着车，他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。几年前还看起来不可思议的事情，就这样通过技术的发展，以信息穷举的方式得以漂亮的解决。波士顿市政府因此骄傲的宣布，“大数据为这座城市提供了实时的信息，帮助我们解决问题并做出长期的投资计划”。“颠簸的街道”在安装它的设备中所产生的，是一个关于路面坑洼的地图。然而从产品设计一开始这张地图就更偏向于年轻化和富裕的街区，因为那里

16、有更多的人使用智能手机。“颠簸的街道”的理念是提供关于坑洼地点的“N=所有”的信息，但这个“所有”指的是所有手机所能记录的数据，而不是所有坑洼地点的数据。就像微软的研究者 Kate Crawford 指出的那样，现实数据含有系统偏差，人们需要很仔细的考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象，但“N=所有”往往只是一个颇有诱惑力的假象而已。当然这个世界的现实是如果你能靠某个概念挣到钱，就没人会关心什么因果关系和样本偏差。全世界的公司在听到美国折扣连锁店 Target 的传奇式成功（由纽约时报的 Charles Duhigg 在 2012 年报道出来）以后估计都要垂涎三尺。Duhigg 解释了 Target 公司是如何从它的顾客身上搜集到大量的数据并熟练的加以分析。它对顾客的理解简直是出神入化。Duhigg 讲的最多的故事是这样的：一名男子怒气冲冲的来到一家明尼苏达附近的 Target连锁店，向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方

展开阅读全文