光环大数据培训_大数据”这词不火了

上传人:gua****an 文档编号:51373576 上传时间:2018-08-13 格式:DOCX 页数:5 大小:45.90KB
返回 下载 相关 举报
光环大数据培训_大数据”这词不火了_第1页
第1页 / 共5页
光环大数据培训_大数据”这词不火了_第2页
第2页 / 共5页
光环大数据培训_大数据”这词不火了_第3页
第3页 / 共5页
光环大数据培训_大数据”这词不火了_第4页
第4页 / 共5页
光环大数据培训_大数据”这词不火了_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《光环大数据培训_大数据”这词不火了》由会员分享,可在线阅读,更多相关《光环大数据培训_大数据”这词不火了(5页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/光环大数据培训光环大数据培训_ _大数据大数据”这词不火了这词不火了国外媒体 Slate 刊文指出,“大数据(Big Data)”一词已经变得没有以往那么 红火了,为什么会这样呢?“大数据”的问题并不在于数据或者大数据本身很糟 糕,而是在于盲目迷恋数据,不加批判地使用,那会引发灾难。数据也不一定 完全反映你想要了解的事情的实际情况。以下是文章主要内容:5 年前2012 年 2 月纽约时报刊文高呼人类的一个新纪元的到 来:“大数据时代”。该文章告诉我们,社会将开始发生一场革命,在这场革 命

2、中,海量数据的收集与分析将会改变人们生活的几乎每一个方面。数据分析 不再局限于电子数据表和回归分析:超级计算的到来,伴随着可持续记录数据 并将数据传送到云端的联网传感器的不断普及,意味着迈克尔刘易斯 (Michael Lewis)2003 年的棒球书籍Moneyball所描述的那种先进数据分析 有望被应用于各行各业,从商业到学术,再到医疗和两性关系。不仅如此,高 端的数据分析软件还有助于鉴定完全意想不到的相关性,比如贷款方用尽额度 和他债务违约的可能性之间的关系。这势必将会催生会改变我们思考几乎一切 事物的新颖见解。纽约时报并不是第一个得出这一结论的企业机构:它的文章引用了麦 肯锡咨询公司 2

3、011 年的一份重大报告,其观点也得到了 2012 年瑞士达沃斯世 界经济论坛题为“大数据,大影响”的官方报告的支持。但这种宣言仿佛就是 标志大数据时代开启的里程碑。在之后的一个月里,巴拉克奥巴马(Barack Obama)的白宫成了一个 2 亿美元的国家大数据项目,疯狂热潮随即袭来:学术 机构、非盈利组织、政府和企业都争相去探究“大数据”究竟是什么,他们可 以如何好好利用它。事实证明,这种疯狂没有持续很长时间。5 年后,数据在我们的日常生活 中扮演重要很多的角色,但大数据一词已经不再流行甚至让人觉得有些讨 厌。我们被允诺的那场革命究竟发生了什么呢?数据、分析技术和算法现在又在 往什么方向发展

4、呢?这些问题值得回头去思考。科技咨询公司 Gartner 在它 2015 年相当有名的“技术成熟度曲线”报告中 不再使用“大数据”一次,之后该词再也没有回归。该公司澄清道,这并不是 因为企业放弃挖掘巨量数据集获得洞见的概念。而是因为那种做法已经变得广 为流行,以至于它不再符合“新兴技术”的定义。大数据帮助驱动我们的动态 消息、Netflix 视频推荐、自动化股票交易、自动校正功能、健康跟踪设备等 不计其数的工具背后的算法。但我们现在不大使用大数据一词了我们只是光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/将它称作数据。我们开始将数据集

5、能够包含无数的观察结果,先进软件能够检 测当中的趋势当做理所当然的事情。大数据引发的严重错误虽然该词仍有被使用,但它更多地带有一种不好的意味,比如凯茜奥尼 尔(Cathy ONeil)2016 年的著作数学杀伤性武器(Weapons of Math Destruction)或者弗兰克帕斯夸里(Frank Pasquale)2015 年的黑箱社会 (The Black Box Society)。匆忙执行和应用大数据,即进行所谓的“数据驱动 型决策”,带来了严重的错误。有的错误相当惹人注目:塔吉特(Target)曾向一位没跟任何人说过自己怀 孕的少女的家庭派送婴儿用品优惠券;Pinterest 曾

6、恭喜一位单身女性即将结婚;谷 歌照片(Google Photos)也曾引发轩然大波,该公司被大肆吹捧的 AI 将黑人误 以为是大猩猩,原因是它的训练数据不够多元化。(值得指出的是,至少在该事 件中,“大数据”还不够大。)其它的错误更为微妙,或许也更加阴险。当中包括奥尼尔在她的重要著作 中记录的那些不透明的数据驱动式制度性模型:被法庭用来判决罪犯的、带有 种族偏见的累犯模型,或者那些基于可疑的测验分数数据解雇备受爱戴的教师 的模型。大数据出错的新案例可谓层出不穷比如 Facebook 算法明显帮助俄 罗斯通过针对性的假新闻影响美国总统大选的结果。盲目迷恋数据与误用“大数据”的问题并不在于数据本身

7、很糟糕,也不在于大数据本身很糟糕: 谨慎应用的话,大型数据集还是能够揭示其它途径发现不了的重要趋势。正如 茱莉娅罗斯韦斯特(Julia Rose West)在最近给 Slate 撰写的文章里所说的, 盲目迷恋数据,不加批判地使用,往往导致灾难的发生。从本质来看,大数据不容易解读。当你收集数十亿个数据点的时候一 个网站上的点击或者光标位置数据;大型公共空间十字转门的转动次数;对世界 各地每个小时的风速观察;推文任何给定的数据点的来源会变得模糊。这反 过来意味着,看似高级别的趋势可能只是数据问题或者方法造成的产物。但也 许更重大的问题是,你所拥有的数据通常只是你真正想要知道的东西的一个指 标。大数

8、据不能解决那个问题它反而放大了那个问题。例如,民意调查被广泛用作衡量人们在选举中的投票意向的指标。然而, 从汤姆布拉德利(Tom Bradley)1982 年在加州州长竞选中败北,到英国脱欧 公投,再到特朗普的当选,数十年来结果出乎意料的选举一再提醒我们,民意 测验和人们实际的投票意向之间并不总是完全一致。Facebook 以往主要通过用 户有没有点赞来估量他们对特定的帖子是否有兴趣。但随着经过算法优化的动 态信息开始大量出现标题诱饵、点赞诱饵和婴儿照片导致用户满意度明显光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/下降该公司的高层逐

9、渐意识到,“点赞”这事并不一定意味着用户真的喜 欢特定的内容。指标和你实际上要估量的东西之间的差别越大,过于倚重它就越危险。以 来自奥尼尔的著作的前述例子为例:学区使用数学模型来让教师的表现评估与 学生的测验分数挂钩。学生测验分数与不在教师控制范围内的无数重要因素有 关。大数据的其中一个优势在于,即便是在非常嘈杂的数据集里,你也可以发 现有意义的关联性,这主要得益于数据量大以及理论上能够控制混杂变量的强 大软件算法。例如,奥尼尔描述的那个模型,利用来自多个学区和体系的学生 的众多人口结构方面的相关性,来生成测验分数的“预期”数据集,再拿它们 与学生的实际成绩进行比较。(由于这个原因,奥尼尔认为

10、它是“大数据”例子, 尽管那个数据集并不够大,没达到该词的一些技术定义的门槛。)试想一下,这样的系统被应用在同一所学校里面拿每个年级的教师与 其它年级的教师比较。要不是大数据的魔法,学生特定学年异常的测验分数会 非常惹眼。任何评估那些测验的聪明人,都不会认为它们能够很好地反映学生 的能力,更不用说教他们的老师了。而前华盛顿特区教育局长李洋姬(Michelle Rhee)实行的系统相比之下更不 透明。因为数据集比较大,而不是小,它必须要由第三方的咨询公司利用专门 的数学模型来进行分析解读。这可带来一种客观性,但它也排除掉了严密质问 任何给定的信息输出,来看看该模型具体如何得出它的结论的可能性。例

11、如,奥尼尔分析道,有的教师得到低评分,可能不是因为他们的学生表 现糟糕,而是因为那些学生之前一年表现得出奇地好可能因为下面那个年 级的教师谎称那些学生表现很好,以提升他自己的教学评分。但对于那种可能 性,学校高层并没什么兴趣去深究那种模型的机制来予以证实。加入更多指标并不是说学生测验分数、民意调查、内容排名算法或者累犯预测模型统统 都需要忽视。除了停用数据和回归到奇闻轶事和直觉判断以外,至少有两种可 行的方法来处理数据集和你想要估量或者预计的现实世界结果之间不完全相关 带来的问题。其中一种方法是加入更多的指标数据。Facebook 采用这种做法已有很长一 段时间。在了解到用户点赞不能完全反映他

12、们在动态消息当中实际想要看到的 东西以后,该公司给它的模型加入了更多的指标。它开始测量其它的东西,比 如用户看一篇帖子的时长,他们浏览其点击的文章的时间,他们是在看内容之 前还是之后点赞。Facebook 的工程师尽可能地去权衡和优化那些指标,但他们 发现用户大体上还是对动态消息里呈现的内容不满意。因此,该公司进一步增 加测量指标:它开始展开大范围的用户调查,增加新的反应表情让用户可以传 达更加细微的感受,并开始利用 AI 来按页面和按出版者检测帖子的标题党语言。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/该社交网络知道这些指标没有

13、一个是完美的。但是,通过增加更多的指标,它 理论上能够更加接近于形成可给用户展示他们最想要看到的帖子的算法。这种做法的一个弊端在于,它难度大,成本高昂。另一个弊端在于,你的 模型加入的变量越多,它的方法就会变得越错综复杂,越不透明,越难以理解。 这是帕斯夸里在黑箱社会里阐述的问题的一部分。算法再先进,所利用的 数据集再好,它也有可能会出错而它出错的时候,诊断问题几无可能。 “过度拟合”和盲目相信也会带来危险:你的模型越先进,它看上去与你过往 所有的观察越吻合,你对它越有信心,它最终让你一败涂地的危险就越大。(想 想次贷危机、选举预测模型和 Zynga 吧。)小数据对于源自大数据集偏见的问题,另

14、一个潜在的应对方法是部分人所说的 “小数据”。小数据是指,数据集足够简单到可以直接由人来分析和解读,不 需要求助于超级计算机或者 hadoop 作业。跟“慢餐”一样,该词也是因为其相 反面的流行而产生。丹麦作家、营销顾问马丁林德斯特罗姆(Martin Lindstrom)在他 2016 年 的著作小数据:揭示大趋势的微小线索中谈到了那种做法。例如,丹麦知 名玩具厂商乐高(Lego)依据大量声称千禧一代需要即时满足,更容易被比较轻 松的项目吸引的研究,转向提供更大的积木,还在 1990 年代末和 2000 年代初 打造主题公园和视频游戏。这种转型没有奏效。那种由数据驱动的范式最后被它的营销者 2

15、004 年进行的一项范围小得多的 人类学调查颠覆。它的营销者逐个询问小孩他们最珍爱什么物品,发现他们最 喜欢也最忠于可让显示出其苦苦练就的能力的产品比如一双因数百个小时 的滑板练习而磨损的旧运动鞋。据林德斯特罗姆(他曾担当乐高的顾问,自己也 很喜欢玩乐高积木)说,乐高重新专注于提供它原来的小积木,由此实现复兴。在很多方面,亚马逊是可充分说明大数据威力的典型例子。它关于其数以 亿计的顾客的购买和商品浏览习惯的数据,帮助它成为全世界最成功的零售商 之一。不过,布拉德斯通(Brad Stone)在他的书万货商店(Everything Store)中称,该公司的 CEO 杰夫贝索斯(Jeff Bezos)有个很有趣(对于他的员 工来说则很可怕)的方式来平衡所有的那些客观数据分析。他时不时会将顾客发 来的投诉邮件转发给他的高层团队,要求他们不仅仅要解决投诉的问题,还要 彻底调查清楚它发生的原因,并撰写一份解释报告。这说明,贝索斯不仅仅理解大数据提升各

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据挖掘与识别

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号