大数据时代统计面临挑战

上传人:n**** 文档编号:55246695 上传时间:2018-09-26 格式:PDF 页数:102 大小:4MB
返回 下载 相关 举报
大数据时代统计面临挑战_第1页
第1页 / 共102页
大数据时代统计面临挑战_第2页
第2页 / 共102页
大数据时代统计面临挑战_第3页
第3页 / 共102页
大数据时代统计面临挑战_第4页
第4页 / 共102页
大数据时代统计面临挑战_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《大数据时代统计面临挑战》由会员分享,可在线阅读,更多相关《大数据时代统计面临挑战(102页珍藏版)》请在金锄头文库上搜索。

1、大数据时代统计面临的挑战统计方法在政府经济管理中的应用章上峰统计学博士、经济学博士后浙江大学-凉山州统计系统干部业务能力提升班个人简介浙江工商大学统计与数学学院副教授、研究生导师浙江工商大学经济统计与数量经济研究所副所长国家统计局优秀成果奖和浙江省科技进步奖 获得者国家自然科学基金和国家社会科学基金首席专家在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。C.R.劳先生统计与真理2017年1月20日,71周岁的美国新总统特朗普宣誓就职。 成为美国历史上最年长的总统。2017年5月14日,39周岁的法国新总统马克龙于宣誓就职。 成为法国历史

2、上最年轻的总统。共和党候选人:特朗普共和党候选人:特朗普民主党候选人:希拉里民主党候选人:希拉里19361936年年文学文摘文学文摘对罗斯福总统对罗斯福总统 竞选的大数据预测为什么会失误?竞选的大数据预测为什么会失误?1936年,兰登(共和党候选人)与罗斯福(民主 党候选人)竞选总统,当时很有声望的杂志社 文学文摘承担了选情预测的任务。 文学文摘曾在1920年、1924年、1928年、 1932年连续4届美国总统大选中成功预测总统宝 座的归属。再次雄赳赳气昂昂地照办老方法 民意点钞,范围拓展得更广。数据集合越大,预 测结果越准确。计划寄出1000万份调查问卷,覆 盖当时四分之一的选民。 最终在

3、两个多月内收到了惊人的240万份回执, 在统计完成以后,文学文摘宣布,兰登将会 以55比41的优势击败罗斯福赢得大选,另外4% 的选民则会零散地投给第三候选人。真实的选举结果与文学文摘的预 测大相径庭,罗斯福以61比37的压 倒性优势获胜。让文学文摘脸上挂不住的是,新 民意调查的开创者乔治.盖洛普仅仅通 过一场规模小得多的问卷一个 3000人的问卷调查,得出了准确得 多的预测结果:罗斯福稳操胜券。盖洛普的3000人“小”抽样,居然 挑翻了文学文摘240万的“大” 调查,实在让专家学者和社会大众跌 破眼镜!罗斯福总统罗斯福总统文学文摘的失败在于取样存在严重偏差,调查对象主 要锁定为它自己的用户,

4、虽然问卷数量不少,但订户多集 中在上阶层(共和党),中下阶层(民主党)预定较少, 样本一开始就是有偏差的,数据质量也受到影响,推断结 果不准确也就可以解释了。原因分析中国四大名著及作者西游记(吴承恩)红楼梦(曹雪芹)水浒传(施耐庵)三国演义(罗贯中)红楼梦的作者有几人?众所周知,红楼梦一书共120回,自从胡适作红楼梦考证以 来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来 这种看法一直都饱受争议。能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生将120回看成是 120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用 数理统计分析方法,看看

5、哪些回目出自同一人的手笔。一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回 目中47个虚词(之,其,或,;呀,吗,咧等)出现的次数,作为 红楼梦各个回目的数字标志。利用多元分析中的聚类分析法进行聚类, 果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实 了不是出自同一人的手笔。红楼梦的作者有几人?统计学家揭开玄机之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹 的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回 为曹雪芹一人手笔,是他根据石头记写成,中间插入风月宝鉴, 还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了

6、后 40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为 一人所写,贾府衰败情景当为另一人所写等等。这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了 红学界的观点,使红学界大为赞叹。1985年11月14日,研究莎士比亚的学者泰勒从1775年以来就保存在 Bodelian图书馆的收藏中发现了写在纸片上的九节新诗。新诗只有429个 字,没有记载谁是诗的作者。这首诗会是莎士比亚的作品吗?两个统计学 者Thisted和Efron(1987)利用统计方法研究了这个问题,得到的结论是 这首诗用词的风格与莎士比亚的风格非常一致。这个研究纯粹基于统计学 的基础,其过程可描述如下:已知

7、莎士比亚所有著作的用词总数为884647个,其中31534个是不同的, 这些词出现的频数如下表所示:莎士比亚的新诗:一曲统计学的赞歌表1 不同单词所使用的频数分布 单词使用的频数不同的单词数 114376 24343 32292 41463100846 总数31534新发现的诗上,其含有429个单词中有258个是不同的,新诗的观测值 和预测值(基于莎士比亚的风格)分布由表2(最后两栏)给出,从表 2可以看到,(在所期望的差的范围内)两个分布非常一致,这表示了 新发现的诗的作者可能是莎士比亚。表2 几乎同样长度的诗歌作品中,莎士比亚风格所含不同单词 与其他作者风格所含不同单词的频数分布 莎士比亚

8、作品中单词使用的次 数不同单词使用的频数基于莎士比亚作品的期望值 新发现的诗 096.97 174.21 253.33 3-485.36 5-91110.24 10-191013.96 20-292110.77 30-39168.87 40-591813.77 60-7989.99 80-9957.48 不同单词数258258 单词总数429.2017年是不确定性最大的一年2017年1月20日,71周岁的美国新总统特朗普宣誓就职。 成为美国历史上最年长的总统。2017年5月14日,39周岁的法国新总统马克龙于宣誓就职。 成为法国历史上最年轻的总统。我什么都不怕,只怕不确定性。索罗斯大数据:消除

9、不确定性不确定性(uncertainty)这一概念,既出现在经济学、统计学,也出现 在哲学等各领域。在经济学范畴认为,只要一种决策的可能结果不只一种 ,对于未来风险的分布和状态不能确知,就会产生不确定性。在互联网尤其是以社会化媒体为特征的信息碎片化时代,不确定性到应该 成为一种常态。什么是不确定性?你不知道回家的路上是不是拥堵,这就是一种不确定性 。打开百度地图查看实时路况,你就知道了结果。百度地图给你提供了信 息,消除了这种不确定性。大数据的价值之一,消除不确定性,辅助决策与人工智能。目 录第一讲:大数据、新资源:大数据时代的统计学一、大数据、新资源:数据重要性的认识二、大数据在政府和市场中

10、应用现状及展望三、数据智能化科学:统计学的认识第二讲:统计方法在政府经济管理中的应用一、统计指数专题二、GDP核算与生产率专题一、大数据、新资源:数据重要性的认识二、大数据在政府和市场中应用现状及展望三、数据智能化科学:统计学的认识第一讲:大数据、新资源:大数据时代的统计学一、大数据、新资源:数据重要性的认识2016年3月15日, AlphaGo最终以4:1的比分 战胜韩国棋手李世石,随后韩国棋院为阿尔 法狗颁发名誉九段证书。AlphaGo是谷歌开发的人工智能机器人。在李世石与AlphaGo大战期间,中国职业围 棋九段选手柯洁曾称:AlphaGo战胜了李世 石,但它赢不了我。谷歌方面也在赢下李

11、世 石后就将目光投向了柯洁。截至9月30日,发布的世界等级分排位,柯 洁和AlghaGo同积分,并列世界第一。如果不出意外,中国柯洁九段将和AlphaGo 的围棋“终极人机大战”。2016年围棋终极人机大战:AlphaGo Vs 柯洁?人们开始感叹人工智能如此之神。所谓的人工智能,就是建立在大数据和 深度学习的基础上发展起来的。首先AlghaGo的数据库包含了海量棋手对弈的棋谱,并让AlphaGo以棋谱 的数据为基础进行了3千万局自我对局,充分丰富了数据库,并将预测对手 下一步棋落子的准确率提升到57%。其次AlphaGo在机器学习层面主要采用了神经网络、深度学习等技术,它 主要的模式就是下列

12、的几个关键步骤。1.选取:首先根据目前的状态,选 择几种可能的对手落子模式。2.展开:根据对手的落子,展开至我们胜率 最大的落子模式。3.评估:评估最佳行动。4.倒传导:在决定我们最佳行 动位置后,很快地根据这个位置向下透过策略网络评估对手可能的下一步 ,以及对应的搜索评估。李世石在思考自己该下哪里的时候,不但AlphaGo可能早就猜出了他可能 下的位置,而且正利用他在思考的时间继续向下计算后面的棋路。大数据与人工智能大数据与人工智能2017年围棋高手年围棋高手Master横空出世!谁是横空出世!谁是Master?一位神秘高手在围棋界掀起了“腥风血雨”。从2016年12月29日晚起,一个注册为

13、“master”、标注为韩国九段的 “网络棋手”接连“踢馆”弈城网和野狐网。截至2017年1月3日夜迫使有“当今围棋第一人”之称的柯洁中盘投子后 ,master已经斩获了50连胜,击败15位世界冠军。这位master不是人类,而是人工智能。就是谷歌旗下在2016年3月一战 成名的AlphaGo!Master是进入2017年围棋界长盛不衰的话题,这个AlphaGO团队控制 的ID在各大网络棋战平台上连续战胜聂卫平、柯洁、陈耀烨、时越、范 廷钰、朴廷桓、井山裕太等等中日韩三国新老围棋一流棋手,取得60胜 场,也让“围棋人工智能和人类的对决”基本得出了答案。输给输给Master之后之后, 柯洁是怎么

14、看待人机大战的?柯洁是怎么看待人机大战的?柯洁在参加最强大脑节目录制时接受采访,谈起了人机大战。对于Master的60连胜,柯洁坦言只剩震撼。柯洁表示,跟机器人对抗失败 是非常正常的事情,因为人就是一个血肉之躯会疲劳会疲惫,但是机器不 会。所以说他失败也是情理之中,但是人也不能就此承认失败。过去讲经济发展,发展需要资源,资源主要讲石油、煤和天然 气等。未来的技术发展基于的新能源,那就是数据。人类第一 次自己创造了数据。出现了移动互联网新技术以后,越来越多 的数据将被制造、采集、储存、利用、呈现。未来层出不穷基于互联网、基于大数据技术的诞生,这又为人 类创造了无数的想象和空间。原来机器吃的是电,

15、未来机器吃的是数据。衣服人家穿过,你 穿就会不值钱,数据是人家用过,你用会更值钱,是越用越值 钱的东西。大数据是一种无污染、可被重复利用的新资源。大数据是一种新资源测量记录计算数 据数据不会自动产生好的分析结果,不会自动把隐藏其中的秘密呈现出来, 需要进一步挖掘有用信息。大数据所产生的价值就是提供信息。信息是人可以处理的。很多部门有很 多数据,但中间隔着数据共享的理念,隔着数据分析的能力。不以数据量的大小来定义大数据,而应以价值量的大小来定义大数据。大数据时代最重要的事情,不是事后诸葛亮,而是要做到“事前诸葛亮” ,就是有预防机制。大数据时代是预测未来的时代。被动的收集数据的行为是“搜集数据”

16、,而主动的收集数据的行为则是“ 养数据”。“用数据” 是一种方法论,“养数据”则是一种数据战略,是 基于深入业务理解和服务宗旨的更高层次的决策。养数据的时间越早,积累的数据就越多,养成后的价值就越大。养“数”千日,用“数”一时。大数据的价值在于应用!大数据应用案例之一:杭州城市数据大脑2016年云栖大会上,杭州市政府公布了一项“疯狂”的计划 :为这座拥有2200多年历史的城市,安装一个人工智能中枢 杭州城市数据大脑。阿里巴巴集团技术委员会主席王坚举了一个生动的例子:世 界上最遥远的距离是红绿灯和监控摄像头的距离,他们在一 根杆子上,却从来没有被数据连接起来。城市数据大脑能够 通过摄像头“看到”的数据,智能调节红绿灯。 在杭州萧山 区的部分路段的初步试验中,城市大脑通过智能调节红绿灯 ,车辆通行速度最高提升了11%。交通拥堵,只是城市大脑迎战的第一个难题。城市大脑的目 标,是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 市政工程

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号