大数据对统计学的冲击与机遇

上传人:枫** 文档编号:499364691 上传时间:2024-03-10 格式:DOC 页数:24 大小:288.50KB
返回 下载 相关 举报
大数据对统计学的冲击与机遇_第1页
第1页 / 共24页
大数据对统计学的冲击与机遇_第2页
第2页 / 共24页
大数据对统计学的冲击与机遇_第3页
第3页 / 共24页
大数据对统计学的冲击与机遇_第4页
第4页 / 共24页
大数据对统计学的冲击与机遇_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《大数据对统计学的冲击与机遇》由会员分享,可在线阅读,更多相关《大数据对统计学的冲击与机遇(24页珍藏版)》请在金锄头文库上搜索。

1、XI AN fStVKRnA OF FINANCE ANU EClkNOMK本科毕业论文(设计)论文题目:大数据对统计学的冲击与机遇学生姓名:黄耀真学 号: 1004100311专业:统计学班级:统计1003班指导教师:朱钰完成日期:2014年4月10日大数据对统计学的冲击与机遇内容摘要2010年,全球数据跨入了 ZB时代,据IDC预测,至2020年全球将拥有35ZB的数据量,大量数据实时地影响我们工作、生活,甚至国家经济、社会发展,大数据时代已经到来。基于数据关系 的内在本质决定了大数据与统计学之间的必然关系, 大数据对统计学产生了冲击又提供了机遇。 本 论文首先对现代统计学体系作了简要介绍

2、。根据统计方法将统计学分为描述统计学和推断统计学, 首先从大数据对描述统计学的冲击进行分析, 体现在:对搜集数据方法的冲击、对搜集数据类型的 冲击、对数据存储方法的冲击。 再者对推断统计学的冲击进行总结。 大数据对统计学的机遇体现在: 抽样平均误差的降低、统计学作用范围的扩大及统计学家地位的提升。关键词:大数据统计学冲击 机遇#The impact and opportunitiesof big data on statisticsAbstract:ln 2010,the quantity of data reached ZB level.According to IDC,there will

3、 be at least 35zettabytes of stored data in 2O2O.Massive data are affecting our life,even the economy and the development of society.The Big data era alredy come.From the perspective of subject, big data can be regarded as a new dataa nalysis method due to its function in storage, in tegrati on, pro

4、cess ing and an alysis formass data. The in tri nsic n ature of big data based on data relatio nships determ ines thecerta in connection with statistics, thus big data brings both challenges andopportunities to the development of statistics. The statistical was divided into descriptive statistics an

5、d inferencialstatistics. The challenges ofdescriptive statistics embodied in the impact on method of data collect ion, the impact on data type and the impact on data storage.The summary of inferencial statistics.Besides, strengthen convincingness of statistical result,exte nded statistics system, wi

6、lder function field as well as higher status of statisticia n.Key words: Big data statistics impact opportunity#目录一、绪 言. 1( 一 ) 大数据的概念 1( 二 ) 大数据的四个特征 1( 三 ) 大数据在国内外研究现状 . 2( 四 ) 本论文结构安排 2二、统计学体系 . 2( 一 ) 统计学的含义 2( 二 ) 统计学的分科 3三、大数据对统计方法的冲击 3( 一 ) 对描述统计学的冲击 3( 二 ) 对推断统计学的冲击 4四、大数据给统计学带来的机遇 10( 一 ) 抽

7、样平均误差的降低 10( 二 ) 统计应用范围的扩大 10( 三 ) 统计专业毕业生就业机会的增多 . 11五、结语 . 11参 考 文 献. 11附录. 14#当我们对“云计算”、“物联网”等概念还感觉模糊不清的时候,“大数据”的发展就已经呈现出燎原之势了。大数据这个概念的提出可以追述到上个世纪80年代,就有美国人提出来。 2008年9月,?科学?杂志文章“ Big Data:Scienee in the petabyte Era 。“大数据”这个词开始被人们 所关注。我们身处数据的云海里,几乎所有事物都与数据有关,体育、金融、医疗”我们每天都在产生数据,打电话、发微信、买车票、上班刷卡、到

8、超市购物、在QQ上聊天、发微博”大量的数据无时无刻地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源,同样重要的 战略资源,引起了科技界和企业界的广泛的关注。根据国际数据咨询(IDC )公司报告,全球数据量大概每两年翻一番,预计到2020年,全球将会拥有35ZB的数据量(如表1所示)。表1 IDC全球数据使用量预测年度200920102011201220152020全球数据量单位(TB)0.81.21.82.77.935.2(一)大数据的概念百度百科的定义:大数据指的是所涉及的资料量规模巨大道无法通过主流软件工具,在合理时间内达到搜集、管理、处理并整理称为企业经营决策目的的资讯。

9、麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对内容采集、存储、管理和分析的数据集合。无论从哪种定义,我们都可以看出,大数据并不是一种新的事物,就如同本世纪提出的“海量数据” 这个概念一样,大数据只是数字化时代出现的一种现象。(二)大数据的四个特征1. Volume (海量)数据量级已从 TB发展至PB至ZB,可称海量、巨量乃至超量。大数据通常指10TB规模以上的数据量。当今社会之所有会产生如此巨大的数字量,一是由于各种 网络技术的使用,是我们能够感知更多的事物。二是由于通讯工具的使用,使人们能够随时随地地联系, 从而产生数据。2. Variety (多样化)数据类型繁多,包括以

10、事务为代表的结构化数据、以网页为代表的半结 构化数据和以视频和语音信息为代表的非结构化等多类数据。3. Velocity (高速)数据流往往为高速实时数据流,需要快速、持续的实时处理。4. Value(价值密度低)以视频安全监控为例,连续不断的监控流中,有重大价值的可能仅为一两秒的数据流。(三)大数据在国内外研究现状针对大数据的四个 4V( Volume、Variety、Velocity、Value)特性,研究主要是对网络上多种来源 的数据进行性质分析和规律探索,很多学者尝试运用图论和统计分析等方法对数据进行定量分析。特别值得注意的是,人们已经发现了复杂的网络大数据之中存在一些统计规律性。1.

11、 国外研究现状2005年Barabdsi等人通过对大量电子邮件数据的分析,证明人类活动中的娱乐、工作和通信模式并不遵循泊松过程,而是基于决策排队过程的结果,即由于存在优先次序导致任务执行时间具有重尾效应1。针对大数据的计算理论和算法的研究目前主要集中在大数据机器学习的基础理论、参数估计方法、优化算法等方面,形成的一系列成果为大数据高效计算提供了理论支持。普林斯顿大学的Blei等人在2011年针对大规模网络文本数据的主题建模,提出了在线学习算法,为大数据下非参数模 型的高效估计奠定基础2。2012年,美国加州大学伯克利分校Jordan等人开展了大数据分析的理论基础研究,目前已有的成果包括分布式优

12、化算法3和大数据非参数估计方法4。2. 国内研究现状面对大数据的巨大的潜在价值,一些学者分析了大数据在在企业管理、甚至国家战略方面的价 值。2012年李国杰通过对大数据的研究,认为大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一信息系统,并且在将来应该将“大数据”战略到 国家层面5。同年,宋方通过对大数据对企业发展分析,认为未来,决定、评价企业价值的最大核 心在于数据,数据积累量、数据分析能力、数据驱动业务而非流程驱动业务的能力将是决定企业生 死和是否有价值的最大评判标准 。2012年黄晓斌、钟辉新开展了大数据对企业竞争发展方向的研 究,认为企业的发展方

13、向与大数据有密切的联系。8。然后,大数据的巨大潜在价值之后,其所引发的问题也不容忽视,一些学者就根据大数据的问 题作了分析。如2012年涂子沛通过实例分析,说明在大数据下,会使个人隐私等问题日益严重(四)本论文结构安排第一章介绍本论文的研究背景,通过对背景的介绍,了解大数据的特征以及国内外的研究成果。通过对比国内外的研究, 再结合自己在大学四年学习的统计专业知识,第二章较系统地介绍了描述统计学和推断统计学。进而从大数据对这两个分支的冲击分别作了介绍,从统计分析方法理论为基础,重点说明了统计学分析方法体系以及大数据对其冲击和影响。凡事有弊就有利,第三章着重从大数据对统计学的机遇出发进行了阐述。统

14、计学体系(一)统计学的含义统计学是对研究对象的数据资料进行搜集、整理、分析和研究,以显示其总体的特征和规律性的学科。统计学的研究对象是客观事物的数量特征和数据资料。统计学是以搜集、整理、分析和研 究等统计技术为手段,对所研究对象的总体数量关系和数据资料去伪存真、去粗取精,从而达到显示、描述和推断被研究对象的特征、趋势和规律性的目的。统计学,亦可简称为统计。(二)统计学的分科统计方法已被应用到自然科学和社会科学的众多领域,统计学也发展成为由若干分支学科组成的学科体系。从统计方法的构成来看,统计学可以分为描述统计学和推断统计学;从统计方法研究和统计方法的应用角度来看,统计学可以分为理论统计学和应用

15、统计学。描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据, 并通过图表形式对所收集的数据进 行加工处理和显示,进而通过综合概括与分析得岀反映客观现象的规律性数量特征。内容包括统计数据的收 集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。推断统计学(Inferential Statistics)则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样 本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计是描述统计的升华。具体研究中,是采用描述统计还是推断统计,应视具体的研究目的而定,如研究的目 的是要描述数据的特征,则需描述统计;若还需对多组数据进行比较或需以样本信息来推断总体的 情况,则需用推断统计。下文将从描述统计学和推断统计学这两个分支出发,讨论大数据对统计方法的冲击。三、大数据对统计方法的冲击(一)对描述统计学的冲击描述统计学(Descr

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号