统计:从计数到大数据

上传人:jiups****uk12 文档编号:91018892 上传时间:2019-06-20 格式:DOC 页数:20 大小:24.80KB
返回 下载 相关 举报
统计:从计数到大数据_第1页
第1页 / 共20页
统计:从计数到大数据_第2页
第2页 / 共20页
统计:从计数到大数据_第3页
第3页 / 共20页
统计:从计数到大数据_第4页
第4页 / 共20页
统计:从计数到大数据_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《统计:从计数到大数据》由会员分享,可在线阅读,更多相关《统计:从计数到大数据(20页珍藏版)》请在金锄头文库上搜索。

1、统计:从计数到大数据  统计无时不在,从结绳记事到今天的大数据,统计作为人们认识客观世界的工具,也在不断创新,统计学作为一门系统研究数据的学科,在不断丰富与完善。大数据时代来临,统计如何应对新的挑战与机遇?我们回顾历史,不忘初心,以开放的态度、创新的精神和不懈的努力,继续前进,让统计在大数据的舞台上,发挥更大的作用。普遍的定义认为,统计学是关于数据的科学,研究如何收集数据,并科学地推断总体特征。普查作为最古老的数据收集方法,已经有数千年的历史,据记载,2200多年前的西汉时期,中国开展了第一次人口普查。17世纪中叶,统计学诞生,并在18、19世纪不断发展,特别是与研究不确定性的概率论

2、的结合,产生了现代意义上的统计学:数理统计学。1895年提出抽样调查方法并在后来30多年完善后,作为一种更及时、更经济的数据收集方法,被广泛应用于经济、社会、科学等各个领域。可以说,20世纪期间,传统的普查与新产生的抽样调查,作为两大数据收集方法体系,共同应用于对社会经济发展的测量,发挥了重要作用。21世纪大数据的出现,各种来源、各种形式的电子化数据的大爆发,静态的、定时的传统数据收集方法,面临新的、动态的、组合的大数据的挑战和机遇,统计思维和数据收集方法也将不断创新。从统计学诞生的300多年的历程看,统计学发展的历史就是统计思维和统计方法不断创新的历史,这种创新是围绕着关于数据的两大核心问题

3、展开的:如何收集数据和如何分析数据。本文通过回顾重要阶段性的几个片断,思考统计创新是如何发生的,重点谈大数据与统计的关系,以及会带来的新变化。 计数:统计的萌芽在世界著名的科普著作从一到无穷大一书开头,讲述了一个发生在原始部落里的故事:两个匈牙利贵族决定做一次关于数的游戏谁说出了最大的数谁就赢,第一个贵族说出了他能想到的最大的数“3”,第二个贵族苦思冥想后,表示认输了,他想象不出比3更大的数。这个故事的真假无从考证,但可以说明在人们公认的以“结绳记事”为计数开始之前,数的大小概念已经产生。但由于还不能“计数”,甚至还不能将数的概念与10个指头相对应(这在今天相当于2岁孩子的水平),否则,第二个

4、贵族会毫不犹豫地伸出双手说出10。计数是从结绳记事开始的,当然也可以用其他如石头、木棍、贝壳等,或者在地上、壁上划痕线等方式。这些是在文字发明之前,人们使用的记事和计数的方法。人类最早的统计实际上是一种计数活动,这在易系辞下中有所记载,古代印加人也存有记载;从上古时代,就已经开始使用结绳的方法,“事大,大结其绳,事小,小结其绳,之多少,随物众寡”,也即根据事件的性质、规模或其数量的不同系不同的绳结,这种方法古老原始,却有效,对于古代人来说,这些大大小小的绳结、多多少少的划痕是他们回忆过去的唯一线索。随着生产活动、战争等的规模越来越大,结绳记事已经不能记事了,要么没有那么多绳,要么是对那些绳结的

5、意义的解释(也就是今天的元数据的概念)需要更多的想象和更复杂的绳结,原始部落的首领们可以看到养了多少牛羊,甚至可以平均分配给每一个人,却无法记录下来。有了文字后,计数才真正成为一种工具,反映客观经济活动及其数量关系。实际上,计数作为一种工具被人们接受后,原始的“普查”就诞生了,有多少人口,有多少土地,有多少俘虏,通过计数与汇总就可以心中有数。据考古发现,公元前3000年前,两汉流域就已经有了这样的数据和汇总计算的符号。当然,这与其说是“普查”,更应该说是“计数”,但其产生的意义是非常重大的,就像恩格斯说的,“为了计数,不仅要有可以计数的对象,还要有一种在考察对象时,撇开对象的其他一切特性而仅仅

6、考虑到数字的能力”,这也就是抽象的数字的概念,实物的多少与数的对应关系的确立,并建立了运算规则,为统计学的诞生与发展奠定了基础,这也是统计的萌芽,充分表明了客观世界就是一个“数及数的关系的和谐系统”。 数的游戏:概率计算关于数的游戏自古就有,而这些游戏主要就是赌博:不确定性带来的收益。不管是抽签、还是投掷钱币、掷骰子、斗纸牌,各种不同形式的以“不确定性”为基础的赌博,实际上都是“数”的游戏,这当然也开始引起了学者们的注意和研究。到了15世纪的欧洲,赌博游戏非常流行。最早研究赌博问题的是1477年出版的意大利诗人但丁的神曲一书的注释本,描述了投掷三颗骰子可能出现的各种点数问题。从16世纪中叶开始

7、,学者们开始研究赌博中的概率问题。意大利人加尔达偌(1501-1576)是一位数学家,也是一个精明的赌徒,他写的机会游戏一书,是在他去世近100年后才出版的。他计算了投掷2颗或者3颗骰子时,究竟有多少种可能性得出投掷的骰子面朝上的数字之和为某一数(比如10),这在当时对排列组合所知甚微的情况下,是非常难得的。意大利天文学家伽利略(1564-1642)研究了同样的问题,并写了一篇论文给出了圆满的解答,算出了所有点数的可能性,如在投掷三颗骰子时,出现的数字之和为9和10,各有6种不同的组合法。这个问题在今天是一个很简单的排列组合问题,但在当时,谁掌握了这一秘密,谁就可能成为更精明的赌徒。到了17世

8、纪中叶,两位法国大数学家帕斯卡(1923-1662)、费马(1601-1665)开始研究丢骰子赌博中的规律性问题。他们利用通信,几经研究,解决了著名的“得点问题”(也称“分赌术”问题),通过对这个问题的研究,早期概率的计算从简单计数进入了比较精确的计算阶段,这也被认为是概率论的起源。从此,更多的学者们开始研究概率及计算问题,从研究赌博开始的古典概率,在不确定性的科学研究上,逐步建立了一套科学完整的体系:概率论。 统计学的诞生:让数据说话统计学诞生的大背景是在15世纪,由于欧洲地中海沿岸商品经济的发展以及思想、技术的进步,从中世纪封建社会内部产生的资本主义及发展。资本主义商品经济的产生和发展,人

9、们对数据的认识不仅仅是赌博游戏,而是对事物规律性的认识。之前,往往是满足“计数”的需要,记录历史,回答“干了什么”,而资本主义商品经济的发展则要满足“生产”的需要了,不仅要记录历史,还要预测未来,回答“要干什么”。除此之外,还有一些原因也促进了统计学的诞生:如为了商业的冒险行为,包括商业投机和航海商业,保险业的兴起等。统计学的诞生及发展使人们对数据规律性的认识上了一个大台阶。作为统计学的起端,几乎同时发生了两个划时代的重大事件:一是格朗特(1620-1674)1662年发表的关于死亡公报的自然和政治观察(简称观察),二是威廉配第(1623-1687)1667年发表的政治算术。这两部著作都被认为

10、是统计学的鼻祖,他们各自研究的重点不同,后来的学者们往往站在不同的角度进行评价。观察利用英国伦敦每周公布的死亡人数及相关人口资料,分析了60多年中居民死亡原因及与人口变动的关系,用了大量表格、演算,提出了人口男女性别的大数法则,编制了人口统计分析寿命表及人口推算方法等,这在今天看来,是统计工作的基础环节统计汇总与描述性分析,但在当时,确是开创性地利用公布的有限数据,分析推断了伦敦人口的总体分布与特征。威廉配第的政治算术崇尚让数据说话,依据数据分析更广泛的社会、经济问题(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所说:“与只使用比较级和最高级的词语以及单纯作思维论证相反,我采用

11、数字、重量和尺度等术语来阐述我的观点。”他的儿子把该书献给国王时说:“书中论述了凡是政府事务以及有关君主荣誉、百姓幸福和国家昌盛的事项,都可以用算术的一般法则证实。这种方法,就是用一种普通的科学原理解释错综复杂的世界。”可以说,政治算术是把培根的实证科学思想和方法,通过数据的分析,运用到了广泛的社会经济领域。威廉配第对统计的贡献还在于强调典型调查作用,在数据分析中更多地使用分组法、平均数、相对数、统计推断等,他还先见地提出计算整个国家的国民收入与国民财富,并对英国国民收入进行详细估算。有了统计学带来的数据分析方法,就有了后来的经济学、社会学等,亚当斯密的国富论是1776年发表的,比政治算术晚了

12、100多年。19世纪末20世纪初开始建立起来的数理统计理论和抽样调查方法的推广应用,更是广泛应用于自然科学、经济学和社会科学等。 “统计时代”: 杂乱无章数据背后的规律19世纪初上半叶,统计学逐渐取代“国势学”、“政治算术”,作为近代文化发达的标志之一,就是统计开始大量于社会经济自然科学各个方面并形成了统计发展史的高潮,后来被称之为“统计时代”、“统计狂热时代”,一切让数据说话成为一种理念、一种时尚,就像今天谁不说大数据,谁就落伍了一样。这个时代的中心人物是比利时统计学家、数学家、天文学家凯特勒(1796-1874)。他的主要贡献有:一是系统提出统计规律性研究,认为统计学不仅要记述各国的国情,

13、研究社会现象的静态,而且要研究社会生活的动态,从而观察社会发展的规律。他提出要探索在纷繁杂乱的大量偶然性现象的背后所隐藏的必然规律。二是促进了统计学与概率论的结合,使统计学进入新的发展阶段现代统计学阶段。在此之前,研究国家社会经济现象的统计学与研究赌博起来的概率论是风马牛不相及的两个学科,要说清楚他们的结合,还必须先说说一条最重要的曲线:正态分布曲线。这条曲线很好看,又好用,从天文观察到人体测量,在自然界中无处不在,在当时作为误差分析的有力武器达到了登峰造极的地步,使得人们在杂乱无章的数据背后,能够发现秩序和规律性。凯特勒在19世纪30年代主持建立比利时统计局后,发现以往被人们认为杂乱无章的、

14、毫无规律可循的社会现象,也如同自然界一样具有规律性。他收集了大量关于人体测量的数据,开创性地提出用正态曲线拟合方法判断人体测量数据的同质性问题,随后应用于各种数据分析,为正态曲线的应用拓展了广阔的统计平台,也导致后来涌现了社会统计学、生物统计学、农业实验学、经济统计学等统计流派。统计学发展百花齐放,数据的天空次序井然。这个时代另一个显著的特点是政府官方统计的建立与发展,其主要原因除了统计科学的不断完善外,还因为随着社会经济发展,各国政府、民间机构对统计数据有大量需求。凯特勒的另一个贡献是推动了国际统计组织合作。由于大量的统计机构的建立,民间研究团体的涌现,各种被利用的数据增多,统计学家们面临一

15、些共同的问题,包括统计的标准、个体的界定、数据的质量等基本问题,也包括统计资料的交流、统计理论和方法的推广与传播等,都需要各国统计学家的共同研究。在凯特勒等的努力下,1851年在伦敦成立了第一个国际统计组织国际统计大会,1853年主持召开了第一次会议。这是国际统计学会(ISI)的前身,1887年,ISI在罗马召开了第一次会议,自1938年起,每两年召开一次,后来改名为世界统计大会(WSC)。到目前已召开了60届,对统计学的发展和推动各国统计工作发挥了很大的作用。 大数据:新资源、新机会大数据是人类自身产生的一种新的“自然”资源,与支撑传统经济发展的自然资源,如土地、石油、煤、水等不同,这种人造

16、“自然”资源越用越多,越用越便宜,越用越有价值,以知识、创新、ICT、IT、DT为主要特征的新经济的发展更多是依靠这种新资源。可以说,21世纪的竞争是数据的竞争,谁拥有了大数据,谁就占领了制高点,谁就拥有洞见的能力,谁就能引领未来。与传统统计学研究的数据比,大数据有几个特点:一是数据量大。按有关机构测算,全球数据量每两年翻一番。这还不是主要问题,因为摩尔定理表明,数据处理能力每18个月就可以翻一番。二是数据类型多。数据不仅仅是数字,包括了结构化数据、半结构化数据和非结构化数据,特别是互联网和通讯技术的迅速发展,电子商务和社交网络的广泛应用,网络日志、音频、视频、图片、地理空间位置、网上交易等成为新的数据形式。三是数据上云。大数据已经无法用传统的存储、计算方式来处理,数据上云意味着,可以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号