《大数据对统计学的挑战和机遇》由会员分享,可在线阅读,更多相关《大数据对统计学的挑战和机遇(5页珍藏版)》请在金锄头文库上搜索。
1、大数据对统计学的挑战和机遇从学科角度而言,大数据对海量数据进行存储、整合、处理和分析,可视为一种新的数据分析方法,这种基于数据 关系的内在本质决定了大数据与统计学之间的必然关系,大 数据对统计学的发展既提出了挑战又提供了机遇。大数据对 统计学的挑战体现在:大样本标准的调整、样本选取标准和 形式的重新确定、统计软件有待升级和开发及实质性统计方 法的大数据化。大数据对统计学的机遇体现在:统计质量的 提高、统计成本的下降、统计学作用领域的扩大、统计学科 体系的延伸及统计学家地位的提升。大数据统计学挑战机遇、大数据与统计学的比较统计学在大数据的研究中存在一定的应用,表现在将“大数据”变成“小数据”,对
2、海量数据的搜索、聚类和分 类依赖于统计学的一般方法,因而大数据的研究继承了统计 学科的一些特点。但大数据尚未被统计学吸纳和应用,这主 要是由于大数据与统计学存在两个很关键的差别。第一,样本统计和全样本统计的差别。统计学依赖于样本统计(普查除外),样本是按照一定的概率从总体中抽取 并作为总体代表的集合体,而随机抽样是有成本的,如时间成本、资金成本、社会关系等。在样本规模增加有限的情况F,总体数量越大样本估计的误差就越大,这是样本统计不 可避免的缺陷。,预测分析和非预测分析的差别。统计学旨在分析变量之间的相关关系,即两个或两个以上变量之间存在的某 种规律性,故数据搜集是发生在变量确定之后,数据的分
3、析 价值是可预测的。如若要研究利率对消费行为的影响,则利 率大小和消费支出的数据会有目的地被搜集和分析。一旦分 析目的完成,为该目的而搜集的数据的价值也就完全实现。二、大数据对统计学的挑战 大数据与统计学的关系及其本身的优势,意味着未来统计学的大数据化是不可避免的趋势,现有的统计学与大数据 之间还存在着一些不相容的地方,为积极应对这一趋势,就 必须对现有的统计学理论和方法作出相应的调整甚至是某 些方面的完全革新。统计学依赖于样本统计,主要研究客观事物数量关系和数量特征。大数据时代产生了海量的即时的电子化数据,其 样本量大,甚至可以覆盖全部总体, 所以包含更多的信息量。例如,传统的经济统计一般细
4、化到行业层面或产品层面,但 电子商务的发展和条形码的普及让记录具体到每一次交易 行为。网上电子化交易信息,企业电子化经营记录,部门电 子化行政记录,为统计调查提供了海量数据,对统计学样本规模的扩大提供了可能性。传统统计学依赖于结构化数据,如数字、符号等信息,但非结构数据(包括文本、图像、图像、音频和视频等信息)和半结构化数据(如HRML文档)同样蕴涵着海量信息和统计规律,如医疗行业的一张CT扫描图像约含 150MB 的数据,一个基因组序列文件约含 750MB。统计学是研究事物本身的数量关系,但并非所有的研究对象 都有量化指标,也不是所有的量化指标能够很好地说明研究 对象,如以最大股东所持资产占
5、总资产的比例来表示公司治 理结构不如一张公司治理结构图更精确。目前大数据采集到 的数据 85%以上是非结构化和半结构化数据,传统的关系数 据库无法胜任这些非结构化和半结构化数据的处理,但大数 据可通过建立非结构数据库对这些海量数据进行标准化处 理,将非结构化数据转化为结构化数据,从而发挥这些多元 化数据的潜在作用。倘若传统统计学能突破结构化数据的限 制,降低样本选取标准,建立非结构数据库,使统计学的数 据基础呈多元化,则统计学的应用范围会大幅扩大。三、大数据对统计学的机遇 海量数据的存在使得我们利用统计方法处理问题时可以使用更多的数据,甚至在某些场合能够使用全体数据,数 据不再成为统计分析制约
6、因素,大数据基础上的统计学效率和拟合度预测准确性可以大大提高,并且能够发现很多在样本统计时上无法发现的细节。 统计学的优势在于以小见大”这是统计学的优势,同时也是统计学在小数据约束下的妥协。在大数据时代,可将统计学的长处和大数据的优点结合起来, 实现“以小见大”和“由繁入简”的有效结合。合理利用大数据有利于统计质量的提高,主要表现在三个方面:时效性增强、误差减小和可信度增强。传统统计数 据通常存在滞后性且呈现低频率,而大数据的及时性能够弥 补传统统计数据的这一缺陷,使统计数据的时效性增强。以 消费者物价指数(CPI)的统计数据为例,CPI的发布以月为频率,但一般都存在滞后期,如我国的CPI通常
7、在每个月的 9号才能发布上个月的 CP;而“在线价格指数”能够对市场价格进行实时跟踪和汇总,能够提供及时的统计信息,且在 线价格指数可以将频率从月提高到天甚至更高,能够细致地 分析通货膨胀规律。同时,大数据的广泛覆盖性能够很大程度地降低统计结果的误差。仍以 CPI 为例,传统的价格统计包括一篮子商品, 通常包含千种商品、涉及几万个调查销售网点,且商品的种 类和结构要随着社会经济的发展和人们的消费结构进行调 整,样本误差和人为误差都较大。而基于大数据的“在线价 格指数”让抽样变。统计学的大数据化是可预见性的,由于大数据依赖于统建立的数据中心,所以大数据的发展依赖于统计数据的开 放共享,进一步,统
8、计学的大数据化程度取决于大数据的公开程度。在大数据时代下,传统统计学为了更好地适应大数据化趋势,在数据收集方法、 , A)Hl制度等方面必然要进行改革和创新。大数据对传统统计学提出了巨大 的挑战,但同时也为传统统计学的迅速发展提供了契机,统 计学将在大数据时代迎来新的发展。但是在大数据的狂潮中 我们应该清醒的认识到大数据对传统统计学是补充而非替 代,建立在样本统计和预测分析之上的传统统计学仍在社会 统计和经济分析中发挥着主导作用。参考文献: 1 关石菌 .数理统计在数据分析中的应用研究田 .林区教学, 2011(6).2黄良文,洪琳琳, 陈龙.关于大统计学学科的重新思考田.中国统计,2011.