大数据与数据工程学

资源描述

《大数据与数据工程学》由会员分享，可在线阅读，更多相关《大数据与数据工程学（11页珍藏版）》请在金锄头文库上搜索。

1、大数据与数据工程学李腊生刘磊刘文文天津财经大学中国经济统计研究中心天津财经大学摘要：大数据的冲击并非是对以样本数据为对象的统计学的颠覆,而是对现代统计学的扩展。本文结合大数据的相关特征,以数据经济价值的扩展为切入点,从数据价值挖掘的角度论证了数据挖掘与大数据分析的关系,探讨了大数据背景下数据衍生品的创造与数据工程学创建的必要性。在此基础上,参照“金融工程学”的概念及学科体系,对“数据工程学”的概念进行了界定,并对数据工程学学科体系构建的相关理论基础、主要研究内容与分析技术进行了归纳与说明。关键词：大数据; 数据衍生品; 数据工程; 数据价值有效; 作者简介：李腊生,男,196

2、2 年生,湖北应城人,经济学博士。现任天津财经大学中国经济统计研究中心副主任、教授、博士生导师。研究方向为统计预测与决策、金融风险分析技术。作者简介：刘磊,女,1983 年生,天津人,天津财经大学博士研究生。研究方向为经济统计学。作者简介：刘文文,女,1989 年生,河北保定人,天津财经大学硕士研究生。研究方向为经济统计学。基金：国家统计局 2014 年计划项目重点课题:大数据与“数据工程学”(项目批准号 2014LZ22)的资助Big Data and Data EngineeringLi Lasheng Liu Lei Liu Wenwen Abstract： Big data is th

3、e extension but not the overturn to the modern statistics. According to the relevant characteristics of the big data and the expansion of the datas economic value,it demonstrates the relationship between the data mining and big data analysis from the perspective of data value mining,and discusses th

4、e necessity of the data derivatives and the data engineering. It defines the concept of “data engineering”by the idea of “financial engineering”and its conceptual framework. It also generalizes and states the theoretical basis of the data engineering,the main research contents and technologies.Keywo

5、rd： Big Data; Data derivatives; Data Engineering; Valid Data Value; 一、引言众所周知,信息是正确决策的基本依据与基石。但由于受信息搜集、传递技术的限制,传统的统计分析特别注重对样本信息的处理与分析。信息时代的来临,尤其是互联网技术的不断升级与应用,不仅在技术上突破了信息搜集、储存和传递技术的障碍,而且极大地改变了信息分析全过程的经济性。由此, 人们已逐渐摆脱信息稀缺的桎梏,并且海量数据对人类社会的信息处理能力提出了挑战。为了充分利用信息社会丰富的数据资源,数据挖掘作为统计学发展的新方向之一,受到了当代统计学家的极大关注,数据

6、科学应运而生。数据科学的出现,不仅改善了传统统计分析对样本数据的依赖性,克服了分布设定错误可能带来的风险,而且为我们重新认识社会经济联系提供了相应的方法与工具,大大提升了数据经济价值的实现能力。然而,随着信息技术的快速发展及文本数据、音频数据与图像数据等非结构化数据的大量产生,传统狭义的数据概念得到扩展,数据范围由传统的结构化数据延伸至一般信息的定量测度。现有以结构化数据为对象的统计分析方法与技术开始面临挑战,半结构化和非结构化数据在现有数据挖掘中所造成的信息资源浪费开始被人们意识到。与此同时,一个以综合海量、多维的复杂数据,即大数据,开始引起全世界各国的重大关注,大数据时代的来临意味着人类需

7、要一种全新的处理模式,才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产( JohnRauser,2012,Kelly,2012) 。大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型( 维克托迈尔 - 舍恩伯格,20131) ,大数据时代的来临使我们更清楚地认识到经济统计中数据价值挖掘的不足,现有的统计方法尚不能包容半结构化与非结构化数据,大数据为开启数据经济价值的再评价提供了全新的思路与方案25。大数据时代的来临使我们一些统计学者感到迷惘,我们的工作被所谓的“大数据思维”所质疑69。实际上,对统计学来说,大数据对现代

8、统计学的冲击并非是颠覆性的,它是现代统计学的扩展。从数据的角度看,这种扩展主要体现在两个方面,一是数据范围的扩展,即从样本数据扩展至总体数据; 另一是数据类型的扩展,即从结构化数据扩展至非结构化数据和半结构化数据。就像现代心理学实验对经济学或金融学的冲击一样,行为经济学或行为金融学所提出的理论及分析框架只是对现代经济学或金融学的包容,而非颠覆。当用于分析的数据从样本数据扩展至总体数据时,虽然现有用于特定样本数据分析的相关技术可能变得不再需要和不再适用,但无特定研究目的的总体数据必须要经过数据的分解技术处理才能实用于特定问题的研究或解决; 而当数据类型从结构化数据扩展至非结构化数据时,将非结构化

9、数据转换成结构化数据,或者创新适应于非结构化数据的统计分析技术,则是我们统计人所面临的新课题。除此之外,利用相应的组合技术将不同数据类型的数据集组合到一起生成新的数据集或类型,不仅为数据挖掘的研究与发展创造了空间,而且也是提高数据挖掘效率的有效途径。无论是总体数据的分解还是不同类型数据的组合, 大数据都包含着“积木”的思维,对此,在当前统计学科的发展中,有必要建立一门“数据工程学”,来迎接或应对大数据时代的挑战10。本文结合大数据的相关特征,以数据经济价值再认识为切入点,从数据价值挖掘的角度论证了 “数据工程学”创建的必要性。在此基础上,参照 “金融工程学”学科体系的基本框架,探讨了“数据工

10、程学”学科体系构建的相关理论基础、主要分析技术和方法、主要研究对象等。本文由五部分组成, 除引言外,第二部分是基于大数据总体数据特征下对数据经济价值的重新认识,为“数据工程学”基本理论的形成提供理论依据。第三部分探讨了数据挖掘中的分解与组合思维,为“数据工程学”的形成提供方法论支持。第四部分依据工程学主要围绕产品创新以及对创新产品可行性与经济性分析的特点, 论述数据衍生品的创造,为“数据工程学”研究范围的界定提供科学依据。第五部分是总结和对“数据工程学”学科体系构建的一般思考。二、大数据与数据经济价值的再认识大数据使我们在社会经济活动或科学研究中对数据和信息可以不加以区分。从事件的发生到信息的

11、制造,再到信息的传递与接收等一系列过程来看, 所有的信息均可被称为数据。信息是有价值的,统计学家在统计决策有关先后验分析中不仅提出了信息价值的界定,还给出了信息价值的具体度量,即: 信息价值就是信息改善后价值的增值,用统计学的语言来说就是,信息价值 = 后验概率决策最优行动期望收益 - 先验概率决策最优行动期望收益。即:其中,V( I) 为信息价值, 为后验概率,p 为先验概率,a 为行动,ER( a) 为后验概率决策期望收益,ER( ap) 为先验概率决策期望收益。可以证明,在不考虑信息获取成本的条件下,信息价值始终是大于或等于 0 的11。式( 1) 及其他的相关性质表明,在信息稀缺时代,

12、对于有特定目的的相关问题的决策或决策分析, 应该尽可能地去收集补充信息,尤其是获取那些廉价的补充信息,以提升应对不确定性挑战的能力。然而从式( 1) 度量信息价值的基本经济含义来看, 式( 1) 仅仅是对特定决策者为特定目的而获取的相关信息的价值度量,这种信息价值的度量,一是体现着个体评价特征,二是体现出单个特定项目评价特征。也就是说,式( 1) 对信息价值的度量只是针对某个具体决策问题或项目的私人评价,其实质并没有揭示信息价值的全部,而是对特定项目决策问题信息价值的实现。这种对信息价值的度量方式如果说是与传统的统计推断思维相适应,适用于微观主体有目的的决策分析的话,那么在大数据时代,我们所

13、面临的问题除了传统统计分析中的有目的的活动外,更重要的是我们将在无特定目的的情况下,首先面对海量的各类信息。这些信息一方面可以帮忙我们提高决策的科学性,提升有特定目的活动的经济价值,另一方面使我们能直接利用这些海量的各类信息,从中去挖掘没有被我们认识到的经济联系,发现新的价值。也就是说,式( 1) 对信息价值的度量只包含了信息私人价值的创造,而没包含信息价值的发现。因此,在大数据时代,仍以式( 1) 作为信息价值的度量显然就不再恰当了,必须对其依据时代特征进行相应的扩展。在大数据时代,对信息价值评价的扩展可以依据数据产品的特有属性来展开。与普通商品相比, 数据产品主要具备可识别性、可存储性、可

14、扩充紧缩性、可传递性、可转换性、可分享性的特点。这些特点决定了数据产品既是消费品又是资本品,既是私人商品又是公共产品,作为资本品的数据产品,其价值的评价就不能像一般消费品那样只局限于特定时期特定项目的价值增值。因为一般消费品一经消费便会消失,而数据产品只要解决了存储问题,它永远不会消失,决策者或研究人员可以反复使用,这种反复使用使其具备资本品的性质,且这种资本品又永远不存在折旧的问题。从这个意义上说,信息或数据产品的价值不仅应包含特定时期所有与该数据产品相关项目的价值增值,而且也应包含未来所有时期所有与该数据产品相关项目的价值增值1213。如果仍以式( 1) 作为某一特定时期 t 特定项目

15、i 的价值增值,则信息或数据产品的价值便可表示为:其中, i为第 t 期第 i 个项目加入信息 I 的后验概率,p i为第 t 期第 i 个项目不包含信息 I 的先验概率,a i为第 t 期第 i 个项目的行动,n t为第 t 期所有与该信息或数据产品有关的项目总数,r 为贴现率。式( 2) 作为数据产品私人价值的度量,不仅充分体现了它的可识别性、可存储性、可扩充紧缩性、可转换性特点,揭示了信息或数据产品的人力资本属性,而且还包含了决策者人力资本使用中的学习过程以及数据转化为知识的累积效应。然而必须认识到,式( 2) 对数据产品价值的度量仅仅揭示的是私人价值,它并没能体现数据产品的公共产品性

16、质。作为公共产品,对其价值的度量就应从私人评价转向社会评价,虽然公共信息不会为私人决策带来价值增值,但它却能使社会在一个更高的效率下运行,节约社会资源的投入。从这个意义上说,作为公共产品的信息或数据产品的价值就是社会运行成本的节约,即:其中, 为第 t 期全社会加入信息 I 的后验概率,p 为第 t 期全社会不包含信息I 的先验概率,A 为第 t 期的社会选择,E tC( A) 为第 t 期全社会后验概率决策期望总成本,E tC( Ap) 为第 t 期全社会先验概率决策期望总成本,r 为社会平均贴现率。现实中,数据产品的可传递性和可分享性特点决定了它长期作为纯私人品的不现实,同时,由于决策者个体之间信息处理或数据挖掘方式和能力的不同,结果又必然使绝大多数数据产品又不具备纯公共产品的性质,而是体现为一种准公共产品。作为准公共产品,数据产品的价值主要体现在它的私人价值和外溢效应上,按经济学的语言来说就是,数据产品的价值由私人价值和净外部经济价值两部分构成,如果用 NP

展开阅读全文