大数据全生命周期中关键问题研究及应用

资源描述

《大数据全生命周期中关键问题研究及应用》由会员分享，可在线阅读，更多相关《大数据全生命周期中关键问题研究及应用（9页珍藏版）》请在金锄头文库上搜索。

1、大数据全生命周期中关键问题研究及应用刘道新胡航海张健徐秀敏华北电力大学经济与管理学院国家电网公司北京中电普华信息技术有限公司摘要：随着大数据时代的到来,大数据全生命周期中获取、存储、处理、挖掘等方面的研究逐步展开,成为行业、政府的研究热点。该文以国内外电力行业、金融、经济等数据为研究对象,对大数据的存储、处理、挖掘三大关键问题进行研究。根据大数据特点进行分类;建立基于改进稀疏矩阵、指标维度和指标数据分离方式的大数据压缩存储模型,实现大数据的压缩存储和动态扩展。提出按照指标分类及关联关系建立数据缓存模型的方法,实现大数据的高效访问和灵活转换。在挖掘展现时应用动态可配置的设计方

2、法,解决数据查询海量页面的动态生成问题。该文可为大数据存储、处理、挖掘研究提供有价值的参考,并将研究成果应用到统一资源库的建设中。关键词：大数据; 压缩存储; 缓存机制; 动态配置; 统一数据资源库; 作者简介：刘道新(1970),男,博士,高级工程师,研究方向为电力统计管理、电力技术信息化,Daoxin-;作者简介：胡航海(1985),男,硕士,工程师,研究方向为电网规划、电力数据分析等;作者简介：张健(1980),女,工学博士,高级工程师,研究方向为电网规划、电力技术经济;作者简介：徐秀敏(1986),女,硕士,工程师,研究方向为电力信息化。收稿日期：2014-02-08Research

3、 on Key Issues of Big Data Lifecycle and Its ApplicationsLIU Daoxin HU Hanghai ZHANG Jian XU Xiumin School of Economics and Management, North China Electric Power University; State Grid Corporation of China; China Power Information Technology of Beijing; Abstract： With the big data era arriving, the

4、 research on big data lifecycle followed one by one and become research hotspots, such as in obtaining, storage, processing and mining. This paper applied electrical, financial, economical data domestic and overseas as research objects to solve storage, processing and mining problems of big data. In

5、 this paper, the categories of big data were analyzed on the basis of its features. The big data compressed storage model, which based on improved sparse matrix, index dimensions and separated index data, was established firstly to implement compressed storage and dynamical extension. Then the cachi

6、ng model method in accordance with index categories was proposed, which brings high-efficiency access and flexible conversion. The dynamical configuration was put into use in mining display to resolve dynamical generated problem of mass pages. The research is expected to provide reference in big dat

7、a, and is apply in the development of unified resources database.Keyword： big data; compressed storage; caching mechanism; dynamical configuration; unified resources database; Received： 2014-02-080 引言大数据被认为是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合1,其更多意义在于通过对这些数据的交换、整合和分析,可以发现新知识、创造新价值,带来“大知识”、“大科技”、“大发展”

8、2。普遍认为,其特征可以归纳为 4 V:数据量巨大(volume)、处理速度快 (velocity) 、类型繁多 (variety) 、数据价值高(value)3-4。在硬件平台方面,通常采用大量的中低端机器来构成集群。在软件平台方面,通常采用开源软件。大数据所蕴藏的巨大价值已经引起了国内外学术界、工业界及政府部门的广泛关注。我国对建设大数据管理基础设施的需求提出指导性方针,十二五规划纲要中提出重点是研究海量信息处理及知识挖掘的理论与方法5。在国外,以美国政府为例,2012 年 3 月推出大数据研究与开发计划,旨在从大数据中获得知识和洞见,加快工程、科学领域的创新,强化国土安全。在科研领域

9、,2013 年 2 月,10 家国际研究基金会宣布启动第 3 轮数据挖掘挑战计划,用以激励大数据在人文科学、社会方面计算密集型研究的发展6。在产业领域,IBM、微软、Google 等 IT 巨头也纷纷加大了对大数据研发的投资,以抢占市场先机,以 Google 为代表,将大数据用于冬季流感传播的预测。我国大数据发展存在的问题包括共性和特性 2 方面。共性问题在于大数据的特征及其全生命周期所决定的大数据研究所面临的挑战,主要为大数据的收集、存储、处理、可用性、挖掘等方面的研究5,7,是大数据研究的普遍问题。特性问题在于:我国明确大数据战略的地区和部门不多,对大数据的重视程度尚未提到国家层面;我国在

10、数据领域的技术能力与国际先进水平还有很大差距,包括:大数据的生产、传输、应用等各环节;在数据共享方面,没有建立良好的数据公开、共享机制;尚需注重大数据产业、核心企业在技术发展中所起的作用6。因此,为了在大数据时代占领领先地位,我国加强大数据建设迫在眉睫。本文根据大数据的生命周期中存在的问题,将以国内外电力行业数据、金融、经济等数据为研究对象,参考和对比已有的优秀研究成果,对大数据的存储、处理、挖掘 3 大关键问题进行重点研究,解决当今研究成果缺乏、研究针对性不强、多停留在综述层面等问题。并将研究成果应用到统一数据资源库的建设中。1 压缩存储模型1.1 目标大数据分类分析国际数据公司(inter

11、national data corporation,IDC)发布数据称全球产生的数据每年已经达到 ZB 的级别8,这些数据中存在大量劣质数据,科技咨询机构Gartner 的调查结果中显示,全球财富 1 000 强企业中超过 25%的企业信息系统数据不正确或不准确5,9。这些劣质数据在大数据使用、研究中带来恶劣影响,因此通过提取转换加载(extraction-transformation-loading,ETL)对数据进行清洗。本文研究的数据对象具有信息源多样化的特征,除了以事务为代表的结构性数据外,还涉及以网页为代表的半结构化及非结构化数据10-11,针对半结构化、非结构化数据采用文件目录、二

12、进制大对象(binary large object,BLOB)等方式存储,再将其存储信息用结构化方式存储起来。现有数据规模约 5 TB,增速每年超过 20%,未来 10 年内数据量将增长至 PB 级。统计资源及指标体系关系如图 1所示。采用行业内通用方法将统计领域分为公司生产、电力能源、国民经济、国际电力、世界经济等。其来源分别为国家电网规划计划信息管理平台(简称规划平台)12、中电联、国家统计局、能源网站、世界银行等。根据统计口径、作用域等对数据进行整合,建立了 5 大类统计资源,统计口径上电网数据公司数据,覆盖领域上电力行业电网数据。根据在挖掘中所起的作用及规范性、标准化要求来构建统一

13、的指标体系,再按照各类资源的业务需求划分成 17 小类,具体如下所述。图 1 统计资源及指标体系 Fig. 1 Statistics resources and index system1)公司数据:月度数据,年度数据。2)电网数据:发电日报,月度数据,年度数据。3)电力行业:月度数据,年度数据。4)宏观经济:月度数据,季度数据,年度数据,工业行业月度,工业行业年度。5)国际数据:能源月度,能源季度,能源年度,经济月度,经济年度。这些数据将按照建立的分类分别进行映射存储。1.2 改进稀疏矩阵大数据的挖掘结果以矩阵的形式进行展现,往往因数据的缺失、客观情况下不存在、劣质数据等问题,使展现的矩阵成

14、为或接近稀疏矩阵,其存储方式通常为三元法、行压缩法、列压缩法、对角压缩法。以三元法为例,稀疏矩阵的存储空间为 m3,m 为不为 0 的元素个数,针对每个不为 0 的元素,在此引申为不为空(即null)的元素,提供 3 列进行标识,分别为所在列数、所在行数、元素值。这种存储方式极大的节省了存储空间,但适用于行列固定的矩阵,其他几种压缩算法也有同样要求。报表的实际应用场景中,由于目标分类分组、维度、指标的不同,展现的矩阵行列数并不固定,且存在行列转置的情况,限制了这样的存储方式在报表中的使用。因此,本文提出对稀疏矩阵存储方式的改进方案,并基于该改进的稀疏矩阵存储方式对大数据进行压缩存储。根据已建立

15、的大数据分类分组,由分组、单位、期别、指标唯一确定 1 条数据,确定建立大数据存储模型的算法 1。算法 1:1)对大数据进行分类分析;2)建立单位、期别体系;3)维护大数据指标体系;4)由分类分组、单位、期别、指标自由组合唯一确定一种组合关系,这种关系下存在非 null 数据则以组合关系:数据的形式进行存储,否则不存储;5)配置展现方式进行展示,配置内容包括:维度、行、列、指标等。以上算法适用于但不限于稀疏矩阵的存储。1.3 压缩存储效果论证假设分类分组能源月度下 2014 年 1 月单位 2 的指标 3 数据为 Data,改进前其展现矩阵及数据存储方式可以如图 2(a)所示;如果用户挖掘信息

16、发生变化,其关注的单位及指标发生变化,展现矩阵又可如图 2(b)所示;当用户切换挖掘维度时,展现矩阵又可变换成图 2(c)的形式。每种变换形式都存在自由组合的关系 Cn,以指标为例,n 为同一指标维度内的指标数,m 为要展示的指标个数,除目标指标外的其余 m -1 个指标都是不固定选取的,其排列组合数为 Cn。图 2 仅是其中 3种可能形式, 且可能发生行列转置的情形,因此采用改进前的存储形式,将极大的耗费空间。采用改进后的存储形式,如图 3 所示,由于已经唯一的建立了组合关系:数据的对应关系,因此不管其展现矩阵如何变化,只要其组合关系未发生变化,就只需存储 1 条记录,那么占用的存储空间就不会变化。图 2 改进前存储方式 Fig. 2 Storage method before improving图 3 改进后存储方式 Fig. 3 Storage method after improving对于非稀疏矩阵的存储,该存储方式也具

展开阅读全文