基于Hadoop的海量电费数据处理模型

上传人:jiups****uk12 文档编号:38363125 上传时间:2018-05-01 格式:PDF 页数:7 大小:760.44KB
返回 下载 相关 举报
基于Hadoop的海量电费数据处理模型_第1页
第1页 / 共7页
基于Hadoop的海量电费数据处理模型_第2页
第2页 / 共7页
基于Hadoop的海量电费数据处理模型_第3页
第3页 / 共7页
基于Hadoop的海量电费数据处理模型_第4页
第4页 / 共7页
基于Hadoop的海量电费数据处理模型_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《基于Hadoop的海量电费数据处理模型》由会员分享,可在线阅读,更多相关《基于Hadoop的海量电费数据处理模型(7页珍藏版)》请在金锄头文库上搜索。

1、2014 年 第 23 卷 第 5 期 http:/www.c-s- 计 算 机 系 统 应 用 System Construction 系统建设 37 基于 Hadoop 的海量电费数据处理模型 谌章义1,2, 毕 伟1, 向万红1, 王国安1, 吴爱国2 1(远光软件股份有限公司, 珠海 519085) 2(哈尔滨工业大学深圳研究生院, 深圳 518055) 摘 要: 随着电费数据量的快速增长, 某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop 是一个可实现大规模分布式计算的开源框架, 具有高效、可靠、可伸缩的优点, 被广泛应用于海量数据处理领域

2、. 本文在对电费业务和 Hadoop 进行分析和研究的基础上, 提出了电费数据新的处理模型, 建立了基于 Hadoop 和 Hive 的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈, 提高电费数据处理的速度和效率, 并且可以提供高性能的明细数据查询功能. 关键词: Hadoop; Hive; 海量数据; 电费数据处理; 财务管理系统 Massive Electricity Data Processing Model Based on HadoopMassive Electricity Data Processing Model Based on Hado

3、op SHEN Zhang-Yi1,2, BI Wei1, XIANG Wan-Hong1, WANG Guo-An1, WU Ai-Guo2 1(Ygsoft Inc., Zhuhai 51908, China) 2(Harbin Institute of Technology Shenzhen Graduate School, Shenzhen 518055, China) Abstract: The traditional electricity data processing methods of a corporations financial management informat

4、ion system have difficulty as the amount of electricity data is growing rapidly. Hadoop is a large-scale distributed computing framework that has the advantages of high efficient, reliable and scalable. Hadoop is widely used in the massive data processing field. Based on the analysis and research of

5、 electricity process and Hadoop, this paper proposed a novel electricity process model which includes a distributed computing platform based on Hadoop and Hive. The experimental results show the platform can effectively solve the performance bottleneck that the electricity processing service is faci

6、ng and improve the speed and efficiency of electricity process. In addition, the new model can provide high-performance electricity detailed query functions. Key words: hadoop; hive; massive data; electricity data process; financial management system随着业务数据的快速增长, 某特大型集团公司财务管理系统面临海量数据处理难题, 其现有的以关系型数据库

7、为代表的传统数据存储、处理技术和工具, 已无法有效应对如此大规模急速增长的数据. 其中电费业务表现最为突出: 集团超过 30 个子公司, 平均每个子公司用电客户规模在 500 至 800 万、每个月的用电明细数据超过 1 亿条. 电费数据规模庞大, 而且对于集团公司的决策和政策自定具有重要意义. 例如可以根据各个类别(如地区、行业等)用电量变化的原因及影响因素, 如国家行 业政策、地方经济发展状况、气候异常变化、大用户的产品生产和销售情况等. 通过对这些资料的变化情况, 设计各个行业用电量及其影响因素之间的非线性关系, 可以定性或者定量分析用户和用电量之间的关系. 对于重要的行业用户类别, 如

8、何调整其用电价格策略来保证公司的售电收入增加. 为电力营销决策提供支持, 实现决策的科学化、系统化, 减少不确定性. 但是面对海量电费数据, 基于关系型数据库的传统处理模型已经很难满足性能方面的要求. 而且仅仅依靠升级数据库软硬件设备也无法从根本上解决问题, 基金项目:国家自然科学基金(61103050);广东省部产学研合作重大项目(粤财教2010303 号) 收稿时间:2013-09-17;收到修改稿时间:2013-10-28 计 算 机 系 统 应 用 http:/www.c-s- 2014 年 第 23 卷 第 5 期 38系统建设 System Construction 更无法满足日益

9、增长的数据量处理需求. 为了解决财务管理系统面临的海量数据处理难题, 本文提出了基于Hadoop的海量电费数据处理模型, 解决海量数据处理的性能瓶颈, 提高财务管理系统性能. Hadoop 作为一种开源的架构适合在廉价机器上对各种资源数据进行分布式存储和分布式管理, 具有可伸缩性和高容错性; 采用 MapReduce 编程模型可以对海量数据进行有效分割和合理分配, 以实现高效并行处理, 而且并行程序编写简单. Hadoop 可以处理数千个节点和PB 级数据, 让数据处理和分析变得更加方便快捷. 目前 Hadoop 的研究多集中于科研和互联网行业的海量数据处理, 有一些成功的应用1-8, 在笔者

10、所在远光软件公司开发中得到实际应用验证, 其所开发的财务管理系统实现效果证明, Hadoop 同样可以应用于企业管理软件领域, 解决超大集团信息化应用中, 海量业务数据的处理难题. 1 财务管理系统现电费数据处理流程 1.1 电费数据处理流程 电费业务明细数据发生在“电力营销系统”, 根据集团公司“财务业务一体化”要求, 电费核算需要在“财务管理系统”中完成. 因此, 电费业务模块需要从营销侧采集电费明细数据, 然后将其转换成财务管理系统的管理对象, 并进行业务核算等操作. 这里需解决第三方系统间业务数据集成的问题, 目前采取的是中间数据库的形式. 营销系统在月末将用电客户信息表和应收电费明细

11、表上传到中间数据库, 财务管理系统在月初从中间数据库采集明细数据, 在财务管理系统数据库完成业务处理. 数据采集模块从中间数据库采集的明细数据是文本形式, 然后导入财务管理系统数据库. 其流程如图 1 所示. 图 1 财务管理系统电费数据处理流程 数据采集模块从中间数据库采集的明细数据是文本形式, 然后导入财务管理系统数据库. 由于电费明细数据量太过庞大, 每个子公司一个月的电费明细数据就有近亿条. 为了便于处理, 财务管理系统的电费业务模块先将明细数据按口径合并, 然后再转换成财务管理系统可以识别的管理对象. 因此, 在现有处理流程中, 主要包括合并和转换两个操作: 合并: 电费用户中居民用

12、户的数量所占比例非常大, 可电费收入所占比重又相对较小, 其变化的规律也比较容易掌握, 因此根据管理的重要性原则, 我们重点监控的对象是大中型用户, 将居民照明用户分类合并处理, 可以将需处理的业务数据量下降 70%90%. 转换: 电费数据涉及电费项目分类、电费对象分类, 以及具体所属对象. 转换就是把营销侧的各种分类、所属对象转换成财务管理系统可以识别的各种分类以及对象. 1.2 存在的问题 财务管理系统电费业务有很高的时效性要求: 每月初(3 号之前)完成业务数据的处理, 在财务系统中能出具完整的电费业务报表、账务数据. 遵循现有处理模型, 对于电费明细数据 1 亿条规模的省公司, 电费

13、业务存在很大的性能问题: 一是无法按时完成数据处理; 二是执行电费业务时数据库服务器资源占用严重. 根据实施地反馈信息, 运行电费业务时, 数据库服务器经常出现“假死”, CPU 和内存利用率接近 100%. 影响其它业务模块的运行, 严重影响整个财务管理系统的性能. 因为这个原因, 电费业务模块暂时还无法提供电费明细数据的查询业务, 本文介绍的处理模型实现了明细查询功能. 通过对现有电费数据模型和处理流程的分析, 结合实际的测试和验证, 性能的瓶颈是电费明细数据“合并”操作. 该操作直接处理海量明细数据, 其需要的时间和硬件资源占整个处理过程的 70%以上. 本文的处理模型正是以该性能瓶颈为

14、突破口, 将合并操作从数据库系统中分离出来, 只将合并后的少量数据存入数据库, 用于后续的业务分析和处理. 2 基于Hadoop的海量电费数据处理模型 2.1 设计原理 我们提出了拆分、重构和融合的设计思想, 同时2014 年 第 23 卷 第 5 期 http:/www.c-s- 计 算 机 系 统 应 用 System Construction 系统建设 39 设立了尽量简单的原则, 在保持足够扩展性前提下, 极力保持整个系统的简单、易部署和实用性, 这样做避免为了细节的性能问题投入太多精力对整体构建产生负面影响. 事实证明保持简单的原则保证了整个研究项目的顺利发展, 同时为后期的性能优化

15、节约了很多宝贵的时间. 2.2 电费电费数据处理模型 仔细分析整个电费处理的业务流程后, 在尽量保持现有业务流程的基础上, 针对主要的瓶颈提出了解决方案: 引入 Hadoop 分布式处理平台来处理和处理海量电费明细数据, 按不同口径合并后的数据再存入财务管理系统数据库, 由数据库服务器完成最后的管理对象转换. 基于 Hadoop 海量电费数据处理模型如图 2所示. 图 2 海量电费数据处理模型 从图 2 可以看到, 新模型还是遵循原有业务流程, 但是有三点不同: 1) 采集的电费明细数据不是直接存入财务管理系统数据库, 而且存在 Hadoop 分布式处理平台. 2) 合并操作从财务管理系统数据

16、库分离出来, 利用 Hadoop 分布式计算框架完成海量电费明细数据分类合并, 合并后的数据再存入财务管理系统数据库. 3) 依托 Hadoop 平台, 不仅能快速处理海量数据, 还提供了电费明细数据查询功能. 原有处理模型因为结构和性能原因, 暂时无法提供该功能. 通过在原有模型中整合 Hadoop 分布式处理平台, 不仅提高了电费业务模型的性能, 丰富了功能; 而且分流和解决了原有模型中的的性能瓶颈, 从而保证整个财务管理信息系统高性能. 2.3 Hadoop 分布式处理平台 海量电费数据处理模型的核心模块是 Hadoop 分布式处理平台, 该平台利用分布式文件系统 HDFS 来存储海量电费明细数据, 利

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号