电力用户侧大数据分析与并行负荷预测

资源描述

《电力用户侧大数据分析与并行负荷预测》由会员分享，可在线阅读，更多相关《电力用户侧大数据分析与并行负荷预测（16页珍藏版）》请在金锄头文库上搜索。

1、电力用户侧大数据分析与并行负荷预测王德文孙志伟华北电力大学控制与计算机工程学院摘要：随着智能电网、通信网络技术和传感器技术的发展,电力用户侧数据呈指数级增长、复杂程度增大,逐步构成了用户侧大数据。传统的数据分析模式已无法满足需求,迫切需要解决电力用户侧的大数据在分析与处理方面的难题。该文分析电力用户大数据的来源,针对电力用户侧大数据的数据量大、种类繁多与速度快等特点,指出电力用户侧的大数据在数据存储、可用性、处理等方面面临的挑战。结合云计算技术提出一种电力用户侧大数据分析处理平台,将智能电表、SCADA系统和各种传感器中采集的数据整合,并利用并行化计算模型 Map Reduce 与

2、内存并行化计算框架 Spark 对电力用户侧的大数据进行分析。提出基于随机森林算法的并行负荷预测方法,将随机森林算法进行并行化,对历史负荷、温度、风速等数据进行并行化分析,缩短负荷预测时间和提高随机森林算法对大数据的处理能力。设计并实现基于 Hadoop 的电力用户侧大数据并行负荷预测原型系统,包括数据集群的管理、数据管理、预测分类算法库等功能。采用不同大小的数据集对并行化随机森林算法进行负荷预测实验,实验结果表明,并行化随机森林算法的预测精度明显高于决策树的预测精度,且在不同数据集上预测精度普遍高于决策树的预测精度,能够较好的对大数据进行分析处理。关键词：大数据; 电力用户侧; 负荷预测;

3、并行处理; 云计算; 作者简介：王德文(1973),男,博士,副教授,研究方向为电力系统自动化与智能信息处理,;作者简介：孙志伟(1987),男,硕士研究生,研究方向为大数据与电力用户用电行为分析,.收稿日期：2014-09-29基金：国家自然科学基金项目(61074078)Big Data Analysis and Parallel Load Forecasting of Electric Power User SideWANG Dewen SUN Zhiwei School of Control and Computer Engineering, North China Electric

4、 Power University; Abstract： With the development of smart grids, communication network and sensor technology, the electric power user side data is growing exponentially, more complexi, and gradually forms the big data of electric power user side. Now the traditional data analysis model cant meet th

5、e demand of big data, so a new data analysis model aiming at analyzing and processing big data of power user side is urgently necessary. The source of the big data of electric power user side is analyzed in this paper. Those challenges facing data storage, availability, processing of the power user

6、side are pointed out based on volume, variety and speed and other characteristics of the big data. Combining cloud computing technology, an analysis and processing platform of big data of electric power user side is given, which integrates smart meter data, SCADA systems data and various sensors dat

7、a to be processed by Map Reduce or Spark. A load forecasting method based on parallel random forests algorithm is proposed. Parallelization random forest algorithm is used to analyze data, such as load data, temperature, wind speed. The method shortens the time of load forecasting and improves rando

8、m forests algorithm on data processing capability. Parallel load forecasting prototype system of electric power users side big data based on Hadoop is designed and implemented, including cluster management, data management, predictive classification algorithms library functions and so on. By using d

9、ata sets of different sizes to do load forecasting experiment with parallelization random forest algorithm, the experiment results show that the prediction accuracy of the parallel random forest algorithm is significant higher than that of the decision tree. The prediction accuracy of different data

10、 sets is generally higher than the forecast accuracy of the decision tree, and applying the parallel random forestalgorithm to analyze and processing big data is a better choice.Keyword： big data; electric power user side; load forecasting; parallel processing; cloud computing; Received： 2014-09-290

11、引言智能电网是当前全球电力工业关注的热点,而用户作为智能化用电的行为主体,在智能电网需求响应中起着至关重要的作用1。对电网用户侧实时数据的采集、传输和存储,并结合累积的海量多源历史数据进行快速分析能够有效的改善需求侧管理,对用户侧数据进行管理与处理支撑着智能电网安全、坚强及可靠运行。随着各类传感器和智能设备数量的不断增加, 设备中进行获取与传输的各类数据也在发生着指数级的增长,这些数据不仅包括智能电表收集的用电量,还包括各类传感器按照固定频率采集的温度、天气、湿度、地理信息和风速信息等。用户侧数据复杂程度增大,数据存储规模将从目前的 GB 级增长到 TB 级,甚至 PB级2,逐步构成了用户侧

12、大数据。大数据目前已成为学术界和产业界共同关注的研究主题3。2013 年中国电机工程学会信息化专委会发布了中国电力大数据发展白皮书4,文中阐述了电力大数据的特征,将会给社会带来的价值和在电力行业中的发展前景以及在发展过程中面临的技术挑战。如何对电力用户侧大数据进行可靠存储、高效管理和快速分析,是当前重要的研究课题。电力用户侧大数据主要来源于智能电表的广泛使用、各类传感器的普及、智能家电的使用和用户消费模式的改变,其中智能电表覆盖率在 2013 年 1月底已达到为 40.5%,其中直供直管范围的智能电能表覆盖率为 55%5,而智能家电随着物联网和大数据的发展将使更多可控的智能家电进入居民生活中。

13、根据其来源总结出电力用户侧大数据的特点如下:1)数据量巨大。美国太平洋天然气电力公司每个月从 900 万个智能电表中收集超过 3 TB 的数据,每年将存储超过 39 TB 的数据6。一个地区如果有 10 000套传感器终端,按每套终端每 5 min 采集一次数据计算,每月产生数据总量约9.3 TB,每年产生数据接近 1 PB。随着电网智能化程度的加深, 以及为了保证精细化、准确化控制,数据维度也从几十向上百过渡,同时影响电力负荷因素采集频率的提高和采集种类的增多,使上述数据量更加快速增长,而且在多数情况下还需要存储所有的历史数据值以满足溯源处理和复杂数据分析的需求7。2)数据结构类型繁多。随着

14、各类传感器的广泛使用,收集的数据包括各种结构化数据、半结构化数据和非结构化数据,这些数据在采集、传输、存储和处理的过程中形成了多源异构数据。3)速度快。一次采集频度的提升就会带来数据体量的“指数级”变化,如对 100万智能电表的数据采集中,采集频率 15 min 将产生 3.18 TB 的数据, 频率为 1 min 将产生 47.7 TB 的数据,频率为 1 s 将产生 11.2 PB 的数据4。电力系统中的高级应用需要对海量的历史数据进行离线分析处理,这要求数据平台能够提供并行化的海量历史数据批处理的能力,以及能够快速传输与存储采集到的新数据。4)数据的交互性。智能电网的一个重要特性之一是交

15、互性,包括与用户的交互实现智能用电和与相关行业的数据交互融合进行全方位的挖掘分析,如将负荷数据与收集到的民生数据、气象数据进行融合进行电力负荷预测。目前,云计算是解决大数据管理的一种基础平台和高效支撑技术。开源 Hadoop技术已经成为大数据管理与并行处理的主流技术,主要包括分布式文件系统(Hadoop distributed file system,HDFS)和并行编程框架 Map Reduce 两部分,该技术具有高性能、高可靠性和强大的可扩展能力等适合管理大数据的优点,已被淘宝、百度、京东等众多互联网公司使用。电力行业也已开始对其进行研究与应用, 目前的研究成果主要集中在系统架构设计、系统

16、模型和存储等方面。例如,文献8针对智能电网数据的特点,结合 Hadoop 云计算技术,提出智能电网云计算平台的解决方案,分析了基础设施层、平台层、业务应用层与服务访问层,但尚未讨论实现细节。文献9利用 Hadoop 技术对海量电网设备状态监测数据进行存储,设计并实现了一个数据存储原型系统,包括存储客户端和查询客户端,能够对数据进行高效的存储和快速的查询。国家电网公司在发输电系统的技术与欧美差别不大,但在配用电侧特别是用户侧存在较大差异,不仅技术领域的名称不同,技术内涵和解决方案也有很大差别。由于相适应的市场机制尚未形成,中国实施智能用电技术的条件不够成熟,难以支持智能配电系统和用户侧管理系统的有效集成6。电力用户侧的大数据管理存在如下挑战:1)大数据整合。传感器网络在智能电网中的广泛使用,智能电表和物联网技术的快速发展,使其产生的大数据模态千差万别,各单位数据口径不一,加工整合困难。针对海量异构数据,如何构建一个模型来对其进行规

展开阅读全文

电力用户侧大数据分析与并行负荷预测

最新文档