数据挖掘在电力负荷预测中的应用

资源描述

《数据挖掘在电力负荷预测中的应用》由会员分享，可在线阅读，更多相关《数据挖掘在电力负荷预测中的应用（5页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘在电力负荷预测中的应用摘要本文对电力负荷预测的研究主要运用了数据挖掘中的聚类分析。构架了一种基于URE聚类算法的电力负荷预测模型，对短期电力负荷数据进展有效的预测。并通过海量数据存储，数据挖掘和决策信息的支持，可有效地克制数据有限性，不完好性及影响因素复杂性对预测结果的影响，发挥独特优势、实现经济价值。关键词电力系统；数据挖掘；URE聚类算法；负荷预测电力负荷预测是能量管理系统及配电管理系统的重要组成局部，是电力系统规划和运行调度的根据，也是电力市场化商业运营所必需的根本内容。准确的负荷预测，可以合理的安排电网内部发电机组的启停，减少不必要的旋转储藏容量，合理安排机组的检修方案，在保证

2、社会的正常消费和生活的条件下，有效的降低发电本钱，进步经济效益和社会效益。短期负荷预测是电力系统调度和方案部门安排购电方案和制定运行方式的基矗由于电力负荷除了受温度、天气状况等非线性因素影响之外，还具有自身的随机性，故短期负荷预测是一个非常复杂的问题1。人们对短期负荷预测方法的研究主要包括三个方面：传统算法的研究、现代算法的研究和预测应用的研究，各研究层面的侧重点互不一样，但由于影响负荷预测结果的因素多样，始终存在着预测精度不高的问题。采用数据挖掘技术，可以很好的解决准确度不高的问题。1.1数据挖掘介绍数据挖掘是一门涉及面很广的穿插性新兴学科，它涉及到数据库、人工智能、数理统计、并行计算、可视

3、化等等领域。它是在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。基于广义的数据挖掘观点，数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。数据挖掘不仅能对过去的数据进展查询和遍历，并且可以对将来的趋势和行为进展预测，并自动探测以前未发现的形式，从而很好地支持人们的决策。被挖掘出来的信息，可以用于信息管理，查询处理，决策支持，过程控制以及许多其它应用。1.2数据挖掘过程负荷预测工作的关键在于搜集大量的历史数据，建立科学有效的预测模型，采用有效的算法，以历史数据为根底，进展大量试验性研究，总结经历，不断修正模型和算法

4、，以真正反映负荷变化规律。(1)调查和选择历史负荷数据资料多方面调查搜集资料，包括电力企业内部资料和外部资料，从众多的资料中挑选出有用的一小局部，即把资料浓缩到最小量。挑选资料时的标准要直接、可靠并且是最新的资料。假如资料的搜集和选择得不好，会直接影响负荷预测的质量。本人通过建立计算机数据管理系统，利用计算机软件系统来自动管理数据。(2)历史资料的整理一般来说，由于预测的质量不会超过所用资料的质量，所以要对所搜集的与负荷有关的统计资料进展审核和必要的加工整理，来保证资料的质量，从而为保证预测质量打下根底，即要注意资料的完好无缺，数字准确无误，反映的都是正常状态下的程度，资料中没有异常的“别离项

5、，还要注意资料的补缺，并对不可靠的资料加以核实调整。本人通过建立数据完好性、一致性约束模型，来建立海量数据集为后面的数据挖掘做好充分的准备。(3)对负荷数据的预处理在经过初步整理之后，还要对所用资料进展数据分析预处理2，即对历史资料中的异常值的平稳化以及缺失数据的补遗，针对异常数据，主要采用程度处理、垂直处理方法。数据的程度处理即在进展分析数据时，将前后两个时间的负荷数据作为基准，设定待处理数据的最大变动范围，当待处理数据超过这个范围，就视为不良数据，采用平均值的方法平稳其变化；数据的垂直处理即在负荷数据预处理时考虑其24h的小周期，即认为不同日期的同一时刻的负荷应该具有相似性，同时刻的负荷值

6、应维持在一定的范围内，对于超出范围的不良数据修正，为待处理数据的最近几天该时刻的负荷平均值。图1异常数据分布(4)建立负荷预测模型负荷预测模型是统计资料轨迹的概括，预测模型是多种多样的，因此，对于详细资料要选择恰当的预测模型，这是负荷预测过程中至关重要的一步。当由于模型选择不当而造成预测误差过大时，就需要改换模型，必要时，还可同时采用几种数学模型进展运算，以便比照、选择。(5)选择算法本文选择聚类法又称聚类分析法，它是对一组负荷影响因素数据进展聚类的方法，聚类后的数据即构成了一组分类。聚类的标准是以数据的表象即数据属性值为根据的，聚类的工具是将一组数据按表象而将相近的归并成类，最终形成假设干个

7、类，在类内数据具有表象的相似性，而类间的数据具有表象的相异性。聚类的算法也有很多，有遗传算法，划分法，层次法，基于密度方法，基于网格方法等。2.1聚类分析原理对一个样本数据空间进展聚类分析可以归结为求以下数学问题的寻优问题：公式1其中定义X=(x1,x2,x)为样本数据空间，为样本总数目，xj是第j个样本向量，n是需分类的数目，yi为第i个类的中心向量，为xj与yi的某种间隔，如欧式间隔，曼哈顿间隔等。公式2寻优的目的是求出y=(y1,y2,y)使得公式1得以满足。2.2基于URE算法在负荷预测中的应用URE算法3是一种分层聚类算法。用固定数目的具有代表性的数据点来表示一个聚类。URE算

8、法要求输入聚类个数K作为参数。因为URE是用假设干代表点代表聚类的，所以可以发现具有任意大小和形状的聚类。同时，在选择一个聚类的代表点时，通过向中心收缩的方式，可以排除噪音。首先对负荷预测中的历史数据库中抽出数据样本。对数据样本进展聚类时，可以分为两种方法：一种是对全部样本数据进展聚类，此方法将会使得主存中容量不够而使得系统不能一次扫描完成。我们采用是对全部样本数据分为p个区，对每个区的数据进展聚类，这样可以把每个分区的样本数据全部装入主存。然后对于每一分区，利用层次算法进展聚类。层次算法实际上是产生嵌套的簇集，根据产生簇集的方式不同，可以分为不同的层次算法，我们在这里采用的是凝聚算法。第一次

9、簇的数目为n/(p*q)，其中q为某一常数。由于电力系统中应用SADA系统采集数据，在数据的量测、记录、转换、传输过程中，都可能引起故障而导致负荷数据缺失或异常4。异常数据的产生是随机的，因此在数据库中的分布也具有不确定性，各类异常数据或在某一时刻单独出现，或在同一日连续的时段内穿插混合出现，或在连续多日同一时段上穿插分布等众多情形。对异常数据的处理，是影响预测结果的准确程度的关键。可以利用两种不同的技术删除异常点。第一种技术是将增长缓慢的簇删除。当簇的数目低于某一阈值时，将仅含有一两个成员的簇删除；第二种技术是在聚类的最后阶段，将非常小的簇删除。最后对样本中的全部数据进展聚类，为了保证可以在

10、内存中处理，输入只包括各个分区单独聚类时发现的簇的代表性点。使用个点代表每个簇，对磁盘上的整个数据库进展聚类。数据库中的数据项被分配到与最近的代表性点表示的簇中。代表性点的集合必须足够小以适应主存的大小，所以n个点中的每一个都有与k个代表性点相比拟。3结语基于数据挖掘的聚类分析研究是近十几年才刚刚开场的，还有许多值得研究和讨论的问题。本文简要表达了数据挖掘技术及其在电力系统中的应用，并利用数据挖掘中的聚类分析来进展负荷预报。这只是数据挖掘技术在负荷预测中的初步应用。今后，我们将应用数据挖掘中的决策树技术将用户负荷聚类和分类进展电力负荷预测并且将数据挖掘技术和人工神经网络结合起来进展预测，进一步研究负荷与时间、气候、用户等的关系，为负荷预测提供更先进准确的预测手段。1牛东晓，曹树华，赵磊等.电力负荷预测技术及其应用.中国电力出版社.19982KiaEiHan.Dataiingtehniques.Tehnialreprt.ASIGDTutrial.19963RaezElasriandShakantB.Navathe.FundaentalsfDatabaseSystes，3rded.Addisnesley，20004韦刚，王飞，张永健等.负荷预测中历史数据缺损处理.电力科学与工程.2022，1(16)

展开阅读全文