电力数据仓库及其数据挖掘应用的研究

上传人:w****i 文档编号:111238118 上传时间:2019-11-02 格式:PDF 页数:4 大小:314.35KB
返回 下载 相关 举报
电力数据仓库及其数据挖掘应用的研究_第1页
第1页 / 共4页
电力数据仓库及其数据挖掘应用的研究_第2页
第2页 / 共4页
电力数据仓库及其数据挖掘应用的研究_第3页
第3页 / 共4页
电力数据仓库及其数据挖掘应用的研究_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《电力数据仓库及其数据挖掘应用的研究》由会员分享,可在线阅读,更多相关《电力数据仓库及其数据挖掘应用的研究(4页珍藏版)》请在金锄头文库上搜索。

1、0引 言 电力数据仓库及其数据挖掘应用的研究 南京供电局 周呖沈祝园 随着电力体制改革的不断深入,在电力行业完成组织机构重组和区域的重新划分之后,厂网分开、竞价上网 的经营模式逐步变为现实,这意味着电力行业将取消垄断,逐步形成健全合理的竞争机制。为了在竞争中取得成 功,电力企业需要一个既集成、优化原有各应用系统,又能满足当前和未来挑战性需求的综合实时的应用服务系 统,这种需求使得电力信息化建设进入一个全面快速发展的崭新时期。 目前,很多电力企业虽然已实施了各种信息管理系统,但这些系统通常构筑在不同的平台之上,导致了系统 之间缺乏良好的信息沟通。此外,电力行业内部组织的分散性,决定了各个组织之间

2、的同一个系统要真正实现互 通,也非易事。许多复杂的综合、统计与分析工作还要由人工完成。因此电力企业的信息化建设往往没有取得预 期的效果。 1 建立数据仓库的意义 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事 务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对 其自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。这种决策需要对大量的业务数 据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,比 以往任何时候都显得更为重要。如果说

3、传统联机事务处理强调的是更新数据库向数据库中添加信息,那么 联机分析处理就是从数据库中获取信息、利用信息。因此,著名的数据仓库专家R a l p h1 G m b a U 写道:“我们花了 二十多年的时间将数据放人数据库,如今是该将它们拿出来的时候了”。 实际上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,要获 得有用的信息并非如想象的那么容易,这主要表现在以下几点:所有联机事务处理强调的是密集的数据更新处理 性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库 在理论上都难以做到两全。业务数据往往存放于分散的

4、异构环境中,不易统一查询访问,而且还有大量的历史数 据处于脱机状态,形同虚设。业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算 机专业人员进行业务上的分析和查询。 数据仓库是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机 分析应用所要求的一切。它是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要 研究和解决的问题就是从数据库中获取信息的问题。 。 经过多年的信息化建设,南京供电公司已建成调度自动化系统、配网自动化系统、营销信息系统、财务管理系 统、生产管理信息系统等许多应用系统,并在公司的生产、经营和安全等各方

5、面发挥了举足轻重的作用,积累了大 量宝贵的信息数据资源,特别是调度和营销两大系统沉淀了大量的历史数据。但是这些宝贵的信息资源都分别 存储在各个孤立的应用系统当中,未能实现各应用系统间的信息共享,信息孤岛在各企业中普遍存在,现有的应 用系统大多只是满足了企业局部的需求,并不能实现企业对整体业务运作和流程管理的全面掌控。 这种来自深层次应用的需要,要求企业不仅能够访问并综合来自各种数据来源的数据,还能通过挖掘现有的 数据资源,捕捉、分析和沟通信息,进行复杂的数据分析,多层次多视角地察看跨主题和跨业务范围的信息,发现 许多过去缺乏认识或者未被认识的数据关系,从而帮助企业决策者做出正确的决策,这些数据

6、采集及挖掘工作都 必须建立在一个结构良好的数据仓库的基础上。 2 数据仓库的原理和特点 2 1 数据仓库的原理 数据仓库是信息数据库的具体实现,用来存储源自各相关业务数据库的共享数据。典型的数据仓库应该是 6 4 一个主题数据库,支持用户从巨大的运营数据存储中发现信息,支持对业务趋势进行跟踪和响应,实现业务的预 测和计划。数据仓库在数据分析和决策方面为用户提供如下服务: 信息处理:支持查询和基本的统计分析,并使用表或图进行报告。 分析处理:支持基本的O L A P 操作,在汇总的和细节的历史数据上操作。 数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化

7、工具 提供挖掘结果。 。 2 2 数据仓库的特点 1 9 9 1 年,B i l lI n m o n 提供了如何建设数据仓库的指导性意见,定义了数据仓库非常具体的原则:数据仓库是面 向主题的( S u b j e e t O r i e n t e d ) 、集成的( I n t e g r a t e d ) 、包含历史的( T i m e v a r i a n t ) 、不可更新的( N o n v o l a t i l e ) 、面向决 策支持的( D e e i m o nS u p p o r t ) 面向全企业的( E n t e r p r i s eS c o p e )

8、 、最明细的数据存储( A t o m i eD e t a i l ) 、数据快照式的数 据获取( S n a pS h o tC a p t u r e ) o 2 2 1 面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定 的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通 常与多个操作型信息系统相关。 2 2 2 集成 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数 据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、

9、汇总和整理得到的,必须消除 源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 2 2 3 不可更新 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析 之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 2 2 4 包含历史 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企 业从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这

10、些信息,可以对企业的发展历 程和未来趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只 有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意 义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。 3 联机分析处理 6 0 年代,关系数据库之父E F C o d d 提出了关系模型,促进了联机事务处理( O L T P ) 的发展( 数据以表格的形 式而非文件方式存储) 。1 9 9 3 年,E F C o d d 提出了O L A P 概念,认为

11、O L T P 已不能满足终端用户对数据库查询分 析的需要,S Q L 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数 据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E F C o d d 提出了多维数 据库和多维分析的概念,即联机分析处理O L A P ,O L A P 采用星型或雪花模型和面向主题的数据库设计,主要关注 历史数据或不同组织的数据,不重点关注一个企业或部门内部的当前数据。O L A P 是数据挖掘的一种主要手段。 O L A P 主要有以下类型: 关系O L A P ( R O L A P ) 服务,使用关系或

12、扩充关系D B M S 存放并管理数据仓库。 多维O L A P ( M O L A P ) 服务,这些服务器通过基于数组的多维存储,支持数组的多维视图。 混合O L A P ( H O L A P ) 服务,结合R O L A P 和M O L A P 技术,得宜于R O L A P 的可伸缩性,和M O L A P 的快速 计算。 特殊的S Q L 服务,为了满足在关系数据库中日益增长的O L A P 需要,实现了特殊的S Q L 服务器,提供高级 查询语言和查询处理,在星型和雪花模式上支持S Q L 查询。 O L A P 是针对特定问题的联机数据访问和分析。通过对信息( 多维数据) 的

13、多种可能的观察形式进行快速、 稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。使分析人员、管理人员或执行人员能够从多 种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交 6 5 互地存取,从而获得对数据的更深入了解的一类软件技术。满足决策支持或多维环境特定的查询和报表需求,它 的技术核心是“维”这个概念,因此O L A P 也可以说是维数据分析工具的集合。 目前市场上主要的O L A P 软件及特点: I B MD B 2O L A PS e r v e r 一把H y p e r i o nE s s b a s e 的O L A

14、 P 引擎和D B 2 的关系数据库集成在一起。 一与E s s b a s eA P I 完全兼容 一数据用星型模型存放在关系数据库D B 2 中 I n f o r m i xM e t a e u b e 一采用m e t a e u b e 技术,通过O L E 和O D B C 对外开放, 一采用中间表技术实现多维分析引擎,提高响应时间和分析能力 一开放的体系结构可以方便地与其他数据库及前台工具进行集成 S y b a P o w e rd i m e n s i o n 一数据垂直分割( 按“列”存储) 一采用了突破性的数据存取方法b i t w i s e 索引技术 一在数据压缩

15、和并行处理方面有多到之处 一提供有效的预连接( P r o J i o n ) 技术 4 数据的加工和采集 第一步,就是完成对异构数据库的复制抽取。由于各个应用系统的数据库结构不一定相同,系统数据的复制技 术都是独有的,因此要实施数据复制,首先就需要建设独立的数据复制服务器,保证独立的体系。复制服务器进行 独立运作,通过公有开发的协议和接口,如采用X M L 协议保证对异构数据库的复制。另外,还要让复制服务器能够 复制不同类型的数据库,比如电力企业营销、生产、调度等部门的数据库,复制服务器保证了公共的数据复制通道。 第二步,在数据复制上来以后,电力企业需要建立一个总的数据中心,建立一个统一的门

16、户体系,透明化所有 数据分布。当然这个中心主要还是一个逻辑的数据中心,通过采用分布式数据库的设置,将一部分有用的数据抽 取上来,其他的数据还是留在本地。这是因为公司的决策者并不关心数据存放在哪里,他只关心眼前能够看到哪 些东西。因此数据门户的建立对于数据的集中展示非常必要。 第三步,就是集中后数据的加工与利用,也就是数据仓库的构建、联机分析处理和数据挖掘分析。一种较合 理的方案指出,当前电力企业在把数据复制以后,可以采用分步实施的做法,逐步建立一些小型的数据仓库,对某 类数据成熟一套放进一套,比如变压器的参数、线路参数条件成熟之后,可以按主题分别放入。这样做的好处就 是在低成本的条件下最大限度地利用数据仓库,同时保证挖掘速度。 5数据挖掘及其在电力系统的应用 5 1 数据挖掘原理 数据仓库的出现,带来了“数据丰富,但信息贫乏”的状况。因此迫切需要一种新技术实现从企业海量的数据 中发现有用的信息或知识,从而出现了数据挖掘( D a t aM i n i n g ) 技术。数据挖掘就是从大量的、不完全的、有噪声

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号