电力大数据高速存储、检索及流计算即时处理技术研究与应用-国网科技项目V.-.doc

资源描述

《电力大数据高速存储、检索及流计算即时处理技术研究与应用-国网科技项目V.-.doc》由会员分享，可在线阅读，更多相关《电力大数据高速存储、检索及流计算即时处理技术研究与应用-国网科技项目V.-.doc（44页珍藏版）》请在金锄头文库上搜索。

1、国家电网公司科技项目可行性研究报告项目名称：电力大数据高速存储、检索及流处理即时处理技术研究与应用申请单位：浙江省电力公司国网电力科学研究院起止时间： 2014年1月至2014年12月项目负责人：赵京虎金文德通信地址：南京南瑞路8号邮政编码：210003联系电话：025-83093908传真：025-83093999申请日期：2013年 10 月分布式实时数据库管理系统研发与应用可行性研究报告1 目的和意义1.1 项目背景“大数据”概念于20世纪90年代被提出，最初只是对一些在一定时间内无法用传统方法进行抓取、管理和处理的数据的统称。“大数据”这个术语最早期的引用可追溯到apache o

2、rg的开源项目Nutch。当时，大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。通常用Volume、Velocity、Variety和Value（简称为“4V”，即数据体量巨大、处理速度快、数据类型繁多和价值密度低）四个特征来显著区分大数据与传统数据。目前，业界对大数据缺乏统一的定义，通过对大数据内涵和外延的深入理解，结合公司数据现状和业务需求，研究并提出了“电力大数据”的概念。电力大数据，是在大数据时代背景下，以挖掘数据价值为目标,利用数据存储、计算分析与挖掘、数据管理与服务和数据展示等方面核心关键技术，构建的高效、智能、灵活、安全可靠的大数据生态系统。电力大数据的应

3、用将推动公司业务发展和管理水平提升。根据“十二五”规划，国家电网公司全面推进了以信息化、自动化、互动化为基本特征的智能电网建设。随着此项工作的逐步推进，尤其是国网公司下属各省级单位和直属单位在调度自动化、输变电设备状态监测、用电信息采集、配电自动化、发电集团信息化等项目的试点与推广建设，产生了大量异构数据（结构化数据及非结构化数据），这些异构数据经过沉淀生成海量历史数据，构成了国家电网公司电力大数据应用基础。这些数据是公司的重要财富，如何高效的存储、检索和即时处理这些电网运营实时/历史数据，成为当下研究的热点问题。同时，由于公司数据基数庞大、产生频率快、时效性要求高，数据的存储查询、综合分析难

4、度急速上升，现有系统在计算效率、计算性能方面面临日益严峻的挑战。综上所述，随着国家电网公司智能电网建设的持续推进和信息系统的不断深化应用，国家电网公司数据规模和覆盖程度不断扩大，对高速处理、大规模数据应用提出了更高的要求，面向大数据的高速存储、检索与流计算即时处理技术作为能够满足这种需求的关键技术，在电网中的应用越来越受到重视。1.2 目的与意义针对上述背景，本项目将结合现有电力大数据特征下的典型业务系统已积累的经验和需求，按照公司“十二五”信息化发展规划的总体要求，重点研究与分析电力大数据特征下的不同种类典型系统在结构化与非结构化数据存储、数据检索、数据处理计算等方面所采用的技术架构、方法、

5、相关业务与数据范围以及存在的问题；研究电力大数据高速存储、检索与流计算即时处理技术的关键技术与应用，深挖现有典型系统的大数据需求并提出整体解决方案，并且给予验证。具体包括：研究电力大数据特征下的不同种类典型系统在结构化与非结构化数据存储、数据检索、数据处理计算等方面所采用的技术架构、方法、相关业务与数据范围以及存在的问题。这些问题的研究，明确了电力大数据应用场景，深挖了电力大数据应用需求，梳理了现有业务系统的数据性能、效率、处理难题，为后续的关键技术研究，整体方案的指明了方向；通过研究电力大数据特征下的适用于高效数据访问、包容结构化与非结构化数据的软硬件一体化数据高速存储结构与关键技术，为

6、公司异构数据的海量存储提供解决手段，保护了公司的数据资产，提供了安全可靠的数据存储方式及一揽子解决方案；通过研究大数据检索架构与关键技术，解决电网现有业务系统中海量（PB级以上）异构数据（结构化及非结构化）的快速检索查找难题，为大数据应用奠定技术基础，探索大数据环境下的数据检索的应用方法，为后续的大数据应用深化奠定基础，使业务系统中的海量数据的快速检索应用成为可能。通过研究大数据流计算即时处理架构与关键技术，解决数据前端的流计算难题，快速实现数据流的规整及筛选，特别是关注视频流的处理问题，深化海量数据的即时处理应用。大数据技术作为一种新兴的信息化前沿技术，公司开展相关关键技术的研究，对后期

7、面向大数据的、自主知识产权的电网大数据产品研发及业务应用工作，提供了重要的技术支撑及实践依据。对打破国外技术垄断，填补国内技术空白，降低信息化建设成本，提升公司科技实力，保障公司信息安全，开拓行业外市场等方面具有重要的作用和意义。具体包括：深度挖掘电力大数据应用场景，特别是关注不同种类典型系统在大数据环境下的典型问题及需求，为后续的典型业务改造及大数据应用建设提供技术支撑及实践依据；深化电网运营中的业务系统海量数据应用业务，通过大数据技术，突破原有系统的功能及业务瓶颈，解决原有业务系统的数据计算、查找、挖掘难题，大大扩展业务系统的功能范围，深化大数据应用业务；掌握电力大数据核心技术，特别

8、是能够应用到电网的高速存储、检索及流计算即时处理技术，获取自主知识产权，打破国外产品的技术垄断，填补国内空白；大力研究面向电力大数据的技术与应用，并在大数据存储、检索、流计算即时处理领域形成拥有公司自主知识产权的相关产品以及应用，有助于公司在海量数据处理领域中占据领先地位；作为新技术研究，促进公司基础软件研发能力的提升与公司整体科技实力的提高，有效推动我国基础软件领域的发展。442 国内外研究水平综述2.1 国内外研究水平自2011年5月麦肯锡在大数据：创新、竞争和生产力的下一个前沿领域中首次提出大数据概念以来，大数据受到信息服务提供商、各个行业、政府和国际组织越来越多的关注和投入，大数据

9、相关技术也蓬勃发展起来，得到越来越多的应用。从传统的IT企业来看，全球IT巨头纷纷把长期部署的海量数据设备、数据分析、商务智能等硬件、软件与服务以“大数据”这一概念推向战略前沿。实际上，近两年来，IBM、甲骨文、EMC、SAP等国际IT巨头已经花费超过15亿美元用于收购相关数据管理和分析厂商，以实现大数据领域的技术整合。电力大数据高速存储技术则采用可扩展的系统结构，利用多台存储服务器分担存储负荷，实现高速存储，并进行数据块的交叉冗余存储，实现数据的动态容错，相较于传统集中式存储系统而言，大大提高了系统的可靠性、可用性和扩展性。目前，基于分布式理论的成熟技术和产品已经大量涌现，特别大数据的飞速发

10、展中得到了广泛应用。其中，以数据存储规模来讲，以Google公司的分布式文件系统GFS（Google File System），开源项目Hadoop的分布式文件系统HDFS（Hadoop Distributed File System）为典型代表；国内则在国外开源项目的基础上，出现了以淘宝TFS（Taobao File System）为代表的国产分布式技术和产品；从数据存储效率来讲，瑞中数据自主知识产权的海迅实时数据库、Oracle的TimesTen内存数据库，具有极高的存储效率。应该说，大数据高速存储技术已经在实践中逐渐成熟，国内外基本处于同等研究和应用水平。电力大数据高速检索所涉及和涵盖的

11、技术范围非常广，涉及到了系统架构和算法设计等许多方面。可以说由于搜索引擎的出现，把互联网产品的技术水平提高到了一个新的高度；搜索引擎无论是在数据和系统规模，还是算法技术的研究应用深度上，都远超之前的简单互联网产品。虽然搜索引擎涉及的技术方方面面，但归结起来最关键的几点在于：大规模分布式系统，支撑大规模的数据处理容量和在线查询负载；数据处理和挖掘能力；搜索相关性排序，查询分析，分类等等。目前业界主要使用基于Lucene的开源搜索引擎，Apache Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。作为大数据检索技术的典型代表的搜索引擎，虽然在互联网行业已经得到了深入应用

12、，但在电力行业仍处于起步阶段，实际的电网应用仍未展开。电力大数据流计算即时处理主要针对数据分析类应用，其应用特征是：数据不宜用持久稳定关系建模，而适宜用瞬态数据流建模，由于数据分析时刷选条件多样性与多变性，使数据无法预算，所以只能通过后期的实时计算。目前流式计算是业界研究的一个热点，在国外近期Twitter、LinkedIn等公司相继开源了流式计算系统Storm、Kafka等，加上Yahoo!之前开源的S4，流式计算研究在互联网领域持续升温。不过流式计算并非最近几年才开始研究，传统行业像金融领域等很早就已经在使用流式计算系统，比较知名的有StreamBase、Borealis等，虽然没有一个类

13、似于Hadoop的集大成者，但是也都各具特色，值得我们学习和研究。国内方面，百度通用数据流计算系统DStream提供分布式的、高可靠的、高可用的、可伸缩的、可扩展的、易开发的流式计算服务；阿里巴巴的数据交换平台集中云计算（存储）的各项技术，利用各子公司数据仓库（平台）的运营，技术经验，以各子公司海量数据为资源。由此可见，基于大数据应用环境的高速存储、检索及实时流计算技术已在国内外业界初具规模，而随着智能电网建设的不断发展，数据处理规模日益海量，已经出现了数千万乃至上亿数据采集规模、PB级别以上数据存储的应用需求。目前以传统数据库为核心的软件体系架构，在数据规模、处理能力、流式计算、负载均衡、动

14、态自治等方面已无法适应这一需求，引入大数据相关技术是解决这一问题的关键，也是大势所趋。2.2 国网公司研究现状从数据基础上看，随着SG-186及SG-ERP的建设推进，公司构建了结构化数据中心、非结构化数据管理平台、海量历史/准实时数据管理平台、电网地理信息服务平台四大数据中心，积累了大量的数据资源，电网业务数据从总量和种类上都已颇具规模，具备了良好的数据基础，并初步实现了企业级数据资源整合及共享利用。结构化数据中心存储数据包括横向共享数据、纵向级数据、指标分析数据、主题分析数据、数据仓库数据、数据集市数据等，结构化数据中心数据存储量级达到TB级，年增长率约50%。非结构化数据管理平台存储数据

15、包括各种主流格式的办公文档、图片、XML、HTML、各类报表、图像和音频等，数据存储量级达到TB级。电网地理信息服务平台存储各省（自治区、直辖市）公司电网资源图形数据、属性数据、拓扑数据，存储量级达到PB级。海量历史/准实时数据管理平台正在全网推广，将完成调度SCADA、用电信息采集系统、输变电设备状态监测系统等系统海量历史/准实时数据接入，数据存储量级达到TB级。SG-ERP数据中心的建设，为大数据相关技术的应用及业务的拓展，奠定了数据基础，同时也反向推进大数据相关应用的成熟。从技术研究上看，公司就电网业务大数据需求进行了深度调研，形成了国家电网公司大数据应用研究报告、国家电网公司大数据建设

16、指导意见等一系列指导性意见文件。国网电力科学研究院，承担了2011年公司云计算、物联网技术研究框架的研究工作，在子课题“基于云计算的数据可靠存储研究”中对分布式存储理论和技术以及最新的分布式文件系统（HDFS、GFS、BIGTABLE等）等进行了深入的研究，形成研究报告；同时，还承担了2011年度公司科技项目“调度云体系架构研究”中体系架构、数据云、模型云和搜索云等子课题的研究工作，就分布式实时数据处理技术在国、网、省三级统一调度中的可行性、实现方式、部署架构等进行了深入的研究。公司前期已经在大数据领域进行了初步的探索，积累了宝贵的经验。综上所述，国家电网公司已步入大数据时代。大数据的“4V”特性，已在电网业务数据中凸显出来，业务发展对数据存储、处理、价值挖掘提出更高更紧迫的要求。2.3 分析与总结通过前两节

展开阅读全文

电力大数据高速存储、检索及流计算即时处理技术研究与应用-国网科技项目V.-.doc

最新文档