基于hadoop平台的地铁ncc数据中心方案研究

上传人:小** 文档编号:34130691 上传时间:2018-02-21 格式:DOC 页数:9 大小:99KB
返回 下载 相关 举报
基于hadoop平台的地铁ncc数据中心方案研究_第1页
第1页 / 共9页
基于hadoop平台的地铁ncc数据中心方案研究_第2页
第2页 / 共9页
基于hadoop平台的地铁ncc数据中心方案研究_第3页
第3页 / 共9页
基于hadoop平台的地铁ncc数据中心方案研究_第4页
第4页 / 共9页
基于hadoop平台的地铁ncc数据中心方案研究_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《基于hadoop平台的地铁ncc数据中心方案研究》由会员分享,可在线阅读,更多相关《基于hadoop平台的地铁ncc数据中心方案研究(9页珍藏版)》请在金锄头文库上搜索。

1、基于 Hadoop 平台的地铁 NCC 数据中心方案研究 朱东升 徐石明 李天阳 叶剑斌 王玉祥 南瑞集团公司(国网电力科学研究院) 国电南瑞科技股份有限公司 江苏祥华科技有限公司 摘 要: 线网指挥中心是地铁管理控制中的承上启下的重要环节, 接入线网各线路的控制中心, 实时的监测线网整体的运营状况;并通过与上级政府交通管理部门系统的对接, 将相关数据提交至交通管理系统, 配合交通管理部门的工作;数据中心是线网指挥中心的核心环节, 存储线网所有线路的生产数据和业务数据;目前线网指挥中心的数据中心都是基于传统的数据仓库的架构来创建的, 而随着线路的不断增多, 数据的种类和数量都在不断增加, 传统

2、数仓暴露出成本高, 扩容难, 维护困难的缺点;该方案提出的基于 Hadoop 大数据平台的数据中心建设方案, 极大地降低了使用和维护成本, Hadoop 生态圈包含了各类的组件模块, 能够解决建设和使用中遇到的各类问题, 提高了数据中心的性能。关键词: 大数据; Hadoop; 线网指挥中心; 作者简介:朱东升 (1987-) , 男, 硕士, 工程师, 主要从事电力系统及其自动化, 轨道交通电气化及自动化, WEB 前后台框架方向的研究。收稿日期:2017-05-17Research of Hadoop Platform for Metro Data Center ConstructionZ

3、hu Dongsheng Xu Shiming Li Tianyang Ye Jianbin Wang Yuxiang NARI Group Corporation (State Grid Electric Power Research Institute) ; Jiangsu Xiang Hua Technology Co., Ltd.; Abstract: The network control center, which access to the line operation control center, plays an important role in the metro ma

4、nagement and control by the way of real time monitoring the overall operation status of the metro network.And also submit the relevant data to the traffic management system so as to coordinate with the work of the government traffic management department.The data center, which stores the overall net

5、work production data and business data, is the core of the network control center.At present, the data center of the network control center constructed based on the traditional data warehouse architecture.With the number of the line and data increasing, the traditional warehouse exposed high cost, d

6、ifficult expansion and maintenance and other shortcomings.This paper proposes the data center construction scheme based on the Hadoop big data platform, which greatly reduces the use and maintenance costs.The Hadoop ecosystem contains various modules, can solve all kinds of problems encountered in t

7、he construction and use of the data center, as the result, improves the performance of data center.Keyword: bigdata; Hadoop; netwotk control center; Received: 2017-05-170 引言随着国内地铁投资规模的不断扩大, 各大城市的地铁规模已逐步形成网络化的趋势, 新的业务需求也随之产生, 地铁运营管理也日益复杂, 建设线网层级的指挥中心已成为各大地铁城市的迫切需求。北京是国内最早建设线网指挥中心的城市, 线网指挥中心负责协调各运营主体,

8、 具有监视, 运行协调, 应急指挥, 信息共享的功能, 但由于定位和功能不够清晰, 系统功能也有不成熟的地方, 后续北京又进行了二期工程建设, 进行了系统扩容, 其中基于 teradata 的数据仓库建设的数据中心, 是数据仓库在国内地铁线网指挥中心的首次应用。广州, 深圳也进行了线网指挥中心工程的建设, 两者都利用了数据仓库建设了线网层级的数据中心, 实现生产管理指标分析和运营评估功能。南京, 成都, 西安等城市的线网指挥中心的建设方案中也包含了数据中心的建设。可见, 数据中心已经成为各大地铁城市建设线网指挥中心的重要环节。但由于数据仓库价格昂贵, 数据容量限制等因素, 地铁建设与运营方也在

9、寻找一种新的价格低廉, 扩容方便, 性能稳定的技术代替数据仓库。本文介绍一种基于 Hadoop 大数据平台的数据中心建设方案, 实现了如计算、分析、展示及存储等基础服务和相应的指标查询, 客流分析等专业服务。1 线网指挥中心数据流及原理本方案中, 线网指挥中心由数据源, 数据接口平台, ETL 统一管理平台, 数据平台, 应用层组成。数据源系统的数据经过数据接口平台汇总, ETL 工具将数据清洗, 并转成统一的模型存储到数据平台层, 数据平台层根据应用层的需求建立数据集市, 并通过 API, SQL 等多种方式提供数据给应用层。线网指挥中心数据流如图 1 所示。数据接口平台采集 PSCADA,

10、 BAS, FAS, PSD, ATS 等专业的数据, 通过 ETL 平台按照业务类型存储到实时数据库和数据中心。实时数据库采用 Redis 等内存数据库, 实时的存储数据源系统的的当前断面数据。数据中心是基于 Hadoop 大数据平台的架构建造的, 是地铁线网指挥中心的核心部分。数据中心存储线网海量的设备状态, 行车状态及客流等生产数据和相关办公系统产生的业务数据, 提供并行的计算和非结构化数据的处理能力, 实现低成本的存储和低时延、高并发的查询能力, 并通过对数据的深入挖掘和分析, 建成相应的数据集市, 统一地对外部应用提供数据服务。应用层中监察类的应用如行车监察, 设备监察, 供电监察,

11、 客流监察等功能的数据来源于实时数据库, 统计指标类如运营指标, 统计分析, 运营评估等应用的数据来源于数据中心。图 1 线网指挥中心数据流 下载原图2 数据中心设计数据中心是建设地铁 NCC 系统的核心, 是相关业务系统的数据来源, 必须具有很强的数据采集, 存储, 开发, 管理和分析能力。数据中心主要由实时数据处理模块和历史数据处理模块两部分组成:实时类数据处理模块采集, 计算, 存储设备的当前状态数据, 并根据应用层的要求提高各类接口服务供外部应用调用。历史数据处理模块存储, 分析设备的历史状态信息, 按照对应的指标体系为指标分析提供服务, 针对历史数据处理模块存储的未经处理的设备状态数

12、据, 通过数据挖掘分析工具, 预测设备的健康状态, 为维保人员的设备预防性维修提供依据, 提高设备使用率和运营安全性。2.1 实时数据处理实时数据包括设备的实时状态数据, 各类报警数据等, 主要为实时监察类系统提供数据服务。按照功能模块划分, 实时数据经过“数据采集数据接入数据分析计算数据输出/存储”几个环节, 提供给应用层使用。具体功能模块采用如图 2 组件实现。实时数据通过 http 的方式发送给 flume 集群, flume 集群中配置 http source获取实时数据, 并通过两级高可用的 flume 集群将数据转发给 kafka 集群中, 解决了采集与计算速度不一致的问题。Sto

13、rm 获取 kafka 传递过来的数据并分发给 storm 计算节点计算, 最终结果存放在 redis 中供外部应用程序使用。2.1.1 实时数据采集NCC 数据中心实时数据采集模块, 通过配置需获取的实时数据的专业, 类型等信息, 被动的接受数据源系统的数据, 数据源系统一旦设备状态数据发生变化, 立即发送给 NCC 数据中心实时数据处理模块, 保证了实时数据的及时性。数据采集模块负责从数据源系统采集数据, 使用 Flume 实现。Flume 是一种分布式, 可靠且高可用的海量日志采集, 聚合和传输系统。Flume 灵活简易的架构是基于处理流数据而创建的, 具有容错可调的可靠性和故障转移和恢

14、复的鲁棒性。Flume 使用一个简单的可扩展数据模型, 允许应用程序在线分析。2.1.2 实时数据接入数据采集模块使用 kafka 消息中间件来显示, kafka 接受 flume 发送的数据并输出给 storm, 解决了 flume 数据采集与 storm 数据处理速度不一致的问题。Kafka 是一种分布式的, 基于发布/订阅的消息系统, 提供消息持久化能力, 即使对 TB 级别以上的数据也能保证访问性能。Kafka 在主题中保存消息的信息, 生产者向主题中保存数据, 消费者从主体中读取数据。2.1.3 实时数据分析计算数据分析计算模块使用 storm 组件实现, storm 是一个分布式,

15、 容错性好的实时计算系统。支持 Java, ruby, python 等多语言编程并支持扩展。Storm 具有极高的容错性和水平扩展性, 可靠的消息处理机制保证了每个消息都能得到一次完整的处理, 使用的MQ 作为其底层消息队列保证了消息能够得到快速处理。2.1.4 实时数据存储实时数据主要提供给外部监察类应用使用, NCC 系统中实时数据存储采用 json格式, 数据示例为“TagName:Value”。其中 TagName 包含设备的专业, 站点, 点号等信息。Value 中存储了设备的值和状态信息。根据数据的格式和特点, 实时数据采用 redis 这类 key-value 存储系统来实现。

16、Redis 是一种高性能的key-value 内存数据库, 提供了 java, c+, python 等客户端和编程接口, 方便系统开发, 扩大系统的兼容性。2.2 历史数据处理历史数据包含线网所有设备的历史状态数据, 客流数据等, 是数据中心的核心。历史数据经过预处理, 建索引, 按照主题存储, 并通过指标体系的建立, 业务主题分析和统一的业务视图, 最终为外部应用提供数据服务。地铁运营需根据数据中心产生的统计分析报表获取线网地铁运营状况, 客流分布, 并为地铁运行时刻表的编制提供理论依据。后续利用 BI 工具及复杂的算法, 通过对数据的深入挖掘, 改善地铁运营的现状, 实现运营, 维保的系统管理。历史数据处理流程及所用组件如图 3 所示。图 2 实时数据流 下载原图图 3 历史数据流 下载原图2.2.1 历史数据采集本方案实现了三种数据采集方式, 包括导出文本文件的方式, 运行 T+1 的定时任务将数据源系统数据以文本文件的形式导出到高可用网络附属存储设备中, flume 采取批量的方式将数据写入到 hdfs 中;

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号