1314编号数据仓库建设方案

资源描述

《1314编号数据仓库建设方案》由会员分享，可在线阅读，更多相关《1314编号数据仓库建设方案（32页珍藏版）》请在金锄头文库上搜索。

1、第16/2016/DAF/SA 号公开招标方案建议书第第1章数据仓库建设章数据仓库建设 1.1 数据仓库总体架构数据仓库总体架构专家系统接收增购项目车辆 TCMS 或其他子系统通过车地通信传输的实时或离线数据，经过一系列综合诊断分析，以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施，为车辆的故障根因修复提供必要的支持。根据专家系统数据仓库建设目标，结合系统数据业务规范，包括数据采集频率、数据采集量等相关因素，设计专家系统数据仓库架构如下：数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容：数据

2、采集：负责从各业务自系统中汇集信息数据，系统支撑 Kafka、 Storm、 Flume 第16/2016/DAF/SA 号公开招标方案建议书及传统的 ETL 采集工具。数据存储：本系统提供 Hdfs、Hbase 及 RDBMS 相结合的存储模式，支持海量数据的分布式存储。数据分析：数据仓库体系支持传统的 OLAP 分析及基于 Spark 常规机器学习算法。数据服务总线：数据系统提供数据服务总线服务，实现对数据资源的统一管理和调度，并对外提供数据服务。 1.2 数据采集数据采集专家系统数据仓库数据采集包括两个部分内容：外部数据汇集、内部各层数据的提取与加载。外部数据

3、汇集是指从 TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层（ODS）；内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1 外部数据汇集外部数据汇集专家数据仓库数据源包括列车监控与检测系统（TCMS）、车载子系统等相关子系统，数据采集的内容分为实时数据采集和定时数据采集两大类，实时数据采集主要对于各项检测指标数据；非实时采集包括日检修数据等。根据项目信息汇集要求，列车指标信息采集具有采集数据量大，采集频率高的特点，考虑到系统后期的扩展，因此在数据数据采集方面，要求采集体系支持高吞吐量、高频率、海量数据采集，同时系统应该灵

4、活可配置，可根据业务的需要进行灵活配置横向扩展。本方案在数据采集架构采用 Flume+Kafka+Storm 的组合架构，采用 Flume 和 ETL 工具作为 Kafka 的 Producer，采用 Storm 作为 Kafka 的 Consumer，Storm 可实现对海量数据的实时处理，及时对问题指标进行预警。具体采集系统技术结构图如下: 第16/2016/DAF/SA 号公开招标方案建议书 1.2.1.1数据汇集架构功能数据汇集架构功能 Flume 提供了从 console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、 syslo

5、g(syslog 日志系统，支持 TCP 和 UDP 等 2 种模式)，exec(命令执行)等数据源上收集数据的能力。 Flume 的数据接受方，可以是 console(控制台)、 text(文件)、 dfs(HDFS 文件)、RPC(Thrift-RPC)和 syslogTCP(TCP syslog 日志系统)等。在我们系统中由 kafka 来接收。 Kafka 分布式消息队列，支撑系统性能横向扩展，通过增加 broker 来提高系统的性能。 Storm 流处理技术，支撑Supervisor 横向扩展以提高系统的扩展性和数据处理的实时性。 1.2.1.2采集架构优势采集架构优势 (一

6、)解耦解耦在项目中要平衡数据的汇集与数据的处理性能平衡，是极其困难的。消息队列在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。冗余冗余第16/2016/DAF/SA 号公开招标方案建议书有些情况下，处理数据的过程会失败。除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。在被许多消息队列所采用的“插入-获取-删除”范式中，在把一个消息从队列中删除之前，需要你的处理过程明确的指出该消息已经被处理完毕，确保你的

7、数据被安全的保存直到你使用完毕。扩展性扩展性因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的；只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。灵活性灵活性第二极端为从这些高频项目组产生关联规则。推荐算法推荐算法是目前业界非常火的一种算法，在电商界，如亚马逊，天猫，京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西，从而增加购买率，提升效益。神经网络模型神经网络模型，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征

8、的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型;第二类是用于联想记忆和优化算法的反馈式神经网络模型。第三类是用于聚类的自组织映射方法。 Adaboost 算法其核心思想是针对同一个训练集，训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最

9、后融合起来，作为最后的决策第16/2016/DAF/SA 号公开招标方案建议书分类器。深度学习深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天，深度学习试图建立大得多也复杂得多的神经网络，用来处理存在少量未标识数据的大数据集。 1.6 数据资源管理数据资源管理专家系统数据具有数据量大、数据类别多、数据关联关系紧密等特点，随着数据的积累，数据资源的利用价值逐步体现，提高数据的管理，是对数据资源充分利用的前提条件。数据资源管了包括如下几部分内容：数据标准化管理、数据监测管理及元数据管理等。 1.6.1 数据标准管理数据标准管理汇集整理数据资源管理所需的标准规范

10、信息，建立数据标准数据库。利用专家系统数据标准管理系统的接口同步更新标准信息。包括数据元标准以及信息代码标准。 1.建设数据资源库，实现专家系统发布标准数据元与本地扩展数据元标准的汇集。实现与车辆检修等数据源管理系统接口对接。 2.建设信息代码资源库，梳理国标、部标和本省定义的标准代码以及各业务信息系统需要使用的其它代码，建立字典代码实体数据库。应具备字典代码定期同步功能。并建设信息代码在线映射维护功能，以便对数据标准化转换提供支持。 1.6.2 数据监控管理数据监控管理大数据运行监控通过对大数据资源库相关服务器、Oracle 数据库、分布式存储系统、Hadoop 平台等的

11、运行状态、性能指标以及数据更新情况进行持续监控，及时发现存在的问题及隐患，辅助系统管理员及时采取措施，提高大数据资源库的运第16/2016/DAF/SA 号公开招标方案建议书行可靠性，保障大数据资源库稳定高效运行。发现异常问题时通过短信、邮件等方式通知系统管理员及时处理，实现通过自动、智能、持续的自动监控预警代替人工巡检，降低运维工作量，提高运维效率。通过可视化图表对监控结果进行统计分析直观展现平台运行各类运行指标，辅助管理员从宏观角度掌握平台运行情况。性能指标监控性能指标监控可以对服务器 CPU 负载、Oracle 数据库连接数、分布式存储 IO 负载、Hadoop 负载等各

12、类性能相关指标进行监控，以便掌握平台负载情况，及时发现性能问题，辅助平台优化。大数据库日志监控大数据库日志监控自动采集大数据相关组件运行日志，并根据既定规则进行分析，发现异常及时告警。提供日志查询检索功能，可以按组件类型、时间、关键字等进行过滤。数据量监控数据量监控数据量监控通过对数据总量以及增量进行定期监控，可以掌握数据量变化情况，也可以从数据增量角度发现数据入库异常。数据量监测结果可同步到数据台帐，以便数据台帐统计数据总量情况。 1.6.3 元数据管理元数据管理元数据是数据仓库中存储的基本单元，实现对元数据的管理，数据仓库的最基本功能之一。元数据管理包括元数

13、据注册登记、元数据存储、元数据建模等多方面功能。 1.7 数据服务数据服务大数据平台开放存储访问接口，提供基于 Hadoop 技术体系的 HDFS、HBase 访问接口，以 OpenAPI 的方式，为应用提供大数据存储服务。数据服务层主要由数据服务总线来建设，主要负责将大数据平台的能力接口注册进去，再以标准化接口开放给应用系统使用，支持多种协议转换、服务质量控第16/2016/DAF/SA 号公开招标方案建议书制、访问控制、规则引擎等。数据服务层将大数据平台的数据服务能力开放出去，供第三方平台使用。如上图：应用服务系统使用服务接口，来接入数据服务总线，经过数据服务总线的接入

14、端点，进行过滤。同时根据访问控制、服务质量、协议转换、策略调度、规则引擎的处理，接出到大数据平台的能力接口。第第2章大数据平台章大数据平台 2.1 大数据平台基础架构大数据平台基础架构大数据基础平台基于烽火自主知识产权 FitData 产品，FitData 主要集成了基础计算资源、网络资源、存储资源，在统一的安全体管理体系下，将这些资源再进行深度加工、处理、关联，形成多种类型的基础服务能力，构建基础资源层，向应用提供基础资源的服务能力。数据服务总线通过服务治理来维护基础资源服务能力，并通过访问控制、服务质量、协议转换等，对应用提供多协议支持。平台支撑体第16/2016/D

15、AF/SA 号公开招标方案建议书系的运维体系提供整体运维能力，保障平台的正常运行；安全体系提供整体安全能力，保障平台的数据安全和使用安全；平台采用分布式架构，支持巨量数据存储与分析，保障专家管理系统的高性能、高可用性和易扩展性。FitData 大数据基础平台结构如下图红线标出部分。车辆故障诊断车辆健康评估车辆指标检测报警车辆检修预案车辆对比分析其他大大数数据据应应用用大大数数据据处处理理平平台台安装部署集群管理主机管理用户管理服务管理监控预警版本管理主数据仓库数据库 MPP 运运维维管管理理数数据据计计算算/存存储储非非结结构构化化/半半

16、结结构构化化数数据据标标准准化化数数据据结结构构化化数数据据数数据据抽抽取取、转转换换、清清洗洗、加加载载 E ET TL L工工具具 K Ke et tt tl le e 日日志志采采集集 F Fl lu um me e 关关系系数数据据库库连连接接 S Sq qo oo op p 分分布布式式消消息息 k ka af fk ka a 批批量量采采集集数数据据源源实实时时采采集集故故障障信信息息数数据据指指标标信信息息数数据据能能耗耗信信息息数数据据车车辆辆部部件件知知识识数数据据 H Ha ad do oo op p h hd df fs s( (分分布布式式集集群群） Y Ya ar rn n( (计计算算资资源源管管理理） H Hb ba as se e ( (数数据据库库）离离线线计计算算 M Ma ap pR Re ed du uc ce e 内内存存计计算算 S Sp pa ar rk k 实实时时计计算算 S St to or rm m 多多维维分分析析机机器器学学习习数数据据挖挖掘掘数数据据共共享享数数据据检检

展开阅读全文