格力大大数据项目工作说明书

上传人:人*** 文档编号:499949659 上传时间:2023-08-16 格式:DOC 页数:13 大小:141.50KB
返回 下载 相关 举报
格力大大数据项目工作说明书_第1页
第1页 / 共13页
格力大大数据项目工作说明书_第2页
第2页 / 共13页
格力大大数据项目工作说明书_第3页
第3页 / 共13页
格力大大数据项目工作说明书_第4页
第4页 / 共13页
格力大大数据项目工作说明书_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《格力大大数据项目工作说明书》由会员分享,可在线阅读,更多相关《格力大大数据项目工作说明书(13页珍藏版)》请在金锄头文库上搜索。

1、word格力大数据项目工作说明书西塔网络科技股份二零一六年一月 / 1项目目标32建设与服务内容4需求调研与数据标准化4大数据根底平台搭建4数据采集4分层存储设计5数据加工处理5数据分析挖掘5内存数据库5交互式探查分析6数据可视化应用6语音智能分析6文本、视频、图片存储6大数据平台运维监控6大数据平台任务调度7ETL过程可视化7培训工作73建设方案84时间进度与里程碑85费用支付96需求变更过程9变更依据9变更请求处理流程97双方责任108项目组织架构129假定条件121 项目目标在某某格力电器股份的X围内,分期实现格力工业大数据平台项目的数据集成、连接、处理、分析、挖掘等相关功能。本期项目包

2、括设计、搭建大数据平台,接入商技一部、商技二部、计算机中心的销售订单等相关数据,实现设备故障诊断、故障预测、产品统计、实时查询、营销支持、智能搜索等功能。故障诊断的业务目标:大数据平台处理、分析商用空调运行时采集回传的工况数据,与时、准确定位运行故障并给出大致原因,为维护部门维修空调设备和系统提供信息支撑,降低故障定位的时间、X围和工作量,缩短停机时长并提高客户满意度、忠诚度。故障预测的业务目标:大数据平台利用数据挖掘、机器学习技术,通过学习业已存在的设备故障数据、信息,尤其是发生故障的前兆数据,归纳故障发生的特点、规律知识,并利用流计算相关技术与时发现潜在的故障与风险,与时预警,减少停机的次

3、数与停机时长。另外发现停机模式、规律可以进一步应用到产品设计、改良过程中。产品统计的业务目标:大数据平台利用集成的产品与销售数据进展统计分析,用于分析产品的销售情况,客户情况,销售规律、特点与变化趋势,用于指导产品的个性化设计与产品的推广销售。实时查询的业务目标:大数据平台利用New SQL存储技术存放设备数据,提供特定编号设备、一段时间内工况信息的实时查询功能,用于业务人员分析、判断特定设备在查询时间X围内的工作状态,总结、发现业务规律。营销支持的业务目标:大数据平台利用集成的产品与销售数据进展分析,发现其中先后、重复购置与交叉购置情况和规律,提醒、推荐客户购置特定的产品和服务,提高产品和服

4、务的销量。智能搜索的业务目标:大数据平台提供通过语音输入完成产品与销售数据的查询、统计与分析的功能。2 建设与服务内容以下所有内容基于1月19日版本的需求文档。详见格力大数据需求说明1.0文档,建设内容为基于Hadoop生态系统构建大数据平台,内容包括商用空调、家用空调、销售等历史数据的入库,ETL处理,数据仓库、离线计算、内存计算、实时计算、即席查询、可视化展示等内容。具体内容如下:2.1 需求调研与数据标准化包括功能商技一部、商技二部、销售、审计部门的需求调研、数据调研以与数据标准化。2.2 大数据根底平台搭建基于Hadoop搭建大数据平台,包括HDFS、MapReduce、HBase、H

5、ive、Spark,MySql集群。使用HDFS存储原始数据,供离线分析挖掘;使用Spark/MapReduce 执行离线任务;使用HBase做实时查询;使用Hive/Spark SQL 做数据仓库;使用MySql集群存储分析结果书,供上层应用查询。2.3 数据采集大数据采集包括非结构化数据、结构化数据的采集,非结构化数据采用FlumeNG 采集,Oracle/SQLServer/MySQL关系数据库中的结构化数据采用Sqoop收集。此外还有实时流数据采用分布式消息队列采集。Flume收集非结构化数据,Flume是一个高可用的,高可靠的,分布式的海量数据采集、聚合和传输的系统,Flume支持定

6、制各类数据发送方,用于收集数据;同时,Flume提供对数据进展简单处理,并写入到HDFS中。Sqoop收集结构化数据,Sqoop(发音:skup),主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql.)间进展数据的传递,可以将一个关系型数据库例如 : MySQL ,Oracle ,Postgres等中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hado

7、op任务来处理每个区块。实时数据处理,通过采集层数据通过消息队列组件Kafka接入到 Spark Streaming 里,Spark Streaming 实时处理后把结果存到Hbase或Mysql等关系数据库中供用户查询。2.4 分层存储设计通过将给定文件、数据集或应用程序的必需数据特征对数据进展分层存储设计,满足不同的应用场景。提供数据利用率与使用效率。将常用数据存储在高速设备上,而不太常用的数据存储在低速设备上。在宏观上,数据可以在不同的设备之间进展数据复制迁移,分层保存。2.5 数据加工处理对数据进展分析和加工。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。经过加工清洗后的数

8、据根据不同的数据类型,选择不同数据存储方式,可以存入HDFS供离线挖掘,或者存储到实时性高的MPP数据库进展统计分析。2.6 数据分析挖掘大数据分析系统以机器学习、数据挖掘等作为核心技术,构建于大数据管理系统和云计算平台之上。其中,大数据管理系统提供数据的存储与查询功能,云计算平台提供分布式并行计算服务。通过分布式计算与统计分析服务器访问大数据系统,实现KPI与报表统计分析服务。采用Spark MLlib做为数据挖掘和机器学习框架,MLlib是Spark的标准机器学习框架,MLlib相对于其他机器学习库包具有更加优异的性能或者更容易入门。 MLlib机器学习库具有完整的机器学习框架和各类别机器

9、学习算法,满足各种场合的需求。Mllib随着Spark版本一起发布和应用。本系统采用MLlib构建在Hadoop之上对大数据进展挖掘处理,实现故障诊断、故障预测、配件库存优化等深度挖掘。2.7 内存数据库内存数据库是将全部数据驻留内存的分析型数据库系统,采用内存计算技术,从根本上解决了数据仓库由于磁盘I/O导致的性能瓶颈问题,具有性能高、本钱低、灵活、可扩展等众多优良特性,尤其适合做为大数据的计算引擎、分析引擎使用。 把热点数据加载到内存数据库中,提供交互式探查分析、智能查询分析等功能。2.8 交互式探查分析基于内存数据库快速查询,使用明细数据,免去清洗、聚合过程,更快速地分析和揭露数据中蕴含

10、的问题,直接由业务人员使用,免去提需求、澄清、确认沟通环节,快速实现分析意图,提高了发现和解决问题的效率使用时可由全部数据快速过滤出关注的局部数据进展分析;关注数据的特征可进一步由明细数据刻画、佐证;可按需保存分析场景、导出明细数据付诸解决。优异的用户体验,以客户体验为中心设计,侧重易理解业务视角,选择、过滤、分析、易用平铺、图形操作、去除干扰功能隐藏、快速响应内存计算、增加趣味性改分档数。2.9 数据可视化应用提供通过实时查询、产品统计功能,不做个性化推送。2.10 语音智能分析大数据平台提供语言智能分析,通过录入语言,将语言转换为文本,并对文本进展分词和语义分析,提交到大数据平台完成产品产

11、品与销售数据的查询、统计与分析的功能。2.11 文本、视频、图片存储大数据平台增加文本、音视频、图片等非结构化数据的存储。2.12 大数据平台运维监控提供格力大数据平台管理、运维工具与说明,包括服务器和运维系统都正常运行,运维系统可以对集群所有物理机进展性能监控,包括但不限于以下指标:CPU使用率、内存使用率、硬盘利用率、网络流量、IO负载、系统负载均值、ETL监控、数据质量监控、等服务器性能指标进展监控。运维要考虑大数据平台的可扩展性,支持:1、 在线添加节点2、 服务扩展3、 组件的升级4、 异常处理: 挂了的节点如何恢复,记录日志方便追踪2.13 大数据平台任务调度任务调度系统能够对各类

12、任务进展配置、启动、跟踪。同时,应并具备任务联动能力,即可以将多个任务通过流程组装成一个联合任务,各任务之间存在相互制约关系,任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务,任务间允许并发与串行两种模式。要求各任务的配置应当为可视化的配置。对于任务启动至少包括定时启动和条件启动两种模式。同时允许管理员进展任务的手动执行。任务执行可设定优先级,比如按销售 技术 质量 售后(销售量大的 销售量小的生产检验来设定。2.14 ETL过程可视化 ETL尽量满足可配置性与可视化操作,如果甲方购置了第三方ETL可视化工具如kettle、Dataflow、Syncsoft等工具,乙方应支持甲方

13、做集成工作。2.15 培训工作从格力大数据平台未来的使用与运行来看,西塔提供的培训将达到如下的目标: 完成知识的转移承建单位开发完成一个软件系统后,将通过培训工作实现知识的转移,不仅包括软件系统的使用方法,同样还包括业务理念、系统运行维护方法、技术开发方法等满足系统未来业务拓展需要的各项技能与方法。 实现全员的应用应用系统的建设目标即要建设一个全员参与使用的系统,因此培训的目标之一,也是要使业务人员均可以熟练使用该系统,增强业务人员的知识储藏,提高整个使用应用系统的业务人员素质。 保障系统的安全运行对格力大数据平台的技术管理人员进展技术培训,使其能掌握有关软件产品与系统的使用、维护、管理,达到

14、能独立进展管理、故障处理、日常测试维护、个性化应用开发等工作目的,以保障西塔所提供的应用系统能够正常、安全地运行。通过以上培训使用户系统管理员能够独立完成平台的设置、管理、故障恢复、应急处理等,能够进展日常的数据库备份与恢复操作、能够独立处理常见突发事件与操作员提出的常见操作问题。3 建设方案详见格力大数据项目技术方案.docx。4 时间进度与里程碑格力工业大数据平台建设。项目工期要求:总工期10个月分3个阶段:里程碑阶段性成果与提交物时间月付款1.项目签约人员进场30%2.、根底平台搭建&业务模型设计数据调研报告、数据标准化文档需求规格说明书功能设计说明书220%3.业务需求开发ETL、业务

15、模型开发、大数据服务接口开发、大数据标准可视化系统开发、MPP内存数据库、交互式探查分析、智能语音搜索330%4.大数据管理系统大数据运维监控系统大数据任务管理系统大数据安全管理系统210%5.项目终验产品配置说明应用系统部署架构说明平台监控、维护说明310%5 费用支付以合同为准。6 需求变更过程6.1 变更依据1. 变更请求 除特殊紧急情况,只处理书面变更请求。2. 变更标准 当工作说明书中建设内容所说明的工作项因某种原因如实际业务变更、可实现性变更等发生增加、减少或变更时,认为变更发生。3. 变更申请样式详见需求变更申请表.docx。6.2 变更请求处理流程 客户项目经理将书面变更请求提交项目经理 项目经理与技术经理或软件架构师研究可行性 项目经理将研究结果与变更请求一同提交项目控制委员会审批 控制委员会将审批结果提交所有相关人 假如审批通过,项目经理n

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号