数据治理能力

上传人:夏** 文档编号:557402893 上传时间:2023-11-20 格式:DOCX 页数:9 大小:87.73KB
返回 下载 相关 举报
数据治理能力_第1页
第1页 / 共9页
数据治理能力_第2页
第2页 / 共9页
数据治理能力_第3页
第3页 / 共9页
数据治理能力_第4页
第4页 / 共9页
数据治理能力_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《数据治理能力》由会员分享,可在线阅读,更多相关《数据治理能力(9页珍藏版)》请在金锄头文库上搜索。

1、数据治理能力提升第一章 综述1.1数据治理能力提升项目介绍数据能力治理提升致力打造一个将非结构数据通过计算模型转换成结构化用数据,于可视化图表展示的云服务,将隐藏在数据中的信息直观展现于用户面前。使用该平台可以使用户或者技术人员通过可视化配置的方式快速制作模-| 型表、,节省人员工作量、减少人员数量投入,在无需修改底层代码的情况下能,完成数据计算、分析及展示。极 大的提升开发效率、数据的价值应用和管理1.2 Spark算法平台介绍数据能力治理提升中对数据中心的原始数据进行算法计算的部分成为rk算法 平台,通过Spa rk集群的处理,将不同的算法运行到集群JS过增加机器的方式可 以横向扩展算法的

2、性能动。态的调整算法使用的资源大小并,通过集群监控软件对各任 务的处理情况进行查看。1.3 Spark算法平台组成spark集群由4台机器组成其中三台为计算节点master节点为HA高可用节点, 并搭建了一系列系统监控及管理应用。第二章 Spark 算法平台的优势2.1集群扩展性1. 算法平台是完全可扩展的解决方案。并通过机器的扩展、可以方便的扩充算法 的性能。对称多处理系统CPU个数.t系统性能理想系统”桑群系统图1. 几种计算机系统的可扩展性2. 原算法运行为单机运行,只能通过增加机器性能或者对称多处理系统来提高性 能,这种提高性能的方式见图一,无法达到集群处理的线性增长。2.2集群高可用

3、性1. 算法平台可解决系统硬件问题由,原来的单机改为集群运行可,解决所有的服 务器硬件故障,当某一台服务器出现任何故障如:更盘、内存、cpu、主板、 I/O板以及电源故障运行在这台服务器上的算法就会切换到其它的服务器上。2. 算法平台可解决软件系统问题在,计算机系统中,用户所使用的是应用程序和数据,而应用系统运行在操作系统之上,操作系统又运行在服务器上。这样, 只要应用系统、操作系统、服务器三者中的任何一个出现故障系,统实际上就 停止了向客户端提供服务比,如我们常见的软件死机就,是这种情况之一,尽 管服务器硬件完好,但服务器仍旧不能向客户端提供服务而。算法平台的最大 优势在于对故障服务器的监控

4、是基于应用的也,就是说,只要服务器的算法停 止运行,其它的相关服务器就会接管这个应用而,不必理会应用停止运行的原 因是什么。3. 算法平台可以解决人为失误造成的应用系统停止工作的情例况如,当管理员 对某台服务器操作不当导致该服务器停机因,此运行在这台服务器上的应用系 统也就停止了运行。由于集群是对应用进行监控因,此其它的相关服务器就会 接管这个应用。2.3多算法并发1. 没有依赖关系的算法可以并行执行,缩短算法运算时间,提高服务器资源的使 用。2. 有依赖关系的算法可以串行可以通过web页面进行手动配置组合方便算法 流程的修改。2.4 spark任务调度1. 可以自动分配集群资源,保证各节点的

5、资源合理2.可以通过web页面查看资源使用情况,方便系统运维2.5 spark任务失败重试与黑名单机制1. spark会选择合适的任务调度运行,并且监控任务的执行状态任务被提交启动执 行后,执行过程中会将执行状态上报给调度程序的后端,调度程序的后端则告诉任 务调度,可以得到任务的失败与成功状态f于失败的任务会记录它失败的次数, 如果失败次数还没有超过最大重试次数,那么就把它放回待调度的任务池中,否则 整个Applicatio佚败。在记录任务失败次数过程中会记录它上一次失败所在的位置,这样下次再调度这个任务时,会使用黑名单机制,避免它被调度到上一次失败 的节点上,起到一定的容错作用。2. 任务首

6、先会统计成功的任务数,当成功Task数超过75%何通过参数控制时,再 统计所有成功的任务的运行时间,得到一个中位数,用这个中位数1乘.5(以可通过 参数控制)得到运行时间门限,如果在运行的任务的运行时间超过这个门限,则认 为子任务出现问题时(包括执行时间过长,子任务异常停,止会)重新执行该子任务(如下图)。2.6资源动态配置1. 可以创建不同的任务队列,通过修改任务执行的队列,使不同的任务执行时可 以使用不同的服务器资源。2. 可以对每个队列使用的资源进行动态配置,方便给不同需求的数据不同的算法 计算和处理速度。3. 可以动态的配置算法资源文件输入路径,输出路径,应对不同情况的业务需求2.7算

7、法扩展性1. 算法平台已经定义好了输入和输出结构当,有新增算法时通,过对算法的包装, 增加算法的输入输出路径,及其他参数,可以将快捷的增减算法。2. 可视化后台添加算法启动脚本,便捷的增减算法2.8算法可视化1. 通过web页面方式可以方便快捷的进行算法的顺序改变2. 通过web页面方式可以查看失败的位置,及其执行的位置第三章 Spark 算法测试数据3.1 测试结果1. 以下测试算法为:文本分类算法2. 服务器配置:6C + 128G + 4T3. 服务器系统CentOS 7.24. 单机运行为一台上述配置的服务器参,照数据中心启动了12个线程测试,运行过程中CPU满载5. 集群运行为上述配置的两台服务器200w数据运行结果文件大小4.9G :第一次200W数据第二次200W数据第三次200W数据spa rk集群运行3min 21sec3min 17sec3min 25sec单机运行5 min 20 sec6 min 07 sec6 min 04 sec10O0W数据运行结果文件大小23G :第一次1000W数据第二次1000W数据第三次1000W数据spa rk集群运行9min 41 sec10min 13 sec10min 14 sec单机运行29 min 20sec29 min 30 sec30 min 12 sec

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号