大数据平台技术方案.docx

上传人:marr****208 文档编号:132234992 上传时间:2020-05-13 格式:DOCX 页数:112 大小:4.87MB
返回 下载 相关 举报
大数据平台技术方案.docx_第1页
第1页 / 共112页
大数据平台技术方案.docx_第2页
第2页 / 共112页
大数据平台技术方案.docx_第3页
第3页 / 共112页
大数据平台技术方案.docx_第4页
第4页 / 共112页
大数据平台技术方案.docx_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《大数据平台技术方案.docx》由会员分享,可在线阅读,更多相关《大数据平台技术方案.docx(112页珍藏版)》请在金锄头文库上搜索。

1、大数据平台技术方案目 录大数据平台技术方案14.1.需求概述54.1.1.背景概述54.1.2.建设目标54.1.3.需求理解64.1.4.面临挑战74.1.5.设计原则84.2.总体技术方案104.2.1.软件架构104.2.2.总体技术架构设计114.2.3.功能组件完整性介绍144.2.4.架构优化设计644.2.5.功能优势说明684.2.6.集群规划684.3.系统基本功能点764.3.1.的发展紧随Apache社区764.3.2.集群内所有组件的管理节点均实现HA774.3.3.提供完全基于WEB图形化的集群服务器角色,配置和状态管理774.3.4.集群支持线性扩展774.3.5.

2、100%兼容标准SQL92784.3.6.支持分布式文件系统HDFS和HBase等主流数据库804.3.7.支持多种计算执行引擎814.3.8.支持异构数据库关联查询864.3.9.支持大部分的机器学习和数据挖掘算法874.3.10.支持图形化ETL874.3.11.同时支持Solr和ElasticSearch884.3.12.支持各种类型的数据894.3.13.支持多租户894.3.14.支持支持分布式存储数据加密904.3.15.支持记录操作日志留存904.3.16.支持自适应压缩算法914.3.17.SQL支持各类函数914.3.18.具备可视化分析能力934.3.19.支持建立OLAP

3、 Cube944.3.20.支持数据预警功能944.3.21.支持多种数据类型的文件加载到大数据平台944.3.22.支持复杂模型建模964.3.23.数据上载速度快984.3.24.SQL性能好1014.3.25.朴素贝叶斯分类性能好1024.4.数据库功能支持1034.4.1.开发及应用接口1034.4.2.SQL语法兼容性1044.4.3.生命周期管理功能1064.4.4.表分区功能1064.4.5.表压缩功能1074.4.6.大表索引管理1074.4.7.数据导入与导出1074.4.8.多级数据存储1084.4.9.半结构化与非结构化数据支持1084.5.安全可靠与运维能力1094.6

4、.资源管理1094.7.系统容错性1104.8.系统可靠性1114.8.1.单点故障消除1114.8.2.容灾与备份1124.8.3.在线扩容1121.2.3.4.4.1. 需求概述4.1.1. 背景概述近年来,大数据相关技术发展迅速,大数据技术越来越成熟,已经有越来越多的企事业单位通过大数据技术为来创造更多的价值的同时,也为企事业单位带来了更高的性价比、和更易于扩展的超大规模数据处理能力。基于大数据平台技术,整合现有人口数据,接入公安的舆情数据,搭建处理能力更强,更易于扩展,性能更高的统一数据平台。不仅可以很好的满足高计算、高存储、高负载的要求,更能够对海量的数据进行数据存储、清洗、加工、建

5、模等,把先前无法利用的数据充分利用,提升对数据的认识,抓住机遇为华西医院平台建设做好最基础、最扎实的工作。4.1.2. 建设目标全市人口基础数据库大数据平台系统需要建设成为一个是一个高可靠性、高安全性、高性能、高可扩展性、高灵活性的先进系统,用来存储、管理、检索、分析、查询等操作,系统能够提供灵活应用提供可靠、安全、高效的保障,并能够为灵活的建立多种应用提供强大开发支持。系统需要提供对数据仓库类应用的支持,提供对数据分析、数据挖掘类应用的支持,能够存储、查询、分析海量全市公安局的历史数据,提供实时数据计算模块,提供并行分析算法包,可以替代传统数据库系统的大数据管理软件系统、大规模并行数据挖掘软

6、件工具包、R语言业务建模可视化工具、流式计算软件工具包、数据复制与资源管理等支持类软件工具包。 全市人口建设的大数据应用平台项目,要实现的具体业务目标为海量数据的低成本高效存储、加工、使用。支持各类结构化、半结构化、非结构化海量数据的低成本存储,快速批处理加工,各应用系统的在线数据查询、统计分析、数据挖掘等需求;为超长时间的海量历史数据存储和使用提供技术基础设施。支持将人口、环境、教育等数据导入导数据平台。同时必须支持蒙古文相关数据的分析、处理。 支持移动互联渠道场景的高并发低延时数据服务需求银行在移动互联渠道提供的客户服务逐渐丰富,客户点击流量增长快速,客户的体验要求也在提高。大数据基础软件

7、应能较好地支持移动互联业务场景高并发低延时的数据访问需求,包括通过流式计算框架对客户个性化场景营销、实时风险监测、银行流动性风险实时预警等需求实现提供技术平台支持。 支持业务数据分析团队自主数据探索和业务建模通过良好可视化支持的集成工具软件,业务数据分析团队可编写简易的R语言数据处理和可视化程序,自主探索分析业务数据,利用机器学习算法对业务数据建模和验证,利用成熟的量化模型算法支持更科学的经营决策。 建立人口与环境、教育等社会资源的模型,进行深度数据挖掘。 软件相关支持服务为更好发挥大数据平台的技术优势,同时确保系统平稳安全运行,需要提供现场和非现场形式的产品业务培训和技术培训、运维支持、产品

8、缺陷修复和产品升级、大数据技术架构咨询、应用开发指导等关联支持服务。将利用在行业内积累的的丰富经验,以及在大数据平台技术的积累的深厚的实力,协助华西医院建设以大数据技术为基础,融合开发、测试、生产的统一平台,利用大数据技术解决现有传统架构下面临的的计算瓶颈、存储压力、扩展问题、以及应用限制等问题。4.1.3. 需求理解通过对华西医院基础软件及服务建设需求的分析,以及我们对数据应用的理解,我们总结了如下数据应用和相关流程:1. 华西医院基础软件及服务数据处理平台是一个高可靠、高稳定、高安全、高性能、高可扩展、高易用性的基础数据存储、分析、管理、计算平台。2. 平台将完成现有数据仓库类业务,另外也

9、将完成历史数据存储、查询、分析类的应用。3. 数据处理平台需要定期、批量的接受公安局内部和外部各类系统所产生的数据,以批量的方式将数据插入至数据处理平台,插入数据后进行数据清洗、数据转换、数据格式统一、数据入库等操作。4. 数据处理平台也可能会定期从其他现有系统中抽取部分业务数据至平台中,为后期综合分析准备数据。5. 数据处理平台准备好数据后,将通过SQL、R语言等方式对数据处理平台中的数据进行数学分析、数据挖掘和机器学习,并将结果快速显示出来,尤其是对人口与环境、教育等社会资源的模型进行分析,进行数据深度挖掘和分析。数据处理平台对SQL支持的完整程度将是选择平台的重要考虑之一。对SQL 20

10、03标准的完整支持,包括对各种数据类型的支持,对各种复杂连接查询的支持,对相关子查询、嵌套子查询的支持、对操作符、函数的完整支持,会使得后期在数据处理平台的应用开发变得非常方便、并且平台将方便的与现有平台、现有应用进行对接,同时上层通过SQL完成的应用,通过JDBC/ODBC接口连接的应用可以不用做任何修改,这是数据处理平台对基础应用支撑。6. 需要对数据处理平台的数据进行建模,以完成相关业务模型操作和计算。7. 数据处理平台需要支持数据分析、数据挖掘、机器学习算法。平台需要提供对R语言和Python的支持,能够使用R语言所提供的5千多种算法,可以通过算法灵活的对数据进行分析和挖掘,提供对业务

11、有价值的结果。8. 数据处理平台需要提供通用的应用接口,以方便与现有应用、现有系统进行对接,完成系统集成。4.1.4. 面临挑战华西医院的数据增长迅速,已经达到TB级别,如果加上非结构化数据,未来几年的数据存储将达到几十TB,甚至上百TB的数据量级别,如何对这些海量历史数据资产进行有效的存储、管理、整合,并在此基础上进行快速共享、计算、分析,最终达到对业务的有效知道是本系统的建设关键。在华西医院项目基础软件及服务建设过程中,主要会面临以下挑战: 扩展性:当数据量达到一定限度之后,无论是数据存储、分析、查询,都会受到极大的限制,系统的横向扩展性的能力将是系统建设的重要考量之一。价格: 系统的横向

12、扩展,必然会带来软件、硬件成本的增加,以及后期升级、维护、扩展的成本的投入也是系统扩展面临的挑战。性能:数据动辄几十TB、甚至上百TB,面对如此海量的数据,若要进行高效的计算、分析,为业务提供有效的指导,必须要满足业务允许的时间要求。平台的易用性:华西医院项目基础软件及服务的数据处理平台易用性也是系统建设的关键问题,能否提供一个可简单、方便为上层应用使用的平台,或者可以将现有应用方便迁移到新建设的华西医院项目基础软件及服务数据处理平台也是面临的挑战。平台的易用性将直接影响到平台的建设、应用的建设,将直接影响工作成本。4.1.5. 设计原则系统在设计过程中除考虑满足当前项目建设要求外,还应当满足

13、后续系统平滑扩展升级要求,因此总方案设计遵循如下设计原则。 开放性引入业界开放的、成熟的标准,从而保证系统成为符合标准又不失灵活性的开放平台,为未来的系统的灵活开放奠定基础。需要支持业界开放的标准接口,如: SQL2003,PL/SQL等等,同时完全兼容开源的标准。 先进性基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。 基于业界热门的,且领先的Spark技术,极速提高平台的整体计算性能。 可扩展性随着新的业务需求的不断产生,支持基础数据模型、应用分析模型、前端应用的扩展性;支持在统一系统架构中服务器、存储、I/O设备等

14、的可扩展性。 可靠性制定并实施基础数据平台高可用性方案、运行管理监控制度、运行维护制度、故障处理预案等,保证本期系统在多用户、多节点等复杂环境下的可靠性。 高效性高效性包含两方面内容,一方面系统需要在规定时间内完成数据写入操作,并将数据写入对数据分析的影响降到最低;另一方面系统需要实现规划要求的数据查询和统计分析速度。 正确性数据质量贯穿基础数据平台系统建设的每个环节,基础数据平台系统通过合理的数据质量管理解决方案保证数据质量。 安全性按国家标准、行业标准、安全规范等实现数据安全管理。 可维护性系统要有统一的管理平台, 管理基础数据平台系统的各个环节,能对系统进行相应的性能管理和日志监控。 易

15、用性有良好的人机接口不灵活多样的展现方式,需要对最终用户提供适当的培训就可以方便地使用新的分析工具,从而减少IT人员的工作量,同时加强了集群监管的时效性。4.2. 总体技术方案通过对华西医院基础软件及服务需求的理解,以及根据建设目标、设计原则的考虑,建议华西医院采用基于大数据基础平台的架构方案,来满足华西医院基础软件及服务建设的要求。4.2.1. 软件架构Apache Hadoop是针对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基础支撑技术。是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。然而现有的Hadoop技术仍然面临一些挑战:性能上,尽管Hadoop在100TB以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号