大数据架构设计

上传人:suns****4568 文档编号:60795567 上传时间:2018-11-18 格式:PDF 页数:54 大小:4.62MB
返回 下载 相关 举报
大数据架构设计_第1页
第1页 / 共54页
大数据架构设计_第2页
第2页 / 共54页
大数据架构设计_第3页
第3页 / 共54页
大数据架构设计_第4页
第4页 / 共54页
大数据架构设计_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《大数据架构设计》由会员分享,可在线阅读,更多相关《大数据架构设计(54页珍藏版)》请在金锄头文库上搜索。

1、范钢 互联网架构设计 案例分析与最佳实践 课程内容简介 高可靠的架构设计 什么是高可靠如何实现高可靠 应对大数据架构设计 什么是云计算大数据相关技术 应对大并发架构设计 讲解相关技术讲解设计思路 高质量软件架构设计 什么是架构设计怎样做架构设计 云计算大数据 知识 云计算的主流技术与框架 云计算的主流技术与框架 技术 国内相关的云计算应用 国内相关的云计算应用 厂商 传统业务系统的云技术转型 传统业务系统的云技术转型 案例 对于云技术两种截然不同的看法 正方: 云计算是一个里程碑意义的、跨时代的产物 云计算将引领一场新的技术革命 云计算将是未来技术发展的趋势 反方: 云计算毫无新意,就是对久技

2、术的一种堆砌 云计算太虚了,就是开发商的一种忽悠 云计算已是昨日黄花、过眼云烟 电厂模式 云计算的初始概念 不要自己购买服务器而使用云计算 自购服务器将带来高额的运营成本 自购服务器将带来资源的浪费 服务器与网络的规模化运营将带来高效 更加合理地分配社会资源 削峰填谷、合理分配资源,以提高性价比 可以提供更加高效地运营团队 让专业的人做专业的事,提高社会分工 基础设施即服务(IaaS) 各应用系统不再使用专用服务器 各应用系统只需向云平台申请资源 虚拟服务器由此产生 应用系统与硬件资源间的“桶”被打破 硬件资源包括运算资源、存储资源等等 硬件集中式管理的云基地由此产生 云平台采用分布式计算方式

3、运行 用户的运算申请在哪里运算的谁都不知道 大运算量的任务被迅速分配到各个设备中 打破应用与硬件的“桶” 解读基础设施即服务 没有产生任何新的技术 设备虚拟化 分布式计算 产生了新的理念 服务器集中式管理 服务租住与托管 应用与使用设备的分离 就像建立电厂一样地建立云基地 就像插上插头就能用电 一样使用服务器资源 就像你不必关心到底用 的是哪家电厂的电一样 公有云 vs. 私有云 公有云 不要自购服务器而租住云平台 维护成本更低,性价比更高 不再自己雇佣团队进行运营维护 信息安全不能保证 私有云 自购服务器但云平台下合理分配 运行在自己的服务器与网络中,安全有保障 广泛应用在集团、政府系统、连

4、锁企业中 公有云: 正宗云技术 面临安全问题: 服务器放你那里 就是不放心 企业信息化建设面临尴尬 重复建设 每个系统都有用户管理、系统管理等功能 用户每进一个系统就要登陆一次 信息孤岛 系统与系统之间信息不能互通与共享 无法将各个环节打通形成一个整体 系统与系统之间需要互通时才临时开发接口 缺乏统一规划 系统与系统的开发各自为政 缺乏一个全局的视角规划整个企业的信息化 平台即服务(PaaS) 站在全局的视角统一规划企业信息化 建立一个规划部门统领各部门的建设 规划一个统一的布局分步骤建设 定义好各个系统间的交互接口 搭建统一的平台框架支持各系统的开发 搭建一个插件式的框架支持各系统的开发 拥

5、有统一的用户权限管理与门户 各系统如同插件一样插上即可相互交互 打破各系统间的“桶” 解读平台即服务 各系统在统一的平台下开发 各应用系统间的“桶”被打破 各应用系统不再是各自为政而是分工协作 平台即服务并没产生新的技术 平台化的软件开发 SOA系统整合的思路 单点登录技术 平台即服务带来的是一种思路 站在全局的角度建设信息化系统 案例:国家金税三期的业务规划 国家金税三期的架构设计 在互联网模式下的软件企业 面向更多更广的用户群体 从全市到全省,再到全国 跨区域间的信息交互越来越频繁 跨系统的大范围整合成为大势所趋 业务范围越来越大,影响越来越深 越来越多的业务依赖于互联网软件 互联网软件当

6、机对社会的影响越来越大 软件承载的业务逻辑越来越复杂 未来发展的趋势 越来越集中地进行管理 由市集中向省集中、全国集中发展 建立面向全国的应用接口 建立大型的数据中心集中式管理 面临着大并发、大数据量的技术压力 越来越迫切地呼唤系统整合 以统一的服务推送给用户 用户只要申请就能得到相应的服务 需要将各个系统整合成一个有机体 软件即服务(SaaS) 在云端提供用户软件服务 软件系统被搭建在了云端 用户只要提出申请即可使用服务 软件以组件化的形式提供给各类用户 软件企业拥有更加广阔的市场 用户不再有地域与类别的限制 用户与应用系统的“桶”被打破 就像家里的电插座一样方便 就像插上插头一样简单 就像

7、使用开关按钮一样简便 打破了用户与软件间的“桶” 如何软件即服务 建立数据中心统一化管理 将各个业务系统的数据集中在一起 将各个地区的数据集中在一起 整合各业务系统于统一云平台 将各个业务系统通过接口予以整合 将各个业务系统集中部署于云平台中 提供更加广阔的云服务 因数据集中而引申出的数据分析与挖掘服务 因系统整合而发掘出的新的产品与服务 面临的难题 高并发、大数据量环境下的稳定运行 分布式计算 非结构化数据库 数据缓存与可扩展性设计 数据与服务的合理划分 读写分离的设计 互联网模式下的数据安全 数据传输安全 备份与恢复机制 解读云计算的概念与发展历程 解读云计算的概念与发展历程 知识 技术

8、国内相关的云计算应用 国内相关的云计算应用 厂商 传统业务系统的云技术转型 传统业务系统的云技术转型 案例 OpenStack OpenStack 是由 Rackspace 和 NASA 共同开 发的、处于IaaS层面的云计算平台 旨在为公共及私有云的建设与管理提供软件的 开源项目。 它的社区拥有超过130家企业及1350位开发者 OpenStack项目的首要任务是简化云的部署过 程并为其带来良好的可扩展性。 OpenStack是处于IaaS层面的云计算开源平台 CloudStack CloudStack是一个开源的具有高可用性及扩展 性的、处于IaaS层面的云计算平台 同时又是一个开源云计算

9、解决方案,可以加速 高伸缩性的公共和私有云的部署、管理、配置 CloudStack 是一个开源的云操作系统,可以通 过组织和协调用户的虚拟化资源,向用户提供 一个安全的多租户云计算环境 可以让用户快速和方便地在现有的架构上建立 自己的云服务 被思杰收购,同时英特尔、阿尔卡特-朗迅、瞻 博网络、博科等都已宣布支持 解读云计算的概念与发展历程 解读云计算的概念与发展历程 知识 云计算的主流技术与框架 云计算的主流技术与框架 技术 厂商 传统业务系统的云技术转型 传统业务系统的云技术转型 案例 阿里云 你不需要自 己买服务器 你不需要 运维团队 租住阿里 云就O啦 12306网上订票系统 前端DNS

10、 前端页面 静态化 负载均衡 缓存 异步 分区 内存 数据库 云端弹性 扩展 比格达塔:云数据 解读云计算的概念与发展历程 解读云计算的概念与发展历程 知识 云计算的主流技术与框架 云计算的主流技术与框架 技术 国内相关的云计算应用 国内相关的云计算应用 厂商 案例 数据集中化管理 1. 云基地建设 2. 建立数据中心 3. 逐步的数据迁移 传统业务系统的云转型 进行业务整合 1. 梳理现有业务 2. 逐步改造现有架构 3. 各个业务系统逐步整合 4. 逐步开展数据分析与BI业务 传统业务系统的云转型 提供云端服务 1. 更加个性化的云端产品 2. 更加网络化的产品营销 3. 更加集中化的运营

11、管理 传统业务系统的云转型 云架构带来的开发模式的变化 1. 迭代式的软件开发 2. 自动化的软件测试 3. 持续的软件交付 传统业务系统的云转型 云计算大数据 Hadoop是 Apache开源软件基金会中的一个项目 用于大数据存储与分布式计算 可以将大规模存储与运算,运行于大规模的普 通PC服务器上,提高横向扩展能力 Hadoop在云计算平台中位于PaaS层 Hadoop的核心由2部分组成 分布式文件系统HDFS 分布式运算框架MapReduce Hadoop生态环境 现有的架构不能自由扩展 RAC节点扩容极其昂贵 不能无限扩容 存储空间有限 不能无限扩展 查询越来越慢 弹性的云端架构 Ha

12、doop集群 合理地任务拆分 运算与存储结合 Hadoop分布式文件系统 Foo.txt: blk_001, blk_002, blk_003 NameNode DateNode1 DateNode2 DateNode4 DateNode3 DateNode5 Foo.txt Rack1Rack2 MapReduce分布式计算模型 软件 架构 设计 软件 系统 重构 辅助 设计 软件 软件 架构 设计 软件 系统 重构 辅助 设计 软件 软件,1 架构,1 设计,1 软件,1 系统,1 重构,1 辅助,1 设计,1 软件,1 软件,1 软件,1 软件,1 设计,1 设计,1 架构,1 系统,1

13、 重构,1 辅助,1 架构,1 系统,1 重构,1 辅助,1 软件,3 设计,2 软件,3 架构,1 设计,2 系统,1 重构,1 辅助,1 Input Splitting Mapping Shuffling Reducing Output MapReduce的优势与劣势 优势 对数据的离线分析 处理大数据文件 批量数据导入 可扩展性强 适用场景 海量数据导入 离线数据分析 ETL过程 劣势 对数据的随机查询 处理大量小文件 在线业务处理 事务一致性差 不适用场景 在线业务操作 随机数据查询 例如查询结果只有10几条,那么查询效 率没有传统数据库的使用索引高,因为 MapReduce是采用暴力

14、的全数据扫描, 对于查询少量数据效率很差 Hive 编写MapReduce的难题 开发人员不熟悉MapReduce编程模式 开发人员不熟悉分布式计算的设计原理 设计与开发分布式计算平台很麻烦 需要大量的业务数据需要分析与处理 开发人员数据SQL语句 解决方案 提供一个开发平台可以使用SQL语句编写分布 式数据分析与处理程序 可以将写好的SQL语句转换成MapReduce程序 Hive的部署 Hbase数据库 HBase是 一个开源的、分布式、 面向列的NoSQL数据库 Apache软件基金会Hadoop项目的一部分 运行于HDFS文件系统之上 为Hadoop提供类似于BigTable规模的服务

15、 Hbase的特点 高可靠性、高性能、面向列、可伸缩的分布式存 储系统 可在廉价PC Server上搭建起大规模结构化存储 集群 基于Hadoop平台的数据分析平台 业务特点分析 用户对历史数据查询的操作特点 对历史数据的查询主要以统计分析为主 越靠近当前的历史数据,查询内容越细 越远离当前的历史数据,查询内容越粗 用户对数据分析统计功能的操作特点 首先查询大范围的分析统计结果(频繁) 然后查询某个小范围的分析统计结果(一般) 最后查询某个小范围的明细数据(偶尔为之) 数据仓库 时间购买者商品数量金额 2014.4.25 关二锅菜刀3600.00 2014.4.27 葛二蛋童车1600.00

16、2014.5.30 小明剃须刀5100.00 2014.5.30 何洁洗发水4120.00 2014.6.1张三笔记本18,000.00 2014.6.1张三打印机12,500.00 2014.6.5王五小米手机26,400.00 2014.7.8葛二蛋鸡蛋面1040.00 2014.7.9小明培训费21,200.00 2014.7.9何洁化妆品35,000.00 2014.7.9王五打印纸502,500.00 时间时间葛二蛋 关二锅 何洁王五小明张三总计 2014.4.25600600 2014.4.27600600 2014.5.30120100220 2014.6.11050010500 2014.6.564006400 2014.7.84040 2014.7.95000250012008700 总计6406005120890013001050027060 年月年月葛二蛋 关二锅 何洁王五 小明 张三总计 2014.46006001200 2014.5120100220 2014.664001

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号