大数据架构

上传人:suns****4568 文档编号:60871783 上传时间:2018-11-19 格式:PDF 页数:108 大小:4.82MB
返回 下载 相关 举报
大数据架构_第1页
第1页 / 共108页
大数据架构_第2页
第2页 / 共108页
大数据架构_第3页
第3页 / 共108页
大数据架构_第4页
第4页 / 共108页
大数据架构_第5页
第5页 / 共108页
点击查看更多>>
资源描述

《大数据架构》由会员分享,可在线阅读,更多相关《大数据架构(108页珍藏版)》请在金锄头文库上搜索。

1、大数据架构大数据架构 云南机场集团有限责任公司云南机场集团有限责任公司 范怀范怀炜炜 2017年年3月月 未来10年最具经济影响力的颠覆性技术 1. 移动互联网(大数据、BI、自然人机接口) 2. 知识工作自动化 3. 物联网 4. 云 5. 先进机器人 6. 自动汽车 7. 下一代基因组学 8. 储能技术 9. 3D打印 10. 先进油气勘探及开采 11. 先进材料 12. 可再生能源 0 2 4 6 8 10 12 未来未来10年最具经济影响力的颠覆性年最具经济影响力的颠覆性技术(资料来源技术(资料来源麦肯锡研究报告麦肯锡研究报告) 至至2025年的预估潜在经济影响上限年的预估潜在经济影响

2、上限(单位:万亿(单位:万亿美元)美元) 大数据分析系统的思维逻辑 数据计算 数据存储 数据采集 数据展示 数据展示 数据采集 数据计算 数据存储 系统使用思维 系统建设思维 以系统建设思维,交流讨论 大数据系统体系建设规划大数据系统体系建设规划 搭平台搭平台 采数据采数据 建模型建模型 编代码编代码 图呈现图呈现 第一阶段 一次建设逐步扩展 可查询简应用 巧妇有米可炊 第二阶段 重复迭代持续滚动 可分析展现深入应用 巧妇百变花样 主要内容主要内容 1. 大数据的基本概念 2. 大数据存储体系(云计算平台) 3. 大数据的计算体系(分布式计算) 4. 大数据的数据采集体系 5. 大数据的典型应

3、用 6. 大数据可视化 7. 大数据与安全 本本PPT用于教学研讨,引用文档较多且用于教学研讨,引用文档较多且 并未全部列出来源,在此一并谢过!并未全部列出来源,在此一并谢过! 大数据是什么? 大数据(Big Data)一词正式出现是在2011年麦肯锡全球研究院发布的大数据:下一个创新、竞 争和生产力的前沿研究报告中。 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资 产。 大数据技术则特指新一代的创新型技术,能够突破常规软件的限制,是对大数据进行采集、存储、 和处理的技

4、术的统称。 大数据需要特殊的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布 式数据库、云计算平台、互联网和可扩展的存储系统、流计算、深度学习、数据可视化等。 这些年来,大数据先是被神化,继而被“泛华” 化。目前,其实谁也不知道别人所谓的大数据指 的是什么。有时候大数据的定义里既有平台(硬件)又有分析技术,有时候只是一个硬件平台或者 是一个互联网上的应用或者是传统的BI(数据仓库+统计分析)。 大数据的主要作用是还原过去事实,预测未来变化。 大数据的特征 数据量大(Volume):通常指10TB以上规模的数据量。 数据种类多(Variety):来源包括传感器、智能设备、

5、社交网络数据;结构包括结 构化、半结构化、非结构化,如文本、图片、音频、视频、地理位置等类型数据。 数据增长及处理速度快(Velocity):大数据的处理要求是在线的, 1秒定律。 数据的隐藏价值大(Value):数据的单位价值密度低,但大数据的战略意义不在 于掌握庞大的数据,而在于对这些含有意义的数据进行专业化处理,通过“加工” 实现数据的“增值”。 准确性( Veracity ):IBM提出,强调数据质量。(5V) 可视性( Visualization ): 合法性( Validity ): 大数据技术栈 技术分类 技术与工具 产品举例 基础架构支持 云计算平台 OpenStack,Clo

6、udStack,Apache Hadoop,10gen MongoDB;Google AppEngine,微软Azure,Amazon EC2/S3/SimpleDB,EMC Atoms云存储, 阿里云 数据采集 数据采集工具 Flume,Scribe,Chukwa,Kafka,网络爬虫 ETL工具 Ascential Datastage,Informatica Powercenter, NCR Teradata ETL Automation; KETTLE;Sqoop 数据总线(ESB) Oracle Service Bus,IBM WebSphere ESB,Microsoft ESB,J

7、BOSS SOA Platform 数据存储 分布式文件系统 Google GFS,Hadoop HDFS SQL数据库 ORACLE,DB2,MSSQL Server,MySQL NoSQL数据库 HBase,MongoDB,Hypertable,Cassandra,CouchDB NewSQL数据库 H-Store,VoltDB,NuoDB,TokuDB,MemSQL 数据计算 查询、统计、分析 数据预测与挖掘 深度学习 社交计算、计算广告 虚拟现实、增强现实 展现与 交互 图形与报表 可视化工具 主要内容主要内容 1. 大数据的基本概念 2. 大数据存储体系(云计算平台) 3. 大数据的

8、计算体系(分布式计算) 4. 大数据的数据采集体系 5. 大数据的典型应用 6. 大数据可视化 7. 大数据与安全 云计算的概念 提交请求提交请求 硬件硬件 软件软件 服务服务 存储存储 网络网络 云云 用户用户 按需付费服务按需付费服务 数据在云端:不怕丢失,不必备份,可以任意点恢复 ; 软件在云端:不必下载自动升级 ; 无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务; 无限强大的计算:具有无限空间,无限速度。 现阶段广为接受对云计算的定义是美国国家标准与技术研究院(NIST)定义:云计算是一种按 使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可

9、配置的计算资源 共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需 投入很少的管理工作,或与服务供应商进行很少的交互。 云计算的特征: 超大规模 按需服务 高可用性 高可扩展性 高可靠性 虚拟化 高性价比 云计算的发展线路 并行计算 集群计算 网格计算 云计算 云计算的产生和发展 大数据与云计算的关系 大数据应用运行在 云平台之上 云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。 云计算与大数据是一对相辅相成的概念,而他们的关系则是静与动的关系:云计算强调的是计算和 存储,这是动的概念;而数据是计算的对象,是静的概念。 如果数据是财富,那么大数据就是宝藏

10、。云计算就是挖掘和利用宝藏的利器!没有强大的计算能 力,数据宝藏终究是镜中花。没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀! 大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提。没有信息安全也就没有云服务 的安全。产业及服务要健康、快速的发展就需要得到用户的信赖,就需要科技界和产业界更加重视 云计算的安全问题,更加注意大数据挖掘中的隐私保护问题。 大数据是数据资产,云计算则为盘活数据资产提供了手段。 传统IT“烟囱”模式部署架构 云计算融合模式部署架构 云计算平台框架结构 基于云计算总体架构下的大数据分析云解决方案示例 云计算基础云计算基础两种虚拟化方案即虚拟机与容器两种虚拟化

11、方案即虚拟机与容器 1.虚拟机( VM ):基于Hypervisor(运行在物理服务器和操作系统之间的中间软件层,可以看 作是虚拟环境中的“元”操作系统),代表产品如Vmware,XEN,KVM,Hyper-V。 2.容器(Container):一种轻量级虚拟方案,又称操作系统级虚拟化,要求在一个操作系统实 例里,将系统资源(CPU、内存、网卡、磁盘等)按照类型和需求分割给多个对象独立使用, 对象之间保持独立。 VM虚拟化与Container各有优势,区别如下: 1)VM虚拟化的对象是虚拟机,即把一台物理机虚拟成多台虚拟子机;Container的操作对象是进 程,为每个进程分配不同系统资源,进

12、程与进程之间独立。产品如Docker 2)VM虚拟化组件可以直接运行在硬件上, Container只能运行在操作系统之上。 3)VM虚拟组件负责管理物理机或虚拟子机的硬件资源, Container环境中,硬件资源由操作系统 自身负责管理。 虚拟机与容器对比 特性 容器 虚拟机 启动 秒级 分钟级 硬盘使用 一般为MB 一般为GB 性能 接近原生 弱于原生 系统支持 单机支持上千个容器 一般几十个 云计算基础软件定义网络(SDN) 软件定义网络(Software Defined Network )是一种新型网络架构,核心技术OpenFlow通过将网络 设备控制面与数据面分离开来,从而实现网络流量

13、的灵活控制,使网络作为管道变得更加智能。 传统IT架构中的网络,根据业务需求部署上线以后,如果业务需求发生变动,重新修改相应网络设备 (路由器、交换机、防火墙)上的配置是一件非常繁琐的事情。SDN所做的事是将网络设备上的控制权 分离出来,由集中的控制器管理,无须依赖底层网络设备(路由器、交换机、防火墙),屏蔽了来自底 层网络设备的差异。而控制权是完全开放的,用户可以自定义任何想实现的网络路由和传输规则策 略,从而更加灵活和智能。 假如网络中有SIP、FTP、流媒体几种业务,网络的总带宽是一定的,那么如果某个时刻流媒体业务 需要更多的带宽和流量,在传统网络中很难处理,在SDN改造后的网络中这很容

14、易实现,SDN可以 将流量整形、规整,临时让流媒体的“管道”更粗一些,让流媒体的带宽更大些,甚至关闭SIP和FTP 的“管道”,待流媒体需求减少时再恢复原先的带宽占比。 正是因为这种业务逻辑的开放性,使得网络作为“管道“的发展空间变为无限可能。如果未来云计算的 业务应用模型可以简化为“云-管-端“,那么SDN就是 “管“这一环的重要技术支撑。 目前,包括HP、IBM、Cisco、NEC以及国内的华为和中兴等传统网络设备制造商都已纷纷加入到 OpenFlow的阵营,同时有一些支持OpenFlow的网络硬件设备已经面世。 云计算基础软件定义存储(SDS) 软件定义存储(SDS)是一种数据存储方式,

15、所有存储相关的控制工作都仅在相对于物理存储硬件的 外部软件中,主要实现的功能就是整合散落的硬盘或者磁盘阵列,提高存储服务。 软件定义存储的三种选择: 1)第一种就是与Hypervisor集成或作为其堆栈的一部分存在。VMware目前开发了Virtual SAN,该 公司所谓的软件定义存储层正是作其软件堆栈的一部分存在。Hyper-V则拥有所谓的集群存储空间 并且直接集成进微软的Hyper-V堆栈。 2)第二种包含了第三方与hypervisor无关的产品,它们能够与VMware、Hyper-V、KVM或是思杰 的产品协同,有一些软件产品功能完备,甚至在某些方面超越领先厂商,像是Maxta、Sta

16、rwind Software 、 StoreMagic。它们提供同样的功能,但并非致力于某一特定Hypervisor。它们创建的存 储仓库能够在多个不同的hypervisor间共享。 3)第三种是虚拟存储,应用已久,包含IBM Spectrum Virtualize、DataCore SANsymphony产品, 它们将虚拟所有的硬件资源,将其抽象为软件层以更高效的分配资源。当某个应用负载需要配置具 有特定数据保护机制的存储,只需要从管理界面选择配置,它将随存储自动分配。 云计算基础超融合架构(软件定义数据中心) 超融合基础架构(Hyper-Converged Infrastructure,或简称“HCI”)也被称为超融合架构,是指在 同一套单元设备(x86服务器)中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而 且还包括缓存加速、重复数据删除、在线数据压缩、备份软件、快照技术等元素,而多节点可以通 过网

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号