大数据技术研究

上传人:cl****1 文档编号:568336757 上传时间:2024-07-24 格式:PPT 页数:39 大小:1.90MB
返回 下载 相关 举报
大数据技术研究_第1页
第1页 / 共39页
大数据技术研究_第2页
第2页 / 共39页
大数据技术研究_第3页
第3页 / 共39页
大数据技术研究_第4页
第4页 / 共39页
大数据技术研究_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《大数据技术研究》由会员分享,可在线阅读,更多相关《大数据技术研究(39页珍藏版)》请在金锄头文库上搜索。

1、集团公司网络部集团公司网络部大 数 据 技 术 研 究网络部网络部网管支撑处网管支撑处20122012年年1212月月集团公司网络部集团公司网络部目 录一、大数据的背景与定义一、大数据的背景与定义二、大数据的关键技术二、大数据的关键技术三、网管领域应用展望三、网管领域应用展望2集团公司网络部集团公司网络部数据管理技术发展历史数据管理技数据管理技术历经人工管理、文件管理、数据人工管理、文件管理、数据库管理等管理等时代,大数据技代,大数据技术的出的出现使使该领域域进入了一个新的入了一个新的发展展阶段段194619511956196119701974197919912001200320082011第

2、一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBM E.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与

3、应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算3集团公司网络部集团公司网络部大数据发展背景全球信息化全球信息化发展已步入大数据展已步入大数据时代代150亿个设备连接到互联网全球每秒钟发送 290万封电子邮件每天有 2.88 万小时视频上传到YoutubeFacebook 每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成大数据正迅速成为最最值得关注的得关注的IT领域之一域之一2011年5月,EMC Wo

4、rld 2011大会主题“云计算相遇大数据”,EMC 除了一直倡导的云计算外,还抛出大数据(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进2011 年10 月,Gartner 认为2012 年十大战略技术将包括大数据2011 年11 月底,IDC 将大数据放入2012 年信息通信产业十大预测之一IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)Google网站 Big data关键词搜索及新闻引用量4集团公司网络部集团公司网络部大数据的定义IDC对大数据的定大数据的定义大数据技术将被设计用于在成本可承受(economical

5、ly)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构解解读大数据定大数据定义业务目标:在1E(成本可接受-economically)的条件下从大数据中提取数据的价值(Value)技术要求:满足3V (快速-Velocity、大体量-Volumes、多类别-Variety)的特征技术方案:未提及,可能是新兴技术与传统技术的混搭5集团公司网络部集团公司网络部IT行业大数据相关动向和举措大数据正成大数据正成为IT行行业全新的制高点,各企全新的制高点,各企业和和组织纷纷助推大

6、数据的助推大数据的发展,相关技展,相关技术呈呈现百花百花齐放局面,并在放局面,并在互互联网网应用用领域域崭露露头角角商业解决方案lHP 2011年推出vertica数据库 lOracle 2011年推出noSQL数据库lEMC 2010年收购GreenplumlTeradata 2011年收购Asterdata,并推出SQL-MapreducelIBM 2010年收购NetezzalSAP 2011年收购Sybase开源解决方案l开源组织Apache在2008年将Hadoop列为顶级项目 l2010年 HBase自Hadoop上诞生 l开源组织GNU 2010年发布Mongodb lVmwar

7、e 2010年提供开源产品Redis lTwitter 2011年提供开源产品Storm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰lGoogle 研发Bigtable并自行使用lYahoo发起Hadoop/Hbase开源并自用,FACEBOOK、百度、淘宝等均使用lTwitter开发Storm自用并提供开源传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成

8、熟技术(含开源技术)为主目前还是以数据库、数据仓库技术为主,对大数据技术仍处于认知或小范围摸索实验阶段,应用场景仍在分析梳理中互联网企业传统企业6集团公司网络部集团公司网络部目 录一、大数据的背景与定义一、大数据的背景与定义二、大数据的关键技术二、大数据的关键技术三、网管领域应用展望三、网管领域应用展望7集团公司网络部集团公司网络部相关概念与相关技术概览数据结构: 结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新

9、型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)8集团公司网络部集团公司网络部数据的结构结构化、非结构化、半结构化数据对比项结构化数据非结构化数据半非结构化数据定义定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例示例各类表格图形、图像、音频、视频信息HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非构化数据和非结构化数据都是客构化数据都是客观存在,大数据技存在,大数据技术需要涵盖两者需要涵盖两者9集团

10、公司网络部集团公司网络部数据库数据模型关系型数据库与非关系型数据库在大数据技在大数据技术中中非关系型非关系型数据数据库技技术是必不可少的,但关系数据是必不可少的,但关系数据库也是不可或缺的也是不可或缺的对比项关系型数据库非关系型数据库定义定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言接口语言SQL(Structured Query Language,结构化查询语言),对数据库中的数据进行查询、操作和管理无统一标准包括:各自定义的A

11、PI、类SQL、MR等典型案例典型案例Oracel、DB2、Sybase、SQL Server、Mysql、Postgresql等新型的MPP RDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis10集团公司网络部集团公司网络部数据处理特性OLTP与OLAP比较项比较项联机事务处理联机事务处理OLTPOLTP( On-Line On-Line Transaction Processing Transaction Processing )联机分析处理联机分析处理OLAPOLAP( On-Line On-Line Analytical Processing Anal

12、ytical Processing )基本类型基本类型业务操作型业务分析型数据特性数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量数据量GB-TB级TB-PB级典型示例典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以以业务操作型操作型为主,主,OLAP以以业务分析性分析性为主,两者主,两者对技技术的要求很的要求很难兼兼顾11集团公司网络部集团公司网络部数据一致性:强一致性与最终一致性强一致

13、性和最一致性和最终一致性都是指客一致性都是指客户端向数据端向数据库系系统写入数据后,数据写入数据后,数据库系系统能能够提供提供的数据一致性的表的数据一致性的表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义场景定义假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现数据一致性表现A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C 可以读到A写入的数据A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例示例OLTP需要强

14、一致性OLAP需最终一致性绝大多数应用不能够容忍弱一致性12集团公司网络部集团公司网络部数据存储方式行式存储与列式存储传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变行存储模式向列存储模式的转变行存储行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxx yyyy.2用户21990-5-15Mm nnn 3.7用户11981-10-3Xxxx yyyy.2用户21990-5-15Mm nnn 3.7列存储列存储用户用户11981-10-3用户用户21990-5

15、-15用户用户1Xxxx yyyy . 用户用户2Mm nnn .用户用户12用户用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于

16、少量列的反复查询,多用于OLAP数据库样例数据表样例数据表13集团公司网络部集团公司网络部数据库存储与处理架构SMP与MPP在数据量急在数据量急剧膨膨胀的背景下,数据的背景下,数据库处理要求超出了理要求超出了单机或机或SMP架构能力范架构能力范围,最高配置小型,最高配置小型机也无法机也无法满足,所以在大数据技足,所以在大数据技术中,中,MPP架构(架构(计算分布算分布+存存储分布)架构成分布)架构成为主流主流计算分布,存储集中DB Serv共享磁盘DB ServDB ServDB Serv网络SAN/FC计算集中,存储集中DB Serv磁盘计算分布,存储分布DB ServDB ServDB S

17、ervDB Serv高速通信网络磁盘磁盘磁盘磁盘Master如:Oracle传统单机数据库如:Oracle RAC小型机+共享盘阵如:Greenplum、HbaseX86+本地硬盘传统单机数据库SMP架构数据库MPP架构数据库对称多处理,Symmetrical Multi-Processing有两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限对共享磁盘的访问可能成为瓶颈SMPSMP大规模并行处理,Massively Parallel Processing多个松耦合处理单元组成,数据存在本机磁盘上通过增加服务器数量提高系

18、统处理能力,理论上可无限扩展,目技术可实现上千个节点互联对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程MPPMPP14集团公司网络部集团公司网络部数据存储架构:传统分布式文件与新型分布式文件传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效应对海量数据增长应对海量数据增长X86 PC集群数据存

19、储:磁盘阵列数据存储与计算合一数据存储与计算合一数据计算:数据服务器数据靠网络传输本机硬盘本机硬盘本机硬盘本机硬盘计算模式拥有成本盘阵负责存储,数据服务器负责计算,彼此靠网络连接,计算效率受网络带宽影响PC机自行负责存储和计算,数据与计算绑定,不受网络带宽影响专用设备价格昂贵,维护费用高通用PC,价格低廉,维护方便存储模式磁盘阵列存储由每台PC机自带硬盘组成容错模式不能容忍盘阵设备出问题,靠RAID容错个别硬盘故障容许PC节点故障,通过多个文件副本保证数据完整性数据存储与计算分离数据存储与计算分离15集团公司网络部集团公司网络部新型分布式文件系统Hadoop HDFSHadoop HDFSHa

20、doop HDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储件数据存储元数据节点Namenode文件名,文件块,文件块所在数据节点,文件元数据123数据节点Datanode数据节点Datanode数据节点Datanode数据节点Datanode先读取文件元数据,知道文件在哪后读取各个文件块管理文件分布存储优点优点l支持任意超大文件存储;硬件节点可不断扩展,低成本存储l对上层应用屏蔽分布式部署结构,提供统一的文件系统访问接口,感觉就是一个大硬盘;应用无需知道文件具体存放位置,使用简单;l文

21、件分块存储(1块缺省64MB),不同块可分布在不同机器节点上,通过元数据记录文件块位置;应用顺序读取各个块l系统设计为高容错性,允许廉价PC故障;每块文件数据在不同机器节点上保存3份;这种备份的另一个好处是可方便不同应用就近读取,提高访问效率缺点缺点l适合大数据文件保存和分析,不适合小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;一次写入多次读取,不支持文件修改l是最基础的大数据技术,基于文件系统层面提供文件访问能力,不如数据库技术强大,但也是海量数据库技术的底层依托l文件系统接口完全不同于传统文件系统,应用需要重新开发上层应用Yahoo Amazon Facebook E

22、bay 淘宝 百度 中国移动飞信 中国移动大云行业应用技术特点技术特点16集团公司网络部集团公司网络部基于并行计算的分布式数据处理技术(MapReduce)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结果中间结果中间结果输出数据输出数据JobTracker用户程序(JobClient)提交作业任务调度任务调度状态监控状态监控123MapReduce技术特性技术特性自自动并行化动并行化:系统自动进行作业并行化处理自动可靠处理自

23、动可靠处理:系统自动处理节点/任务的故障检测和恢复灵活扩展灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理高性能高性能:计算任务将被调度至数据所在的节点,减少网络开销,提升执行性能MapReduceMapReduce是解决海量数据是解决海量数据处理的并行理的并行编程程环境境17集团公司网络部集团公司网络部各类新兴数据库面向文档的数据库MongoDB基于内存的键值存储数据库Redis分布式MPP架构/列存储数据库HBase分布式MPP架构/支持列存/关系型数据库Greenplum18集团公司网络部集团公司网络部面向文档的数据库技术原理传统数据库只适合存储结构化数据,对于海量非结构

24、化、半结构化数据则显得无能传统数据库只适合存储结构化数据,对于海量非结构化、半结构化数据则显得无能为力;面向文档数据库技术则填补了这一空白为力;面向文档数据库技术则填补了这一空白传统做法传统做法面向文档数据库面向文档数据库关系数据库视频/图像/音频文件复杂数据放在关系数据库,低价值大文件放在文件系统,彼此分离存储和访问数据库的记录就是文档,涵盖各种数据类型,数据统一管理和访问数据库可分布式部署,对外提供统一视图数据库数据库 二维表二维表 行行数据库数据库 集合集合 文档文档技术特点技术特点l分布式存储l所有数据保存在文件中l文件中所有数据基于结构化描述语言组织,支持各种数据类型,包括大型对象(

25、视频/音频等)l支持多种类似SQL的数据检索方式l适用场景网站数据存储大尺寸低价值数据多类型混杂的数据存储19集团公司网络部集团公司网络部面向文档的数据库MongoDBMongoDBMongoDB是面向文档数据库典型代表,视觉中国网站采用是面向文档数据库典型代表,视觉中国网站采用MongoDBMongoDB替换原有关系数据替换原有关系数据库库mysqlmysql,实现对各类数据的统一管理和应用,实现对各类数据的统一管理和应用DB在数据处理量上升一倍的情况下,硬件资源利用率反而下降20%数据读取速度,从400ms减少为60ms,效率提升6倍数据文件,从200G降到了70个G结构化数据与非结构化图

26、片数据实现一体化处理Schema自由,大大提升开发效率实现动态集群,添加新机器无需中断业务应用效果关系数据库用户信息表关系数据库用户信息表MongoDBMongoDB用户信息文档用户信息文档用户ID用户名地址地址地址个人站点个人站点个人站点创意图片创意图片创意图片用户信息分多表存储表关联查询图片文件另外存储,自行处理用户数据集中在一个文档中数据与图片文件一体化存储用户数据内容任意扩展创意图片20集团公司网络部集团公司网络部基于内存的键值存储数据库技术原理由于传统关系型数据库主要采用二维表硬盘存储方式,难以满足海量数据高速大并由于传统关系型数据库主要采用二维表硬盘存储方式,难以满足海量数据高速大

27、并发读写的需要,基于键值的分布式存储技术应运而生并得到广泛应用发读写的需要,基于键值的分布式存储技术应运而生并得到广泛应用关系数据库关系数据库WEB应用服务器磁盘阵列关系数据库互联网用户键值存储数据库键值存储数据库WEB应用服务器互联网用户X86集群存储介质数据结构获取方式硬盘,读写速度慢内存,读写速度快二维表,不支持复杂数据结构键值,值类型支持复杂数据结构SQL,支持复杂查询应用程序编程接口API,不支持复杂查询技术特点技术特点l以内存为主要存储区域,读写速度最快,硬盘用于周期性备份l键值(KEY-VALUE)结构,基于KEY实现分区存储,从而支持分布式部署,提高并发访问能力lVALUE支持

28、链、集合等复杂数据结构,便于程序直接使用,减少处理环节l适合海量数据实时大批量简单读写存储模式磁盘阵列集中存储支持X86分布式部署KEY1VALUE1KEY2VALUE2KEY-nVALUE-n数据在内存中存储和处理数据在内存中存储和处理21集团公司网络部集团公司网络部基于内存的键值存储数据库Redis键值存储技术的典型产品是键值存储技术的典型产品是Redis, Redis, 由由VmwareVmware公司研发并提供开源,国内最大的应用公司研发并提供开源,国内最大的应用是新浪微博,有是新浪微博,有200200多台物理机运行多台物理机运行RedisRedisRedis服务器内存Redis服务器

29、内存Redis服务器内存Redis服务器内存读取应用服务器写入写入写入写入新浪微博需要为千万级用户实时快速计算并刷新关注、粉丝、微博的计数,并对用户及时通知新消息等,采用Redis使所有操作都在多台机器的内存中并发进行,读写效率提升至少15倍以上22集团公司网络部集团公司网络部分布式MPP架构/列存储数据库HBaseHadoop HBase Hadoop HBase 是分布式是分布式MPPMPP架构、列式存储数据库的典型代表架构、列式存储数据库的典型代表数据节点数据节点数据节点Hadoop分布式文件系统HBase分布式数据库海量数据表(例:用户行为分析)数据分区,并发读写,根据数据量增长自动横

30、向扩展分区用户名A-D用户名E-H用户名W-Z表分区表分区表分区数据物理存储位置透明,采取主备方式确保可靠存储,可动态增加数据节点机器大数据量PB级分布式并发处理效率高易扩展、动态伸缩适用于廉价设备集群适合基于列的读操作,不适合基于行的写操作不适合关系模型数据组织模式Hbase特点YahooAmazonFacebookEbay淘宝百度中国移动飞信行业应用X86 PC服务器X86 PC服务器X86 PC服务器23集团公司网络部集团公司网络部分布式MPP架构/支持列存/关系型数据库GreenplumEMCEMC公司的商业产品公司的商业产品GreenPlumGreenPlum是一个基于分布式文件存储

31、、是一个基于分布式文件存储、MPPMPP分布式处理架构的数分布式处理架构的数据库,同时支持行存与列存,并且仍然保持了关系数据模型据库,同时支持行存与列存,并且仍然保持了关系数据模型外部数据源外部数据源并行装载或导出SegmentSegment节点节点执行查询计划及数据库存储管理网络互联网络互联MasterMaster节点节点生成查询计划并派发汇总执行结果SQLSQL语句语句巨人网络征途游戏后台采用GreenPlum作为用户行为分析手段,比原有系统完整应用提高80倍效率,单笔查询提高120倍主要客户包括:主要客户包括:NASDAQNASDAQ、FOXFOX、巨人网络、阿里巴巴、中信银行、淘宝等、

32、巨人网络、阿里巴巴、中信银行、淘宝等24集团公司网络部集团公司网络部分布式MPP数据仓库代表产品特性比较产品名称应用场景接口方式扩展能力X86平台LinuxGreenplumOLAP/OLTP标准SQL最大支持达万个节点支持支持TeradataOLAP标准SQL(SQL-92)可达4096节点,最大数据量超过100PB支持支持netezzaOLAP标准SQL110台一体机,可管理PB级数据量,新一代产品会更高不支持,仅支持专有一体机硬件支持infobrightOLAP标准SQL具备较强并行扩展能力支持支持ExadataOLAP/OLTP标准SQL支持多机扩展满足大数据量管理需求支持,但性能劣于

33、专有一体机硬件支持25集团公司网络部集团公司网络部大数据方案与应用案例Hadoop项目群Hadoop + MPP RDB混搭架构信令监测系统数据存储架构优化方案飞信系统好友智能推荐方案BOSS系统WAP话单清洗/转换/汇总/分析26集团公司网络部集团公司网络部Hadoop项目发展历程2002年:Nutch项目启动,用于互联网网页的抓取和搜索2003年:Google披露GFS,2004则实现了Nutch Distributed Filesytem (NDFS)2004年:Google MapReduce发布,2005年则实现了Nutch MapReduce并移植到NDFS上2006年2月:Had

34、oop成为一个独立的项目,同时Doug Cutting加入Yahoo!2008年1月:Hadoop成为Apache的顶级项目2008年4月:Hadoop集群在Sortbenchmark中获得第一名(910台服务器,排序1TB数据,209秒)HadoopHadoop起源于起源于Doug CuttingDoug Cutting的的Apache NutchApache Nutch项目,是项目,是ApacheApache资助的一个顶级资助的一个顶级开源项目,开源项目,HadoopHadoop不仅仅是一个产品,更是一套生态系统不仅仅是一个产品,更是一套生态系统27集团公司网络部集团公司网络部Hadoop

35、项目组成;Hadoop核心子核心子项目目HDFS:是一个分布式文件系统HBase:是一个基于HDFS、列存储数据库,提供海量数据存储能力MapReduce:是一个编程环境,提供并行处理框架,用于对HBase和HDFS的访问Hive:提供类似SQL的查询语言,通过MapReduce完成计算,实现对HBase的访问28集团公司网络部集团公司网络部案例:“Hadoop + MPP RDB”混搭架构在在Hadoop + MPP RDB架构中架构中Hadoop负责非结构化数据或简单结构数据的存储和处理Hadoop同时负责原始数据的抽取、转换、加载和轻度汇总等计算任务MPP RDB负责深度分析、复杂查询以

36、及多变的自助分析应用等混搭架构的代表厂商有混搭架构的代表厂商有HP的Vertica产品EMC的产品等混搭架构对结构化数据复杂处理会更有优势,同时也能获得很好的性价比混搭架构对结构化数据复杂处理会更有优势,同时也能获得很好的性价比29集团公司网络部集团公司网络部案例:信令监测系统数据存储架构优化方案世世纪鼎利公司江鼎利公司江苏Mc口信令口信令监测系系统数据存数据存储架构方案架构方案与传统信令监测数据存储方案相比,核心变化是将数据量最大、数据结构相对单一的与传统信令监测数据存储方案相比,核心变化是将数据量最大、数据结构相对单一的CDRCDR数据从数据从传统数据库迁移到分布式数据库中,从而实现全部应

37、用部署在传统数据库迁移到分布式数据库中,从而实现全部应用部署在X86X86主机群上主机群上30集团公司网络部集团公司网络部案例:中国移动飞信系统业务场景中国移动飞信系统面临海量用户行为数据深度挖掘需求,迫切需要新手段中国移动飞信系统面临海量用户行为数据深度挖掘需求,迫切需要新手段好友智能推荐好友智能推荐基于用户行为分析进行用户好友推荐基于用户行为分析进行用户好友推荐同好友但是彼此不是好友同IP但是彼此不是好友同群组但是彼此不是好友同校但彼此不是好友相互通话但彼此不是好友 ?数据处理要求数据处理要求需要对存在关联的两两用户数据进行分析管理,飞信活跃用户数已达到8000万以上,有关系的用户两两组合

38、的数量级至少在10亿条以上,且随着用户基数增长而呈指数级增长,需要海量数据处理能力用户上线后,系统需要快速提取智能推荐建议发给用户,需要在海量数据中快速查询检索数据的能力好友圈子有重叠彼此还不是好友31集团公司网络部集团公司网络部案例:中国移动飞信系统技术方案采用采用HadoopHadoop平台进行海量数据存储和深度挖掘,取得初步成效平台进行海量数据存储和深度挖掘,取得初步成效飞信用户行为日志WAP业务记录BOSS话单 MAP/REDUCE分布式计算智能推荐上层界面基于API/HIVE快速查询用户推荐信息好友表:ROW KEY :用户A,用户BCOLUMN:二人共有朋友清单,二人彼此推荐指数和

39、推荐时所关联朋友的推荐指数其他表: 同IP同校相互通话同群组好友表分为200个区,被7个region server管理,按照用户UID分段目前共部署30个节点,服务器HP DL385 ,48G内存 、2C16核 、各节点自带10TB硬盘共300TB,支持横向扩展,后续将扩容到80个节点好友表已累计24.6亿条数据系统每天处理新增数据、每周、月、季度做全量数据分析上层应用查询第一次访问效率0.2s,第二次及以后0.05s以内硬件不是一步到位,中间做过一次在线动态扩容,方便高效软件也不是一步到位,边做边增加应用内容,表模式支持动态变化分布式存储,入库很快,400MB/s吞吐能力总体拥有成本低,包括

40、硬件、软件和数据库维护优化服务应用效果应用效果大数据表32集团公司网络部集团公司网络部案例:BOSS系统WAP话单清洗/转换/汇总/分析硬件环境:硬件环境: 12节点集群 ,1台主机作namenode和jobtracker,11台主机作datanode和tasktracker采用采用HadoopHadoop平台对平台对WAPWAP实时话单进行清洗转换、汇总和分析实时话单进行清洗转换、汇总和分析数据入库:每天800G日志,45亿条记录,并行入库时间1小时(处理能力200-300MB/s)URL解析:4-6小时(20万条/s)网页抓取(后期稳定运行阶段):时间待定(100Mb独占带宽,400个网页

41、/s)网页分类:4-6小时(5万条/s)URL标签匹配:12-15小时(8万条/s)汇总:6台PCServer,输入27亿G,输出8亿G,用时20分钟应用效果应用效果33集团公司网络部集团公司网络部目 录一、大数据的背景与定义一、大数据的背景与定义二、大数据的关键技术二、大数据的关键技术三、网管领域应用展望三、网管领域应用展望34集团公司网络部集团公司网络部大数据领域“去小型机化”趋势明显大数据大数据领域去小型机化域去小型机化趋势已十分明已十分明显,“X86+本地硬本地硬盘”方案替代方案替代“小型机小型机+盘阵”已已经相相对成熟,在可靠性上毫不成熟,在可靠性上毫不逊色,在可色,在可扩展性、性能

42、和价格上有展性、性能和价格上有绝对优势,网,网管系管系统也要也要积极跟极跟进“去小型机化去小型机化”趋势小型机小型机+ +盘阵盘阵集中存储,集中计算,数据远离计算,计算时需进行传输数据,性能较差X86+X86+本地硬盘本地硬盘分散存储,并行计算,数据靠近计算,性能好处理性能处理性能小型机小型机+ +盘阵盘阵具有很强的可靠性,是许多关键性业务采用此方案的原因X86+X86+本地硬盘本地硬盘大数据技术设计之初就将软硬件故障作为常态进行考虑如Hadoop系统可以容忍单个磁盘出错以及整机出错可靠性可靠性小型机小型机+ +盘阵盘阵主要是纵向扩展,即提高主机配置,是有限的X86+X86+本地硬盘本地硬盘横

43、向扩展简单,成本低可扩展性可扩展性35集团公司网络部集团公司网络部网管数据存储与处理方式迁移建议网管数据类别数据特点技术方案资源数据资源数据工单数据工单数据数据量少事务性强数据关系复杂采用传统OLTP数据库告警数据告警数据( (短期短期, ,不含历史数据不含历史数据) )数据量少事务性弱,实时性高数据关系简单采用传统OLTP数据库统计数据统计数据数据量大事务性弱数据关系复杂采用MPP OLAP RDB数据库明细数据明细数据( (如如MR,CDR,MR,CDR,路测等路测等) )数据量巨大事务性弱数据关系简单采用Hadoop平台知识数据知识数据数据量大,非结构化数据事务性弱数据关系简单采用Had

44、oop平台、搜索技术从数据量大小、是否从数据量大小、是否结构化数据、事构化数据、事务性性强弱、弱、实时性高低、数据关系是否复性高低、数据关系是否复杂等等因素考因素考虑,确定网管各,确定网管各类数据的存数据的存储与与处理迁移方案理迁移方案36集团公司网络部集团公司网络部数据访问技术难度增高传统数据库传统数据库数据库服务器MPP RDBMPP RDB数据库数据库数据库服务器集中访问分布存储内部高速通信网络应用系统/用户应用系统/用户MapReduceMapReduce应用系统/用户集中存储ShareDisk标准SQL/SQL扩展标准SQL/SQL扩展API为主/类SQL为辅Result1 开发程序

45、2 部署程序3并行执行4 程序返回结果内部高速通信网络传统数据库与传统数据库与MPP RDBMPP RDB数据提供的数据提供的SQLSQL非常强大,不仅实现数据的增删改查,还能够对数据进行非常强大,不仅实现数据的增删改查,还能够对数据进行各种关联和统计,而目前大量非传统数据库没有统一标准的访问接口,对数据的关联和统计功各种关联和统计,而目前大量非传统数据库没有统一标准的访问接口,对数据的关联和统计功能需要应用程序自己实现能需要应用程序自己实现37集团公司网络部集团公司网络部网管开发合作模式发生变化大数据技术是业界大势所趋,其在网管领域的应用,将对合作伙伴的技术要求提到大数据技术是业界大势所趋,

46、其在网管领域的应用,将对合作伙伴的技术要求提到一个前所未有的新高度,网管厂商不仅要深入钻研和不断满足移动网络管理的业务一个前所未有的新高度,网管厂商不仅要深入钻研和不断满足移动网络管理的业务需求,也要跟踪并熟练应用大数据最新技术,并确保系统的长期稳定发展需求,也要跟踪并熟练应用大数据最新技术,并确保系统的长期稳定发展对比项传统数据库技术大数据技术第三方平台厂家作用中等,产品相对成熟,日常服务系统集成商可独立完成不确定,采用开源产品将无需第三方平台厂家支持,更多靠系统集成商自己;采用商用产品则技术更为复杂,依赖性将进一步增高,预计一定时期内服务依赖于厂家技术选型风险低,业界成熟产品,统一于SQL语言高,目前大数据技术并非一个,而是各有特点,彼此提供的API不兼容,替代成本非常高学习难度低,关系数据库发展30余年在软件队伍中已成为基本技能要求高,大数据技术尚处于发展初期,技术种类繁多,尚未在软件行业中普及(互联网企业相对接触多一些)研发难度中等,主要是在围绕应用需求的性能优化高,由于普遍采用分布式计算技术,提高了架构设计难度和测试优化难度实施难度低,设备集中数量少便于部署和维护优化高,设备数量多,部署和维护难度大,且随数据量增大,节点间负载均衡要求高38集团公司网络部集团公司网络部谢 谢 !

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 金融/商业/投资

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号