大数据平台最佳实践

资源描述

《大数据平台最佳实践》由会员分享，可在线阅读，更多相关《大数据平台最佳实践（46页珍藏版）》请在金锄头文库上搜索。

1、英特尔大数据英特尔大数据平台平台最佳实践最佳实践提纲提纲大数据带来的挑战大数据案例介绍Intel大数据平台2BigBig Data云计算技术是处理大数据的有效手段云计算技术是处理大数据的有效手段大数据和云是两个不同的概念，但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的，即规模化、自动化、资源配置、自愈性，因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。大数据处理离不开云大数据处理离不开云大数据时代大数据时代- -数据爆发性增长数据爆发性增长IDC预测全球的数据使用量到2020年会增长44倍，达到35.2ZB (1ZB = 10亿TB)*Sour

2、ce: McKinsey Global Institute AnalysisSG Cross Asset Research, PwC宽带、移动网络普及和提速宽带、移动网络普及和提速移动网络和各种智能终端移动网络和各种智能终端视频视频( (医疗影像、地理信息、监控录像等医疗影像、地理信息、监控录像等)统计、分析、预测、实时处理统计、分析、预测、实时处理传感器、传感器、RFIDRFID阅读器、导航终端等非传统阅读器、导航终端等非传统ITIT设备设备社交网络社交网络(Facebook, Twitter, 微博等微博等)4大数据处理速度要求越来越高大数据处理速度要求越来越高Source: IDC Di

3、gital Universe Study, sponsored by EMC, May 2010大数据与海量数据的一个重要区别，在于不但数据尺寸大，而且对数据处理的响应速度有有着更高的要求传统的以周，天，小时为单位的运算处理周期，下降到以分钟，秒为单位大数据高价值的重要体现-处理速度ValueHigh utilityDiminishing utilityArchival valueTimeHighLowNegative数据的多样性数据的多样性Source: IDC Digital Universe Study, sponsored by EMC, May 2010数据形式的多样数据形式的多样:

4、 : 结构化数据，数据间有很强的因果关系半结构化数据，数据间因果关系较弱非结构化数据，数据间无因果关系数据来源的多样性数据来源的多样性:不同的应用系统各种设备互联网其它Flat file创造显著业务价值（创造显著业务价值（VALUE） Copyright 2011 EMC Corporation. All rights reserved.大数据分析显著的业务价值 3V特性驱动下创建挖掘数据资产价值，通过数据驱动业务，变成本中心为利润中心智慧城市智慧城市-典型的大数据应用集合典型的大数据应用集合2024/7/268大数据处理导致的平台瓶颈大数据处理导致的平台瓶颈Required Scal

5、abilityRapid AdoptionBig MathBig Data“Moores Law” Scalability数据处理需求与数据处理需求与传统平台硬件扩传统平台硬件扩展的差距不断扩展的差距不断扩大大Industry Progress大数据处理需要的扩展能力大数据分析不同于传统大数据分析不同于传统BI分析分析结构化数据结构化数据数据规模一般为数据规模一般为TB规模规模集中式，为了分析进行大量数据移动，数据向计算靠近集中式，为了分析进行大量数据移动，数据向计算靠近批处理为主批处理为主结构化结构化/非结构化混合分析的能力非结构化混合分析的能力数据规模从数十数据规模从数十TB到到PB级别级

6、别分布式，计算向数据靠近分布式，计算向数据靠近支持流式分析支持流式分析事务关系型数据库批处理数据仓库分析集群化非结构化流式多种数据源分析(MapReduce)组织Examples:TelcoGovtFinanceWeb分布式数据平台与传统数据平台融合分布式数据平台与传统数据平台融合Raw DataHadoop Cluster(Hundreds of TBs to PBs)Existing Data Warehouse(Hundreds of TBs)Applications and Tools(Modeling on 100s of TBs to PBs)Structured DataSemi

7、-Structured DataBI/Stat ToolsHistorical/Archival/Event Level Aggregated/Enriched Summary/Interactive ETLData EnrichmentDirect QueryDirect queryDirect Modeling提纲提纲大数据带来的挑战大数据案例介绍Intel大数据平台12联通联通3G3G详单查询详单查询- -问题来源（问题来源（1/21/2）随着移动互联网业务的发展，上网记录查询成为用户投诉的焦点问题来源问题来源问题来源问题来源p目前，中国联通省分公司3G客户数据流量问题争议占客户数据流量

8、问题争议占3G业务投诉达业务投诉达7-10%，且近几个月呈上升趋势，个别省分比例高达20%p一些用户对3G业务流量产生及计费方式不了解，主观认为自己未使用或使用较少数据流量，要求运营商提供上网记录要求运营商提供上网记录，而现有系统不具备此功能，从而导致投诉升级。3G流量费争议占总咨询投诉量比率上网记录查询对中国联通的业务发展产生了较大的影响影响影响影响影响p对对用户而言：用户而言：p“要是能查到流量是和谁发生的就好了，如果是手机的问题，我也才知道今后怎么防范，现在连防范谁都不知道，谁知道下次还会不会发生类似问题?”p对对运营运营商而言：商而言：p根据中国联通客户服务部门提供的数据，目前移动业务

9、每万元收入，因无法提供上网详单造成的退费和赔付约60.1元；p如果问题得不到根本解决，将会影响影响运营商运营商按按流量计费的资费模流量计费的资费模式，式，对运营商对运营商3G业务的开展将产生较大业务的开展将产生较大影响影响p用户上网记录数是个海量数据，不仅投资巨大，传统的电信业解决方案根本无法提供该服务案例案例案例案例p某iPhone合约计划用户，在凌晨零点到4点之间手机产生巨额流量费p在其得知因受计量设备限制无法向其提供数据流量去向后，竟上升到司法诉讼层面联通联通3G3G详单查询详单查询- -问题来源（问题来源（2/22/2）移动用户上网记录集中查询与分析支撑系统移动用户上网记录集中查询与分

10、析支撑系统建设上网记录集中查询与分析支撑系统意义重大查询查询查询查询p为客户服务人员提供客户上网记录快速查询服务，解决流量投诉问题p为用户提供准实时的异常大流量上网记录自助查询服务分析分析分析分析p对数据流量进行统计p终端分析：iPhone、iPad、其他智能手机分布，新终端推广效果分析p热门流量、热门网站（业务）p网络分析： 2G/3G基站流量分析，网络优化p数据挖掘p根据流量分布，分析用户群特征p提供套餐设计参考，优化用户体验p通过感知业务态势，制定市场策略，指导业务产品开发，为市场营销提供丰富的数据支持移动互联网处于快速发展期：每移动互联网处于快速发展期：每移动互联网处于快速发展期：每移

11、动互联网处于快速发展期：每6 6 6 6个月，流量翻一番个月，流量翻一番个月，流量翻一番个月，流量翻一番p移动互联网用户快速增加，智能终端迅速普及、户均流量显著增长，上网记录数据将进一步猛增难点分析难点分析上网记录是海量数据用户每月的上网记录约几万至数十万用户每月的上网记录约几万至数十万用户每月的上网记录约几万至数十万用户每月的上网记录约几万至数十万p在Gn（SGSN与GGSN之间）接口上部署采集设备来生成用户上网记录p用户手机访问一次网页，约会产生数十条，甚至数百条请求，意味着产生数十条和数百条上网记录p访问手机新浪网首页，约产生20条记录p访问新浪iPad首页，约产生40条记录p在iPad

12、中看一条新浪新闻，产生超过180条记录p访问淘宝触摸屏版，约产生60条记录p大量的DNS查询、推送服务记录（如苹果通知服务）等p以中国联通某省分公司为例，日均上网记录数近以中国联通某省分公司为例，日均上网记录数近10亿条，每亿条，每月数据量近月数据量近9TB，31个省份个省份数数据量据量12T/day难点分析难点分析采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行采用何种方式进行存储和检索是一个问题p存储：存储：如此大的数据量已经超越了当前关系型数据库可管理的容量上限p查询：

13、查询：关系型数据库上对大规模数据进行操作会造成系统性能严重下降p当数据集和索引变大时，传统关系型数据库如Oracle、Sybase，在对大规模数据进行操作会造成系统性能严重下降，因为在处理数据时SQL请求会占用大量的CPU周期，并且会导致大量的磁盘读写，性能会变得让人无法忍受p成成本本p小型机高端存储 + 关系数据库p成本导致扩展困难移动用户上网记录集中查询与分析支撑系统移动用户上网记录集中查询与分析支撑系统系统系统系统系统构成构成构成构成p系统采用全国集中的一级架构方案进行建设，主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统基本基本基本基本技术技术技术技术p采用

14、Hadoop/HBase作为上网记录存储方案p采用MapReduce/Hive作用统计分析和数据挖掘工具关键性关键性能指标能指标解决解决方案方案数据数据数据数据查询查询查询查询p上网记录查询速度：不高于1秒（不含用户访问查询页面的时间）p支持并发查询数目：1000请求/秒数据数据数据数据存储存储存储存储p上网记录入库时间：一般小于30分钟，实际约10分钟p具备存储全国移动用户不小于6个月的原始上网记录能力p历史5个月+当前月p统计分析的中间报表数据保存不小于5年全国集中的一级架构，电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中系统部署系统部署系统部署系统部署系统部署系统部署

15、p两路x86服务器（基于Intel Xeon E5600系列处理器）pNameNode节点：3台pDataNode（数据存储节点）：178台pZookeeper节点：7台p集群监控节点：1台p入库服务节点：24台pWeb查询应用服务节点：20台p网络交换设备p机框间通过万兆交换机连接，以完成快速的数据交换pIntel Hadoop发行版p满足高性能的数据导入和快速查询。p稳定、易于部署和管理的企业级方案。19移动用户上网记录集中查询与分析支撑系统移动用户上网记录集中查询与分析支撑系统20某市智能交通应用举例某市智能交通应用举例视频云计算/云服务视频云服务中心可以实时掌控任一车辆的行驶，运行轨迹

16、、分析车辆是否违章视频云服务中心对海量的交通信息进行比对、分析和预测，为车辆布控、分析拥堵状态，出行最优路径规划、交通管理服务智能交通系统实时监控城市的交通状态，将各个路口的车辆实时抓拍、传输到视频云服务中心面临的挑战面临的挑战年过车信息数据量达数百亿级记录规模市局和区县的数据中心两级架构，分布式存储，集中管理。支持多条件组合快速查询：卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。支持海量过车信息的模糊匹配检索。支持各种统计分析、数据挖掘：车辆违章率统计、过车识别率统计、套牌分析、关联性分析、黑名单等过车记录过车记录单个区数

17、据中心单个区数据中心全市数据总和全市数据总和每秒钟 6MB/s1200 条记录/s120MB/s24000条记录/秒每小时20GB/hour432万条/小时400GB/hour8640万条/小时每天480GB/day1亿条/天9.6TB/day20亿条/天每月14.4TB/month30亿条/月288TB/month600亿条/月三个月43.2TB/3months90亿条/三个月0.8PB/3months1800亿条/三个月违章车辆图片数据违章车辆图片数据单个区数据中心单个区数据中心全市数据总和全市数据总和每小时 1.8GB/h36GB/h每天43.2GB/day864GB/day每月1.2T

18、B/month24TB/month三个月3.6TB/3months72TB/3months基于英特尔基于英特尔Hadoop技术方案技术方案解决了海量过车信息（结构文本+图片）存储问题。解决了分布式数据查询问题。系统提供了易于使用的API，方便进行二次开发。系统做了较多优化，性能很好的满足了项目的实时性要求。系统的稳定性好。智能交通应用技术架构图某市智慧交通信息系统架构某市智慧交通信息系统架构基于海量数据进行车辆轨迹分析基于海量数据进行车辆轨迹分析实时路况信息区域号牌管理碰撞分析。某市智慧医疗某市智慧医疗提纲提纲大数据带来的挑战大数据案例介绍Intel大数据平台27企业大数据平台构建中英特尔的角

19、色企业大数据平台构建中英特尔的角色什么是什么是Hadoop?开源Apache 项目,灵感来源于Google的MapReduce白皮书和Google文件系(GFS), Yahoo完成了绝大部分初始设计和开发Hadoop 核心组件包括:-分布式文件系统-Map/Reduce 分布式计算用Java编写运行平台:Linux, Mac OS/X, Solaris普通的X86硬件平台ShuffleMapReduceHadoop 与与“大数据大数据”Hadoop是致力于“大数据”处理的最重要平台之一能够轻松扩展到PB级别的数据存储，处理规模带有容错功能的并行处理架构基于普通的X86平台硬件架构，硬件成本低

20、廉用内置格式存储/处理数据基于开源项目，拥有当量的代码来源，并且传统厂商也日益重视对其的支持，它已经成为重要的并行处理架构标准之一越来越多的企业接纳越来越多的企业接纳Hadoop 2007200820092010The Datagraph BlogSource: Hadoop Summit PresentationsIntel 提供企业级的提供企业级的Hadoop产品产品Intel Hadoop经过测试和验证的稳定版本，在生产环境成功部署运营包括了Intel针对现有客户在实际使用中出现问题的解决方法以及改进和优化基于Intel在云计算研发上的经验积累，提供专业的咨询服务，帮助构建高可扩展高性能

21、的分布式系统结合Intel的硬件部门，提供全面的软硬件解决方案为Intel硬件平台进行优化，提供更高性能。Complex MPP Systems(50 TB, real-time analytics)Apache Hadoop(Petabytes, batch analytics)优化的大数据处理软件栈稳定的企业级hadoop发行版利用硬件新技术进行优化HBase改进和创新，为Hadoop提供实时数据处理能力针对行业的功能增强，应对不同行业的大数据挑战Hive 0.9.0数据仓库Sqoop 1.4.1 关系数据ETL工具Flume 1.1.0 日志收集工具Intel Hadoop Manage

22、r 2.0安装、部署、配置、监控、告警和访问控制 Zookeeper 3.3.5分布式协作服务Pig 0.9.2数据流处理语言Mahout 0.6数据挖掘HBase 0.90.6实时、分布式、高维数据库Map/Reduce 1.0.3分布式计算框架HDFS 1.0.3分布式文件系统英特尔企业级英特尔企业级Hadoop堆栈堆栈33英特尔企业级英特尔企业级Hadoop数据平台特点数据平台特点更高性能更高性能基于Hadoop底层的大量优化算法，使应用效率更高、计算存储分布更均衡系统安装程序计算得出的参数配置，适合大多数应用情况与硬件技术相结合，提高平台性能稳定运行稳定运行全面测试的企业级发行版，保证

23、长期稳定运行集成最新开源的和自行开发的补丁，用户可以及时修正漏洞保证各个部件之间的一致性，使应用顺滑运行易于管理易于管理提供独有的基于浏览器的集群安装和管理界面，解决开源版本管理困难的问题提供网页、邮件和短信方式的系统异常报警功能增强功能增强提供跨数据中心的HBase数据库虚拟大表功能实现HBase数据库复制和备份功能其他针对企业用户需要的增强功能2024/7/2634英特尔英特尔Hadoop与开源与开源Hadoop比较比较英特尔产品增强开源系统原始实现针对HDFS数据节点的读写选取提供高级均衡算法，提高系统扩展性，适合不同配置服务器组成的集群简单均衡算法，容易在慢速服务器或热点服务器上产生读

24、写瓶颈，最慢服务器成为系统性能瓶颈根据读请求并发程度动态增加热点数据的复制倍数，提高Map/Reduce任务扩展性无法自动扩充倍数功能，在集中读取时扩展性不强，存在性能瓶颈为HDFS的NameNode提供双机热备方案，提高可靠性NameNode是系统的单点破损点，一旦失效系统将无法读写实现跨区域数据中心的HBase超级大表，用户应用可实现位置透明的数据读写访问和全局汇总统计无此功能，无法进行跨数据中心部署可将HBase表复制到异地集群，并提供单向、双向复制功能，实现异地容灾没有成熟的复制方案在HBase中，根据数据局部性、服务器Region数、表的Region数来实现负载均衡，适合多用户共享集

25、群创建多张大表的应用只根据Region数量进行负载均衡，容易产生系统不均衡基于HBase的分布式聚合函数，比传统方式提高10倍以上效率无成熟方案实现对HBase的不同表或不同列族的复制份数精细控制无此功能HBase的Major Compaction精细控制简单算法，容易产生合并风暴Intel对对hadoop的性能优化的性能优化为企业级应用而优化：优化后的HBase与开源版本的性能差异性能数据在8台服务器组成的小规模集群上测试得到服务器配置：E5-2680 8核CPU, 64GB内存，8块 7200rpm SATA硬盘, 千兆以太网query/sinsertion/s基于HBase数据库平均每

26、秒每服务器插入 10000 条记录 (双路, 32GB) (每条记录大约1KB)数据查询: 平均每秒每服务器大于400 次查询，查询时延小于1秒(在不同压力下0.05秒0.8秒)每次查询返回一个用户一个月的移动详细记录2024/7/2636异步复制异步复制跨数据中心大表跨数据中心大表全局虚拟大表大表数据分区存放在物理分中心多个分中心位于不同地理位置分中心之间由网络互连接入任何分中心可访问全局数据高可用性适合本地高速写入分布式聚合计算，避免大数据传输虚拟大表异步复制分中心 A分中心 B分中心 C2024/7/2637直观集群管理工具简化管理直观集群管理工具简化管理2024/7/2638专为专为

27、HadoopHadoop优化的硬件优化的硬件I/O：非标准主板设计支持最大：非标准主板设计支持最大I/O电源：高效（电源：高效（80+80+白金）热插拔冷冗余电源白金）热插拔冷冗余电源能效：双能效：双CPU分散型设计降低散热功耗分散型设计降低散热功耗内存：最大容量适应内存：最大容量适应 BigData BigData 需求需求网络：新一代网络：新一代Intel四网络口千兆以太网四网络口千兆以太网存储：支持多种硬盘数量模式，支持存储：支持多种硬盘数量模式，支持最大存储容量，适应最大存储容量，适应 BigData 需求需求新一代英特尔服务器主板产品S2600GZ “Grizzly Pass”新一代

28、英特尔服务器系统产品R2000 “Big Horn Peak”电源：高效冗余电源电源：高效冗余电源高密度：高密度：4-Node-in-2U，适用于计算密集型节点，适用于计算密集型节点，高效空间利用，降低高效空间利用，降低TCO灵活：灵活：3种主板种主板SKU提供不同计算能力提供不同计算能力新一代英特尔服务器主板产品S2600JF “Jefferson Pass”S2600WP “Washington Pass”新一代英特尔服务器系统产品H2000 “Bobcat Peak”RAS：单节点独立散热：单节点独立散热内存：按需选择不同内存插槽数量内存：按需选择不同内存插槽数量网络网络: FDR/QD

29、R InfiniBand高速互联高速互联I/O: 3至至4个个 PCIEGen3 x16 I/O易维护性：服务器节点热插拔易维护性：服务器节点热插拔3214 容量型大数据设备设计参考容量型大数据设备设计参考SpecificationDetail单一机架设备可支持20节点服务器Per node:CPU: 2x Intel(R) Xeon(R) CPU 8-core E5-2650 2.00GHz (Up to 40 CPUs in total for one rack)Memory: Maximum 384GB (Up to 7,680 GB for one rack)Storage: Maxi

30、mum 36TB, 12x 3T 3.5 SATA hard disks(Up to 720 TB for one rack)/ 24 x 1T 2.5 SATA hard disks (Up to 480 TB for one rack)ConnectionEthernet: 4x 1 Gb Ethernet PortsInfiniband: 2x QDR (40Gb/s) / FDR (56Gb/s) ports (with add-on module)Administration:1x shared or dedicated IPMI v2.0 Ethernet portRemote K

31、VM (Keyboard, Video, Mouse)Support Intel (R) Intelligent Power Node ManagerPower supply: 2x redundant 750WForm factor: 16.7”W x 16.5”L (or 424 mm x 419 mm)2 24-port QDR InfiniBand switch24x InfiniBand QDR ports1 48-port 1GbE Ethernet switch48x 1GbE portsPackaging and accessories42U rack packagingInfiniBand cables: QSFP/QSFP+Ethernet cables: RJ45InteIntel l提供企业级支持保障提供企业级支持保障LustreLustre分布式文件系统简介分布式文件系统简介LustreLustre系统架构系统架构Intel LustreIntel Lustre分布式文件系统特点分布式文件系统特点Intel LustreIntel Lustre具有良好的可管理性具有良好的可管理性谢谢 Q&AQ&A

展开阅读全文

大数据平台最佳实践

最新文档