大数据与绿色数据中心

上传人:公**** 文档编号:568497355 上传时间:2024-07-24 格式:PPT 页数:26 大小:3.13MB
返回 下载 相关 举报
大数据与绿色数据中心_第1页
第1页 / 共26页
大数据与绿色数据中心_第2页
第2页 / 共26页
大数据与绿色数据中心_第3页
第3页 / 共26页
大数据与绿色数据中心_第4页
第4页 / 共26页
大数据与绿色数据中心_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《大数据与绿色数据中心》由会员分享,可在线阅读,更多相关《大数据与绿色数据中心(26页珍藏版)》请在金锄头文库上搜索。

1、大数据与大数据与绿绿色数据中心色数据中心未来未来45分分钟钟4组组关关键词键词大数据特点(4个V)CAP理论业界三类数据库数据中心-PUE2大数据在中国大数据在中国大数据大数据 新一新一轮“信息革命信息革命”DataGrowthStatementsMckinseyGlobalInstitute200PB/季度季度智慧城市数据中国某一线城市2090亿2021年RFID标签销售量2011年是1200万1.8ZBin20112天的数据量文明起始到2003年3.88亿/5.3亿移动/互联网用户中国2012年6月$8000亿10年个人位置信息服务创造的价值5PB/年年健康档案数据中国某一线城市“数据日益

2、成为商业的新源材料: 一种与资本和劳动力并列的新经济元素.”The Economist, 2010“信息将成为21世纪的石油”. Gartner, 20103速度Velocity数据量Volume多样化VarietyGB -GB - TB TBTB - PBTB - PB以上以上数据量稳定,增长不快数据量稳定,增长不快持续实时产生数据,持续实时产生数据,年增长率超过年增长率超过6060主要为结构化数据主要为结构化数据半结构化,非结构化,半结构化,非结构化,多维数据多维数据大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,

3、从大数据量(volumes)、多类别(variety)的数据中提取价值(value),但是传统关系型数据库存在性能、存储、成本、IO瓶颈、等等的原因,无法支撑这4个V+1个E的要求,解决方法就是分布式技术、廉价的X86平台、本地存储,点出分布式技术是大数据处理的核心大数据在中国大数据在中国大数据大数据 四大区四大区别于于传统数据的特征数据的特征统计和报表统计和报表价值Value数据挖掘和预测性分析数据挖掘和预测性分析4CAP原理AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个Eric BrewerEric BrewerCCo

4、nsistencyPPartition ToleranceConsistency一致性所有的用户都可以看到一致的系统状态Availability可用性无论何时,哪怕出现硬件故障,数据中心故障,系统也可提供服务,哪怕是降级的服务PartitionTolerance分区容忍性哪怕在网络出现分割的情况下,各个独立的子系统都可以继续提供服务RDBMS与与Hadoop架构对对比比RDBMSRDBMSConnection (e.g., FC, InfiniBand)Storage (e.g., SAN, NAS,Storage Cell, etc)多个独立的关系数据库服务器,访问共享的存储资源池优势:采用

5、多个关系数据库服务器,多个存储,与原有的架构相比,扩展了存储容量和计算能力;劣势:计算与存储分离,数据访问存在竞争和带宽瓶颈;支持的关系数据库服务器数量有限;只能向上扩展(scale-up), 不能横向扩展(notscale out)适合复杂的需要事务处理的应用NewSQL与NoSQLNetwork (e.g., GbE,10GbE, Infiniband)E.g., MPP Databases (orMapReduce on RDBMS),Big Data framework (e.g.,Hadoop, HBase)由大量独立的服务器通过网络互连形成集群,每个服务器带存储。优势:计算与存储融

6、合,支持横向扩展,更好的扩展性劣势:解决数据冲突时需要节点间协作适用范围:数据仓库和离线数据分析 (MPP, Hadoop/HBase)大规模在线实时应用(单行事务处理能满足的场景)(HBase)6RDBMS:事物类处理行存储关系型小型机为主NoSQL海量全局数据处理Key-ValueMapReduceX86平台NewSQL:分析类处理列存储关系型X86平台大数据激发技术创新NewSQL:严格保证一致性、遵循关系模型,完整支持SQL92标准,一定程度上牺牲可用性和分区容错性。特点:列存、主要使用场景:主要用于结构化数据的统计分析Nosql数据库:侧重分区容错性,一定程度上牺牲一致性和可用性,突

7、破了关系模型,不一定支持SQL。特点:主要使用场景:非结构化数据的统计分析、实时查询共性:采用廉价的X86平台、本地硬盘、分布式架构7大数据推动产品创新大数据推动了数据库行业的产品创新。OldSQL阵营在基本架构不变的基础上引入内存计算和一体机技术以提升处理性能。NewSQL阵营在过去五年里形成了近十个商用的产品,去年Google发表论文介绍了F1/Spanner关系型数据库(未开源)。NoSQL阵营的技术源于互联网公司Google,Yahoo,Amazon,Facebook等。现在又出现了noSQL阵营和newSQL阵营融合的趋势,例如hadoop通过hive的扩展实现了对结构化数据的支持,

8、greenplum等产品也通过对和hadoop的融合实现了对非结构化数据的支持。RDBMS:OracleExadataDB2-DPFSQLServerNewSQL:GreenplumVerticaGBase8aF1/SpanerNoSQL:HadoopHbaseBigtableCassandra8什么什么应应用适合用适合NoSQL数据库方案方案支持PB级别数据Big Data支持非结构化数据支持结构化数据支持万级每秒查询支持高可靠性系统支持高效率统计分析大量的结构化和非结构化数据、要求可变的数据结构和高效的数据导入、查询、统计等9大数据在中国英特尔Hadoop发行版Hive 0.9.0交互式数

9、据仓库Sqoop1.4.1 关系型数据库同步工具Flume 1.1.0 日志收集工具Intel Hadoop Manager 2.2安装、部署、配置、监控、告警和访问控制Zookeeper 3.4.5分布式协作服务Pig 0.9.2数据流处理语言Mahout 0.6机器学习英特尔Hadoop发行版组件稳定的企业级hadoop发行版利用硬件新技术进行优化HBase改进和创新,为Hadoop提供实时数据处理能力针对行业的功能增强,应对不同行业的大数据挑战分布式、高维数据库分布式、高维数据库HbaseHBase 0.94的改进和创新,提供即时数据处理Map/Reduce 1.0.3稳定高效的分布式计

10、算框架HDFS 1.0.3可靠的分布式文件系统R - statistics数据统计10智慧城市智慧城市电信信零售零售终端端设备HHNB/ULTCamerasPoSKioskDS大数据在中国各行业大数据最佳实践制造制造医医疗物物联网网金融服金融服务数据中心数据中心CPUSSD10GbEInfiniband11Top Five Nominees for the 2012 US Government Big Data Solutions AwardVeterans Health Administration(退伍退伍军人健康管理人健康管理):NewBigDataapproachesandframew

11、orksprovidedataandtoolsfor20,000clinicianstotrackmedicaltrends,betteranticipateoutcomes.Thescopeofthedatasetisover80billiondatafiles.Focusedonserviceto25millionveterans.JudgesselectedVeteransHealthAdministrationbecauseoftheimpactandbestpracticesinBigDatasolutions.NASA(星图位置模拟计算):Multipleandextensivea

12、ctivities.OneofmanyexemplarswastheNASACenter for Climate Simulation (NCCS).TheirworkincludesscalableHadoopclustersforlargescaleclimatesimulations.Bureau of Engraving and Printing(文档(文档电子化)子化):Thisgovernmentagencyisthelargestproducerofsecuritydocumentsincountry.TheyhavefieldedanBigDatasolutionenhance

13、dqualityandmissionsupport,reducedwaste.Judgescharacterizedthisasagoodmatchofrightbusinessprocessestoandamoderntechnicalapproach.AMSAA(军用物用物资活活动分析)分析):ArmyMaterialSystemsAnalysisActivity.Vehicledataanalysisprograminstrumentsvehiclesintheatertocollectoperationalandenvironmentalparameterhistoricaldata.

14、Massivedatapatternscreeningandanalysistoolsetsputinplace.Result:rapididentificationofissuesbeforemissionimpact.National Cancer Institute(全国癌症机构)(全国癌症机构):ExtensiveresearchandworkingprototypesofcuttingedgesystemsbasedonHadoopandtheBigData.Judgesnotedthesignificantpotentialimpactofthissolutionaswellast

15、hestrengthofthetechnicalapproach.移动用户上网记录集中查询与分析支撑系统移动用户上网记录集中查询与分析支撑系统智能交通的智能交通的软软件架构件架构HBaseMapReduceHive即即时查询 (例如:路例如:路况信息况信息)应用程序用程序视频流流处理理 (例如:例如:实时路况路况)数据挖掘数据挖掘 (例如:例如:车辆跟踪跟踪)14面临挑战面临挑战数据源结构化、半结构化(病历),非结构化(PACS影像)数据格式标准难制定,或不断变化数据量中型城市(1000万人口)存放50年会达到10PB医疗信息区域内准实时共享,医生可快速调阅病人信息信息共享提升效率基于病史的自

16、动医疗、饮食等建议;针对病史和病症的OTC药物参考等个性化医疗疾病自动分类和诊断计算机辅助诊断趋势分析:例如,流行病扩展情况分析、癌症的历年趋势、药物效果分析决策辅助系统区域医疗健康档案系统解决问题居民电子病历存储、查询解决方案HBase分布式数据库存放健康档案和PACS影像数据特点优势高速数据导入;实时数据查询;关键字搜索;分布式统计智慧医疗与大数据智慧医疗与大数据智慧医疗与大数据智慧医疗与大数据24数据中心基础设施建设绿色技术概述数据中心绿色指标:数据中心能源效率系数PUEPUE = 数据中心总用电消耗 / IT设备能源消耗 理想的企业数据中心PUE:1.35 以下 理想的互联网数据中心P

17、UE:1.25以下 常见的PUE: 1.8 to 2.0 甚至更高Chiller 33%Humidifier 3%CRAC 9%IT Equipment 30%PDU 5%UPS 18%Lighting 1%Main switchgear / Generator 1%25WasteHeatOUTINDOORDATACENTERHEATElectricalPowerIN验收建设策划运维10 - 20 年运作寿命正在施工项目情况场地评估数据中心的策略业务战略和任务建设策划 :数据中心建设的工作范围, 制定项目里程碑设计 : 土建和工程设计 30%-60%-90% 设计审核, 项目有关的各种招标施工

18、 : 根据设计规格进行施工验收 : 制定未来运维的模式, 负责基础设施的验收运维 : 保证和维持基础设施的运作29采用Intel数据中心标准设计 施工30/60/90方案设计/系统设计/施工图设计数据中心退役处理大型数据中心基础设施建设全生命周期方法论隐含的挑战:在设计阶段能否预见到运维阶段IT系统架构的发展、变化!Issue forConstruction需求预测针对数据中心建数据中心建设标准定准定义了四个了四个级别:T1数据中心:基本型T1数据中心可以接受数据业务的计划性和非计划性中断。要求提供计算机配电和冷却系统,但不一定要求高架地板、UPS、或者发电机组。如果没有UPS或发电机系统,那

19、么这将是一个单回路系统并将产生多处单点故障。在年度检修和维护时,这类系统将完全宕机,遇紧急状态时宕机的频率会更高,同时操作故障或设备自身故障也会导致系统中断。T2数据中心:组件冗余T2数据中心的设备具有组件冗余功能,以减少计划性和非计划性的系统中断。这类数据中心要求提供高架地板,UPS和发电机组,同时设备容量设计应满足N+1备用要求,单路由配送。当重要的电力设备或其他组件需要维护时,可以通过设备切换来实现系统不中断或短时中断。T3数据中心:在线维护(全冗余系统)T3级别的数据中心允许支撑系统设备任何计划性的动作而不会导致机房设备的任何服务中断。计划性的动作包括规划好的定期的维护、保养、元器件更

20、换、设备扩容或减容、系统或设备测试等等。大型数据中心会安装冷冻水系统,要求双路或环路供水。当其他路由执行维护或测试动作时,必须保证工作路由具有足够的容量和能力支撑系统的正常运行。非计划性动作诸如操作错误,设备自身故障等导致数据中心中断是可以接受的。当业主有商业需求或有充足的预算追加,T3机房应可以方便升级为T4机房。T4数据中心:容错系统T4级别的数据中心要求支撑系统有足够的容量和能力规避任何计划性动作导致的重要负荷停机风险。同时容错功能要求支撑系统有能力避免至少1次非计划性的故障或事件导致的重要负荷停机风险,这要求至少两个实时有效地配送路由,N+N是典型的系统架构。对于电气系统,两个独立的(

21、N+1)UPS是一定要设置的。但根据消防电气规范的规定,火灾时允许消防电力系统强切。T4机房要求所有的机房设备双路容错供电。同时应注意T4机房支撑设备必须与机房IT设备的特性相匹配。193118.3C26.7C数据中心基础设施建设绿色技术2:运行温度的提高美国采暖、制冷和空调工程师协会(ASHRAE)TC9.9于2008年对机房环境要求提出的建议机房环境改变最高温度:27C,可放宽至32C最低温度:18C,可放宽至15C最高湿度:60% (15C 露点)最低湿度:25% (5.5C 露点)32数据中心基础设施建设绿色技术3:科学的气流组织34数据中心基础设施建设绿色技术4:机柜布置35水侧节能

22、装置 (Water Side Economizers)双盘管乙二醇自然冷却系统全新风自然冷却系统(Air Side)风冷冷水机配干式冷却器自然冷却系统鸡舍式热压自然循环风冷却系统转轮式热交换自然冷却系统数据中心基础设施建设绿色技术5:自然冷却自然冷却的成熟形式37480VAC服务器PS服务器机柜12, 5 & 3.3VPDUVoltageRegulatorDC/DC400VDC整流AC/DC400VDC服务器机柜208VAC服务器PS380-410V DC/DCDCUPSAC/DCPDU12, 5 & 3.3VVoltageRegulatorAC/DC傍路DC/AC480VAC电池柜Chrg电池柜DC/DC变压器变压器隔离变压器数据中心基础设施建设绿色技术6:直流技术39数据中心基础设施建设绿色技术7:清洁能源2012年4月绿色和平组织(greenpeace)发布一份名为How Clean is Your Cloud?的报告,对于各个著名IT企业的数据中心做了绿色能源评估。谢谢谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 金融/商业/投资

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号