中国移劢大数据应用实践

上传人:博****1 文档编号:569878380 上传时间:2024-07-31 格式:PPT 页数:21 大小:3.95MB
返回 下载 相关 举报
中国移劢大数据应用实践_第1页
第1页 / 共21页
中国移劢大数据应用实践_第2页
第2页 / 共21页
中国移劢大数据应用实践_第3页
第3页 / 共21页
中国移劢大数据应用实践_第4页
第4页 / 共21页
中国移劢大数据应用实践_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《中国移劢大数据应用实践》由会员分享,可在线阅读,更多相关《中国移劢大数据应用实践(21页珍藏版)》请在金锄头文库上搜索。

1、中国移中国移劢劢大数据大数据应应用用实实践践中国移动通信研究院 云计算系统部2013年12月中国移动网络规模和拥有用户数全球第一900,000 基站、99% 人口覆盖、237 国家漫游7亿3千万以上用户,占据中国大陆65% 市场份额位于珠峰大本营的世界最高移动基站 6500m2008年北京奥运会合作伙伴 连续四年入选道.琼斯指数DJSI 金融时报发布的“全球最强势100品牌”,排名第10位 2010年商业周刊评选全球创新企业50强,排名第18位33620012006200920102872001-2012 世界500强排名200520032004200222423024220072022008

2、1801489977872011812012移动互联网用户流量激增,手机数据化、宽带化趋势明显用户分布数据来源:数据来源:Infoma 2013全球移全球移劢劢互互联联网用网用户户数量激增,数量激增,已已3倍于固定互倍于固定互联联网用网用户户数量数量流量分布数据来源:数据来源:Cisco 2013移移劢劢互互联联网流量激增,网流量激增,2012年底,年底,移移劢劢数据流量占比超数据流量占比超过过13%时间分布移劢互联网:通信功能 = 80:20数据来源:数据来源:GSMA 2013移移劢劢互互联联网网应应用使用用使用时间时间激增,是激增,是使用通信服使用通信服务时间务时间的的4倍倍中国大中国大

3、陆陆移移劢劢互互联联网网发发展有相展有相类类似的似的趋势趋势,截至,截至2013年年6月,中国大月,中国大陆陆手机网手机网民已达民已达4.6亿亿,上半年移,上半年移劢劢互互联联网接入流量同比增网接入流量同比增长长62.6%(CNNIC、工信部)、工信部)transactionDBMSETLDWAnalysisClusterUnstructureStreamMultiple data sources(MapReduce)传统数据分析处理大数据处理 面向结构化数据,非结构化处理效率低 基于昂贵硬件(小型机+磁盘阵列)或一体机 硬件平台兼容性差:在跨代硬件或跨厂商硬件环境下常常无法部署 扩展性达到P

4、B级之上可选厂商较少,易绑定Traditional DB/DWTBPBDistributed architecture EB ZB 具备结构化/非结构化混合分析的能力,大数据多为非结构化 基于消费级硬件,以常态化硬件故障为设计出发点,丌依赖高性能、高可靠性硬件保障系统性能和可靠性。 基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署MPP DW+HadoopAnalysis大数据处理核心基础的转变用户 协议 业务 访问 终端 上行 下行电信运营商发挥管道优势,深入挖掘大数据的价值借助云计算技术和运营商优势,将大数据信息转化为商业价值,促进

5、业务创新1.2.3.改善用户体验:智能语音门户通过知识库和语义搜索技术实现业务知识的机器智能回答助力市场决策:充分挖掘用户的移动互联网行为特征,提升对用户消费偏好的精准把握,帮助市场营销等决策,实现精准营销。优化网络质量:利用信令数据支撑终端、网络、业分析需求分析需求流量分析流量的构成和大趋势分析等务平台关联分析,优化网络,实现网络价值最大化用户分析用户兴趣偏好、近期关注、活动范围等流量清单查询为用户提供流量的去向查询等网网络质络质量和效率分析量和效率分析网网络络价价值值分析分析客客户户感知及行感知及行为为分析分析PI网元能力层KQI业务质量层KPI网络性能层QOE客户感知层上网日志内容字段帐

6、号 类型 类型 URL 信息 流量 流量劣力市劣力市场场决策决策业务业务端到端分析端到端分析优优化网化网络质络质量量改善用改善用户户体体验验2007年3月,启动了“大云”研发项目2008年11月,作为副主任委员单位发起成立了中国电子学会云计算专委会;2010年1月,作为副理事长单位发起成立了中国云计算技术和产业联盟;2011年8月,作为副理事长单位发起成立了中国云计算发展与政策论坛;2010年5月,加入云计算国际测试床OpenCirrus,成为国内第一个成员单位;2011年12月,正式发布“彩云”个人云服务2012年12月,采用大云产品的国家教育云正式上线2013年6月,为了加强云计算和大数据

7、开发,研究院基于大云团队成立云计算系统部2013年9月,大云项目被列为集团战略性重大项目之一中国移动是国内云计算的先行者和倡导者中国移动从2007年就开始云计算的探索和实践,是国内云计算的先行者和倡导者,积极参与国内外的标准化和产业推动2009年12月建成国内规模最大的云计算实验室,服务器节点数超过1300个“大云”是中国移动为助力移动互联网转型、实现IT支撑系统升级而实施的云计算创新研发计划“大云”是中国移动为助力移动互联网转型、实现IT系统架构变革而实施的云计算创新研发计划。项目研发将满足中国移动IT系统高性能、低成本、高可扩展、高可靠性的需求,推动IT支撑系统集中化的实现,增强大数据处理

8、能力,打造移动互联网时代核心竞争能力2平台研平台研发发应应用研用研发发试验试验/试试点点314标准化产业推劢5策略研究策略研究大云方案方案/规规范范2007.32008.32007.7确定了云计算研究方向2010.5 2011.4发布大云1.5部署Hadoop系统进行大数据研究发布大云1.0发布大云2.02006.92006年2月,大数据基础软件Hadoop诞生2006年9月,亚马逊AWS服务正式上线2008年1月,Hadoop成为Apache顶级项目2008年4月,GooglePAAS服务GAE试商用2010年7月,云计算基础软件联盟OpenStack 成立2011年7月,阿里云上线试商用在

9、双业务云部署在公有云部署在一级私有云部署2013.62011.11 2012.6 2012.8“大云”研发历程“大云”是中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究、现网技术支撑及产品开发计划。项目从2007年3月启动,是国内最早启动的云计算研发项目之一。云计算引入策略、规范制定、产品研发、应用试验、产业链培育、标准化行业动态Google云计算论文:GFS /2003年,MapReduce/2004,BigTable/20062003CloudSecurityCloudMaster对象存储BC-oNest系统监控和管理平台安全管理移劢互联网业务平台IDC服务经分集中化结算系统

10、搜索引擎BC-SE经分系统ETL/DM信令系统云计算 物联资源池系统 网应用弹性块存储BC-EBS数据管理/分析类商务智能平台BI-PaaS并行数据挖 并行数据掘工具集 抽取转换BC-PDM BC-ETL数据仓库系统BC-HugeTableIaaS 产品计算/存储资源池弹性计算BC-ECPaaS 产品“大云”产品BC-BSP 数据并行框架BC-Hadoop 数据存储和分析平台“大云”2.5产品体系架构内存处理引擎BC-DME实时交易类SQL数据库BC-RDBK-V数据库BC-kvDB2.0产产品体系品体系2.5新增新增产产品品2.5功能增功能增强强版本不一,缺乏版本不一,缺乏规规划划 集成商丌

11、同,版本丌同 大云/华为/亚联/Intel/天云自有人自有人员员不足,控制力弱不足,控制力弱 主要由集成商引导和控制 自有力量薄弱 靠多家多轮测试建设大云产品开源社区增强产品的研发和推广能力在试点中发现省公司关于使用Hadoop的问题:调优调优复复杂杂,门槛较门槛较高高 应用不平台绑定 调优斱法复杂多样开源的开源的优势优势:吸引多斱研发力量:包括集成商、应用开发商、高校科研机构、互联网企业等拓展应用渠道:推进开源产品的应用实践促进统一版本:促进集团、省公司选择内部开源版本,全国版本统一化,利于核心技术的掌控提高集成商运维积极性:开源代码透明、可维护程度高将基于开源将基于开源Hadoop软软件的

12、大云大数据平台件的大云大数据平台BC-Hadoop开源,开源,尝试尝试开源模式!开源模式!大云开源社区BC-Hadoop最新进展社区建设:在大云实验室搭建开源站点,选择github作为镜像站点,并确定了开源组件模块和基线版本开源合作:研究院大云团队和亚联、华为研发人员组成核心团队负责社区研发的启劢,开源社区迓得到了来自卓望、新大陆、拓维、东软、宜通、亿阳、斯特奇、北邮和东北大学等公司和院校的支持 大云开源社区期待幵大云开源社区期待幵欢欢迎各方的加入!迎各方的加入! http:/ 大云的商用涵盖公司“两朵云”以及外部行业云,成功应用于移动IT支撑系统,互联网业务平台,公众服务云、教育云和电子政务

13、云等领域。 大云产品已部署了超过3000台服务器,裸存储容量约15PB。 截止12年底,累计为公司创收和节省成本7000万元以上。2727211594大云实验室设备规模计算节点1180个,内核总数6432个,内存18.8TB,存储容量4PB+网络设备50台,千兆接入端口1248个,万兆接入端口384个,IB-40Gb接入端口80个大数据资源池测试区研发区虚拟化资源池统一运营管理平台 自服务资源 资源使用监申请、释放 控和统计PUE = 1.504大云实验室功耗统计大云实验室运营运维管理统一运维管理平台 自动化安 自动化故装部署 障报修典型的应用场景之一:大数据批处理系统目目标标:针对针对海量海

14、量结结构化、非构化、非结结构化数据的构化数据的ETL操作。从各种数据源操作。从各种数据源获获取数据,幵取数据,幵进进行清洗、行清洗、转换转换、去重、缺、去重、缺值补值补充等操作。通常采用充等操作。通常采用MapReduce等幵行等幵行计计算技算技术术。技术要求丼例:针对海量数据实时离线批处理运算(ETL),通常时间要求较为宽松,如几个小时级别。数据ETL运算种类多,灵活性强,通常具有很强的定制化特征数据通常需要导出到数据库、数据仓库,提供报表能力需要灵活的调度的系统,便于系统需要和其他业务系统混合部署,提高资源利用水平例图:分时段汇总的业务场景典型的应用场景之二:大数据查询系统目目标标:针对针

15、对海量海量结结构化、半构化、半结结构化数据的精确定位、区段构化数据的精确定位、区段扫扫描等条件描等条件查询查询操作,用操作,用于网于网络优络优化、化、帐详单查询帐详单查询、故障定位、搜索引擎等、故障定位、搜索引擎等业务场业务场景。景。采集采集预处预处理理计计算算1计计算算2融合融合处处理理大数据大数据库库大数据大数据库库原始原始数据数据消息消息营业厅营业厅系系统统营业厅1营业厅2营业厅3营业厅4例图:帐详单查询系统技术要求丼例:针对海量数据实斲交互式查询,迒回时间在1秒钟左右。针对海量大数据规模实斲查询,数据规模可以达到100TB-10PB规模。数据插入通常采用批处理斱式,而查询通常带有条件,

16、通常迒回结果数较少系统具备较高的并发性,支持大量用户同时查询,依然可以在给定时间出口迒回结果数据具有很高的可靠性和可用性要求其它人群人群1例图:客户分类识别应用典型的应用场景之三:大数据分析挖掘系统目目标标:针对针对海量海量结结构化、非构化、非结结构化数据的构化数据的进进行深度挖掘。通常需要根据行深度挖掘。通常需要根据业务业务需求需求设设计计模型、模型、训练训练集幵集幵选择选择算法(分算法(分类类、聚、聚类类、关、关联联、非、非结结构化)。通常会使用各种分构化)。通常会使用各种分布式数据挖掘工具和算法布式数据挖掘工具和算法技术要求丼例:针对海量数据实斲全量数据挖掘,规模达到10TB-PB规模。

17、处理时间没有严格要求,通常达到几个小时,甚至更长时间需要支持各种并行计算模式,如MapReduce、BSP等数据挖掘系统需要较好的用户界面,用户通常具备业务知识,但是未必具备开发经验系统可以和其他系统混合部署数据具有一定的可靠性和可用性要求数据外存 外存 存储储储约约800GB(经经分分13.5亿亿) 经经分分50GB)(应应用案例用案例1:云化:云化ETL完成了省公司每日近完成了省公司每日近170亿亿的数据的数据处处理理仸务统仸务统一一调调度度16接口机接口机文件级校验ODS DWD DW层库 层库 层库外转换应用层数据云云计计算算Hadoop库库内内处处理理DW层数据处处理流程理流程说说明

18、:明:云平台从接口机采集数据入HDFS分布式文件系统,同时负责数据预处理、原始生产数据的清洗和转换,以及各平台间的数据交换,从而实现ODS-DWD-DW层数据处理加工工作。库外仸务由云平台统一调度、监控。传统数据仓库库内处理工作逐渐迁移至库外,只提供应用层展现功能。数据装载6、库外稽核文件采用文件采用LZO压缩压缩(接近(接近4:1)每天新增每天新增约约4.6T的原始数据量,的原始数据量,压缩压缩后大概后大概1.3T需先预处理,再进行文件采集,从而提高传输协议传输协议效率约约1.3TB 62亿亿条条约约3.4TB1文件采集到云平台原始数据原始数据4.6TB2Datanode数量数量Nameno

19、de数量数量日程序运行开始日程序运行开始时时间间日程序运行日程序运行结结束束时时间间总总流程平均运行流程平均运行时时长长67台2台6:30:0018:00:0011.5小时大数据平台大数据平台处处理能力理能力FTP方式获取上游数据通过Map/Reduce + SQL Loader将DW层数据加载至数据仓库(Oracle)指定表中触发FTP抽取任务,从指定FTP路径抽取文件,再存入HDFS文件系统流程70个 流程16个 流程81个3 4 5162亿亿条条 149亿亿条条爬虫速度500W网页/天/节点网页解析及分类1400W网页/天/节点数据层互联网网页用户上网日志InternetCMNET/CM

20、WAP/WLAN日志用用户户群提取群提取服务层访问热访问热点点分析分析业务竞业务竞品品分析分析URL查询查询关关键词检键词检索索SaaSDaaSBC-Hugetable:支持海量日志存储及各种汇总、统计分析;网页存储能力层BC-SE:支持爬虫、网页解析、自然语言解析等;BC-PDM:支持海量结构化及非结构化数据分析挖掘应用案例2:在互联网内容分析系统中应用结合用户上网日志及互联网网页内容,为精准行销提供用户行为偏好分析;为互联网业务发展提供大趋势及业务竞品分析能力应用案例3:去IOE实践BC-RDB主要用于海量数据的实时在线交易处理系统,包括计费、结算系统等实时系统,CRM、ERP进销存等交易

21、系统以及其他应用系统。现现网网业务业务平滑迁移平滑迁移BC-RDB支持标准SQL92,支持业务从传统的关系型数据库平滑迁移到BC-RDB之上。应用业务逻辑程序仅需做少量改造(修改原有数据库的非标准语句),甚至可以直接迁移。RDB相比相比传统传统方式有方式有40%以上提升。以上提升。0.60.40.2010.8SQL1SQL2SQL3SQL4SQL5CRM SQL耗耗时时比比对对oraclerdbRDB相比相比传统传统方式有方式有40%200%提升。提升。321054SQL1SQL2SQL3SQL4SQL5PBOSS SQL查询查询耗耗时时oracleRDB ;应用案例4:新浪微博爬取与挖掘目标

22、针对新浪微博的用户信息、交往关系、微博内容、位置等数据进行实时爬取不分析。可实现市场产品的定向营销和目标客户群体发现。支持用户对自定义条件的目标群体进行检索和整体社交关系分析;支持对目标群体中的各社团子群体发现和特征分析;支持目标群体中用户关注内容和位置聚集信息分析;针对个人用户发现交往行为变化和实时关注点主要功能1.2.3.4.5.6.用用户户交往关系交往关系图图生成生成:利用粉丝关注关系和转发评论,构建用户交往关系图用用户户地点信息地点信息统计统计:根据签到信息,统计用户常出现地点,发现活劢规律热热点点话题发现话题发现:从用户近期发布微博中发现用户关心的热点事件关关键词键词提取提取:从用户

23、近期微博中提取出关键词,从中发现用户特征用用户户信息挖掘信息挖掘:统计用户的性别、地域等基本信息个人分析个人分析:对用户发微博的时段分布、用户近期密友等进行统计分析谢谢谢谢Thanks !中国移动在我国云计算标准化中的工作 大云倡导IT事实标准和开源合作,推动产业整体健康发展。全面参与ITSS、SOA、CCSA等国内标准化组织 在首批云计算国家标准立项计划(共8项)中,中国移动牵头负责2项弹性计算应用接口和基于对象的云存储应用接口的国家标准的制定云主机和云存储是云计算服务的基础功能,使用最为广泛,对用户的价值最高。2个应用接口标准的实现了云服务接口层的标准化,为云服务的互操作、云服务的可迁移提供了基础保障。制定过程中广泛征求了主流云服务提供商的意见,参考了业内事实标准(如AWS)的最佳实践,实现了兼容性,扩展性和标准化的有机统一。“大云大云”产产品全面支持国家云品全面支持国家云计计算算标标准!准!弹性计算接口对象存储接口

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 金融/商业/投资

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号