电信大规模数据处理需求与实践

上传人:xmg****18 文档编号:118723790 上传时间:2019-12-23 格式:PPT 页数:29 大小:4.21MB
返回 下载 相关 举报
电信大规模数据处理需求与实践_第1页
第1页 / 共29页
电信大规模数据处理需求与实践_第2页
第2页 / 共29页
电信大规模数据处理需求与实践_第3页
第3页 / 共29页
电信大规模数据处理需求与实践_第4页
第4页 / 共29页
电信大规模数据处理需求与实践_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《电信大规模数据处理需求与实践》由会员分享,可在线阅读,更多相关《电信大规模数据处理需求与实践(29页珍藏版)》请在金锄头文库上搜索。

1、中国电信大规模数据处理需求 及应用实践 中国电信广州研究院 20106 2 广州研究院广州研究院 目录 v电信面临的海量数据处理问题 v云计算大规模分布式处理平台 v云计算分布式技术应用实践 3 广州研究院广州研究院 背景全面数据时代 海量电信 运营数据 海量互联 网数据 计费数据 网页 用户账户数据 网络流量数据 安全数据 音频 图片 每用户每年产生150kB计费信息,1000万用户每年10TB, 实际上往往50TB以上,在100TB左右 视频 p 一个地市运营商,每 天产生24亿条话单记录 ,约1TB,一年约 350TB p 用户数据 p ChinaNet骨干网,每 天产生10TBnetf

2、low流量 p 截至2009年互联网有 336亿个网页,每个网页 28.6KB,约1PB p 海量数据时代,我们疲于收集的是蕴含信息的“财富”还是占据存储空间和处理 能力的“垃圾”? 4 广州研究院广州研究院 背景电信系统vs互联网系统 计费计费系统统 客户户关系管理系统统 经经分系统统 搜索引擎 社交网络络 门户门户网站 5 广州研究院广州研究院 互联网公司应对措施 推出基于mapreduce的云计算技术架构,30 万台服务器,为搜索等互联网应用提供海量存 储和处理能力 领导Hadoop开源云计算架构,部署生产集群/ 科研集群,提供个性化、反垃圾邮件等服务 每天80-90TB,部署Hadoo

3、p集群,2250台 机器,贡献HIVE等数据分析工具 每天500TB,部署Hadop集群,1100台机器 ,海量数据存储和分布式计算 基于mapreduce开发分布式处理平台,启动 阿拉丁计划,搜索“暗网”信息 背景业界主要应对措施 中国移动大云(BigCloud) p 基于X86架构的大规模服务器集群+MapReduce云计算分布式技术逐渐成为业界趋势 p 基于并行计算的数据挖掘、机器学习方法逐渐成为主流的数据分析方法 p 开源Hadoop云计算架构被广泛用于构建企业大规模服务器机群,提供大规模存储和计算能力 p 云计算分布式技术与数据仓库技术相结合,主要用于数据分析工作,不适合于实时事务操

4、作 构建中国电信大规模分布式处理平台,为电信应用和互联网应用提供海量数据存储和并行计算能力 6 广州研究院广州研究院 目录 v电信面临的海量数据处理问题 v云计算大规模分布式处理平台 v云计算分布式技术应用实践 7 广州研究院广州研究院 分布式服务引擎(DSE) vDSE定义:中国电信PaaS云计算平台,利用云计算分布式技术解决海量数据分析处理问题, 并将一系列基于数据分析和信息处理的基础服务抽象成公共模块提供给用户,简化用户应用 的开发周期。 v能力定位:面向亿兆级数据规模的系统 v功能定位:电信应用的核,互联网应用的组件 v设计定位:抽象公共基础服务,简化应用开发 SOAP RESTHTT

5、P CL I 海量存储储及分布式计计算服务务 基础础能力 (数据分析、信息处处理 ) 服务务能力 (搜索、位置、分类类 ) 基础础平台服务务 DSE 运营营管理系统统 互联联网应应用开发发者 电电信应应用开发发者 OSS/BSS 互联联网应应用 移动动互联联网 应应用 物联联网应应用 科学计计算 8 广州研究院广州研究院 DSE-技术架构 分布式数据库分布式文件系统任务分解及调度缓存服务 硬件平台 分布式平台 基础能力层 (数据分析、 信息处理) 内容分类 及过滤 搜索服务位置服务 服务能力层 (信息服务) ONS系统 EPC查询流量分析 可视检索 餐饮搜索 行为分析 应用层 热点播报 行业资

6、讯 配置 调度 监控 接入 邮件服务 单点登录 账号服务 平台 服务 运营 管理 关系型/分布式 数据库查询引擎 统计分析 聚类 关联分析 图表服务 分类 预测 数据获取特征提取快速索引文本处理可视处理 内容分发 9 广州研究院广州研究院 DSE-能力定义 10 广州研究院广州研究院 DSE应用科学计算 v 科学计算任务特点: 个案性质,对计算、存储、网络等基础资源具有临时、大量、突发需求 v 使用平台的基础能力: 通过DSE开放的存储接口和计算接口,将科研计算任务部署运行到DSE平 台上,分享平台的大规模处理能力,按需获取所需的计算资源。 DSE存储接口图表服务 MapReduce 计算接口

7、 自服务站点 编写 MapReduc e计算任 务 上传 数据 定制资 源,启 动任务 层现结 果,释 放资源 11 广州研究院广州研究院 DSE应用-互联网信息应用 v互联网信息类应用:产生或使用大量信息,如垂直搜索、新闻资讯、社交网络、音/视频应用 v特点:海量数据处理需求、大规模用户请求 v基于DSE的功能模块组建互联网应用,调用DSE信息服务简化应用开发 基础数据分析模块、基础信息处理模块 v把应用运行在DSE平台 DSE提供Web服务集群,满足大规模用户请求 信息检检索 信息层现层现 数据抓取 信息处处理 数据分析 数据整理 互联联网信息应应用 互联联网数据 电电信运营营数据 IP地

8、址库库 用户户数据 流量数据 网页页数据 评论评论数据 图图像数据 音视频视频数据 12 广州研究院广州研究院 DSE应用-移动互联网应用 v 移动互联网应用特点: 受终端处理性能限制, 计算任务在服务器端运 行,适合“云+端”形 式 v DSE能力 海量存储能力,满足移 动终端数据的接续性 大规模分布式处理能力 ,满足计算需求 高速的互联网和3G网 络带宽,满足应用的网 络需求 v 应用模式: Web+Widget模式, 开发个性化互联网服务 DSE平台 移动动互联联网 应应用开发发者 上网本 PCMID手机 开发发/部署 应应用 访问应访问应用 Browse/Wid get 13 广州研究

9、院广州研究院 DSE应用-电信应用系统 v电信数据分级 事务型/操作型数据系统:动态实时数据,关系数据库,一致性、实时性要求 分析型数据系统:静态历史数据,数据仓库,离线分析、深度挖掘,决策 vDSE提供大规模并行计算能力,适合对历史数据作离线分析 v应用模式: 提供分布式数据仓库存储历史数据 提供基于MapReduce的数据总结方法、统计分析方法、数据挖掘方法 数据抓取/数据推送 数据分析(统计统计分析、数据挖掘) 电电信运营营数据(网管数据、流量数据、用户户数据) 分析分析结结结结果果 Hbase数据库库MySQL数据库库HDFS文件系统统 开发发者 14 广州研究院广州研究院 DSE应用

10、-物联网 v 物联网: 通过电子标签(RFID)、传感器、二维码等技术和设备,将物体与互联网等各类网 络相连,实现物与物、物与人之间的信息交互 v 互联网支撑系统: ONS、EPC查询 超大规模的存储和计算能力,高速的网络带宽 海量数据分析能力 v 互联网应用系统: 大规模的数据查询请求 物联联网 网络络 物联联网应应用系统统(数据 采集、交互、传传送) 物联联网信息支撑系统统 (数据分析、查询查询响应应 ) DSE平台 HDFS MapReduce MySQL HBase 用户户 15 广州研究院广州研究院 DSE应用-IPv4/IPv6应用迁移 v IPv6网络内容匮乏,CP/SP缺乏迁移

11、动力 v 构建具有双栈能力的应用迁移和内容分发平台,同时为IPv4和IPv6用 户提供服务 v DSE提供海量存储和分布式计算能力 16 广州研究院广州研究院 目录 v电信面临的海量数据处理问题 v云计算大规模分布式处理平台 v云计算分布式技术应用实践 17 广州研究院广州研究院 分布式处理平台工作进展 17 18 广州研究院广州研究院 应用实践之一:NetFlow流量分析 19 广州研究院广州研究院 应用实践之一:Netflow流量分析 19 Cluster sizeRecords processed in 5 minutes 113559700 583229840 10164147740

12、Map reduce天然适合大型网络的Netflow流量分析和挖掘 20 广州研究院广州研究院 应用实践之二:可视搜索 21 广州研究院广州研究院 应用实践之三:美食搜索 v 系统目标 利用互联网大量点评信息为用户提供快速的消费决策 v 核心技术 海量信息抓取,过滤 情感分类,点评摘要 21 22 广州研究院广州研究院 应用实践之三:美食搜索 22 2222 6.关注趋势图 7.关注情感趋势图 2.按关注重点自动分类 1.评论摘要 3.评论摘要:按正面情感 4.评论摘要:按负面情感 5.评论摘要:按中立情感 23 广州研究院广州研究院 应用实践之四:行业资讯 v 系统目标 从互联网实施抓取最新

13、的行业资讯,为企业内部人员提供IPv6、移动 网、云计算等专题的最新技术信息和新闻 v 核心技术 定向抓取、自动去重、话题分类 智能抽取规则定向抓取 智能信息抽取关键词分类 去重处理去噪处理 定制关键字 推送数据 互联网 Cinlab平台 24 广州研究院广州研究院 应用实践之四:行业资讯 25 广州研究院广州研究院 应用实践之五:热点播报系统 26 广州研究院广州研究院 26 评论详情新闻详情 应用实践之五:热点播报系统 数据通信研究部 访问门户 PC用户 访问门户 手机终端 新闻详情 评论详情地头社 27 广州研究院广州研究院 应用实践之六:IPv4/IPv6协议转换 v 网络加速融合了IPv4/IPv6互通、内容加速及重排等功能,是极富有价 值的应用 移动用户 云计算软件平台 (内容过滤,页面重排) 自动分布 HTTP请求 内部云计算平台 (加速云) IPv6互联网 IPv4互联网 移动用户宽带用户 云计算硬件平台 谢 谢 ! 更多应用体验,请访 问数据部创新应用平 台: www.cinlab.co m 知识回顾知识回顾 Knowledge Knowledge ReviewReview

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号