大数据科学与工程系列

上传人:012****78 文档编号:130147604 上传时间:2020-04-25 格式:PPT 页数:97 大小:11.18MB
返回 下载 相关 举报
大数据科学与工程系列_第1页
第1页 / 共97页
大数据科学与工程系列_第2页
第2页 / 共97页
大数据科学与工程系列_第3页
第3页 / 共97页
大数据科学与工程系列_第4页
第4页 / 共97页
大数据科学与工程系列_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《大数据科学与工程系列》由会员分享,可在线阅读,更多相关《大数据科学与工程系列(97页珍藏版)》请在金锄头文库上搜索。

1、大数据科学与工程系列大数据体系结构 陈志成中国科学院大学2014年06月 主要内容 一 大数据时代的新命题二 大数据的体系结构三 大数据的关键技术四 物联网与云计算架构五 知名企业大数据架构六 大数据系统设计案例总结 交流 作业 一 大数据时代的新命题 谷歌大数据中心 全球主要DC有8个 大数据表象概念 百度数据规模 大数据表象概念 对系统要求 大数据时代的新命题 数据在爆炸式增长 互联网海量大数据 物联网各类型数据发数据处理能力要求提高 大规模数据存取方式 大数据并行技术能力数据间关联性分析加强 社交网络关系 多业务关联性 用户行为分析网络数据的实时同步 一切营销都线下 线上 多业务跨地域数

2、据同步 数据结构化 本身是最具挑战性的一个环节 海量数据与快速处理是一对悖论 信息社会需求 信息化 智能化 现代化 农业社会 工业社会 信息社会 人力工具 镰刀 锄头 动力工具 机车 机床 智能工具 推理机 智能网 信息时代的大数据需求 信息时代数据大爆炸 推动智能技术发展 信息时代 软件编程模型发展 面向信息处理 的智能化编程模型 编程简化为数据配置与管理 大数据 技术架构 数据智能 二 大数据的系统架构 传统数据库技术架构 Oracle数据库体系架构 大数据架构 分层架构 从数据在生命周期看 大数据从数据源经过分析挖掘到最终获得价值需要经过5个环节 包括数据准备 数据存储与管理 计算处理

3、数据分析和知识展现 大数据的系统架构 整体系统架构 新一代编程语言 大数据架构 整体逻辑功能架构 大数据架构理解 搜索引擎 大数据架构理解 网页内容抓取 大数据系统架构Hadoop Hadoop分布式系统组成 大数据系统架构Hadoop 在图中 Hadoop主要的功能组件有 HadoopCommon 包含HDFS MapReduce和其他项目公共内容 HDFS Hadoop分布式文件系统 MapReduce 一个用于并行处理大数据集的软件框架 Map函数接受一组数据并将其转换为一个键 值对列表 输入域中的每个元素对应一个键 值对 Reduce函数接受Map函数生成的列表 然后根据它们的键 为每

4、个键生成一个键 值对 缩小键 值对列表 HBase 类似GoogleBigTable的分布式NoSQL列数据库 Hive 是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表 并提供完整的sql查询功能 可以将sql语句转换为MapReduce任务进行运行 Zookeeper 分布式锁 提供类似GoogleChubby的功能 Avro 新的数据序列化格式与传输工具 将逐步取代Hadoop原有的IPC机制 Pig 大数据数据流分析平台 为用户提供多种接口 Sqoop 在HADOOP与传统的数据库间进行数据的传递 大数据系统架构Hadoop 功能定位 1 大数据系统架构H

5、adoop 层次对应 大数据 分布式计算架构 大数据架构 MapReduce工作原理1 大数据架构 MapReduce工作原理2 三 大数据的关键技术 大数据关键技术到底有哪些 核心问题是 计算 存储 分析 算法 大数据 恐怖的大数据 生活示例 智能性 数据分析 自然语言理解逻辑推理 演示 艺术性 分形算法 视频动画 演示 大数据关键技术1 大数据存储技术 数据的海量化和快增长特征 以及数据格式的多样化是大数据对存储技术提出的首要挑战 要求底层硬件架构和文件系统在性价比上要大大高于传统技术 并能够弹性扩展存储容量 谷歌文件系统 GFS 和Hadoop的分布式文件系统HDFS HadoopDis

6、tributedFileSystem 奠定了大数据存储技术的基础 GFS HDFS将计算和存储节点在物理上结合在一起 从而避免在数据密集计算中易形成的I O吞吐量的制约 同时这类分布式存储系统的文件系统也采用了分布式架构 能达到较高的并发访问能力 网络附着存储系统 NAS 和存储区域网络 SAN 等体系 存储和计算的物理设备分离 它们之间要通过网络接口连接 这导致在进行数据密集型计算 DataIntensiveComputing 时I O容易成为瓶颈 单机文件系统不提供数据冗余 可扩展性 容错及并发能力差 大数据关键技术2 并行计算能力 大数据的分析挖掘是数据密集型计算 需要巨大的计算能力 针

7、对不同计算场景发展出特定分布式计算框架 Yahoo提出的S4系统 Twitter的Storm 谷歌2010年公布的Dremel系统 MapReduce内存化以提高实时性的Spark框架 数据爆炸 知识贫乏 大数据关键技术3 数据分析技术 基于计算流体力学的三维呈现 如用能场所3D场景及CFD温度及能效云场呈现如下图 大数据关键技术4 数据显示技术 大数据分析 世界杯 英格兰vs意大利1 2 数据热图 大数据关键技术5 数据挖掘算法 神经网络NeuralNetworks 聚类分析Clustering OpenAccn t AddNewProduct DecreaseUsage Time 序列分析

8、SequenceAnalysis 决策树DecisionTrees 倾向性分析 客户保留客户生命周期管理目标市场价格弹性分析 客户细分市场细分 倾向性分析客户保留目标市场欺诈检测 关联分析Association 市场组合分析套装产品分析目录设计交叉销售 大数据关键技术5 数据挖掘算法 数据挖掘的主要方法 分类 Classification 聚类 Clustering 相关规则 AssociationRule 回归 Regression 其他 知识发现系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发现系统是一个自动 半自动过程知识发现系统要有很好的性能 知识发现KDD系统特征 数据挖

9、掘主要方法 ETL ETLProcessFrameworkETL工具有 OWB OracleWarehouseBuilder ODI OracleDataIntegrator InformaticPowerCenter AICloudETL DataStage DataSpider 等 四 物联网与云计算架构 互联网上的物联网 概念 互联网上的物联网 发展 2009年8月7日 温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中心 提出 在传感网发展中 要早一点谋划未来 早一点攻破核心技术 明确要求尽快建立中国的传感信息中心 或叫 感知中国 中心 2010年2月25日 中国首个传感网大学科技园在

10、无锡成立 北京邮电大学无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构 移动 电信 联通三大运营商纷纷在无锡成立物联网研究中心 以无锡为首的国内大中城市争相建设智能城市 争取成为感知中国示范城市 2010年3月2日 上海物联网中心在上海嘉定揭牌 宣称将以此打造国内最具竞争力 具有国际影响的物联网技术研发基地 总投资达8亿元 把合作伙伴锁定为中国科学院上海微系统与信息技术研究所 2010年3月9日 中国物联网标准联合工作组筹备会议在京召开 3月中旬 浙江省成立了物联网产业规划编制小组 浙江省经济和信息化委员会副主任郑一方担任组长 杭州市已经联合浙江省工业经济研究所启动物联网产业调研和发

11、展规划编制工作 提出 感知杭州 的发展愿景 物联网的体系架构 物联网的体系架构 物联网的体系架构 物联网示范 智能家居大数据管理系统 物联网示范 动态跟踪管理 牧场大数据 物联网示范 医疗健康大数据管理体系架构 云计算演进 桌面云理解 ND NC CCN 云计算架构 通用三层架构 IBM为例 加BPaaS IaaS PaaS SaaS BPaaS 云计算的不同服务层次和内容 云计算的应用案例 广州品高IaaS 云计算的统一数据中心 Cisco sCloudComputingApproachCombiningtheunifieddatacenterandcloudintelligentnetwo

12、rkNetworkServicebecomesanessentialelement 五 知名企业大数据架构 又拍云存储架构 大数据 IBM大数据方案 大数据分析实例 北京邮电大学 云海 移动互联网数据分析平台 1 大数据架构 曙光智慧交通系统架构 1 大数据架构 IBM 1 大数据架构 HP云监控大数据解决方案 大数据架构 Intel分布式Hadoop架构 大数据架构 微软大数据解决方案 设计了一套基于MicrosoftSQLServer2012和MicrosoftAzureHDInsight的端到端大数据解决方案 在HDInsight上快速部署Hadoop群集 大数据平台架构 引跑科技Eng

13、ineOne平台 大数据虚拟化架构 VMWareBDE vSphereBigDataExtensions BDE 是VMware基于Serengeti开源技术的企业发行版 增强基础架构 更好地部署 运行和管理大数据负载 虚拟化应用 大数据虚拟化 BDE Serengeti 的部署结构图 大数据虚拟化架构 VMWareBDE Serengeti管理服务器的系统架构图 大数据架构 Netflix基于AWS的大数据平台 不用HDFS而用amazon的S3 美国最大的在线DVD租赁商 奈飞公司 提供在线影片租赁业务 Siri的技术实现架构 大数据 购物网站的大数据分析系统 大数据 某银联机房大数据架构

14、 大数据 安全架构 六 大数据系统设计案例分析 1 Web数据分析系统的软件验证模型 模型体系与模型转换 分析模型元模型 数据访问层元模型 业务逻辑层元模型 展现层元模型 2 淘宝大数据架构 淘宝大数据架构 大数据架构 淘宝海量数据产品技术架构 按照数据的流向来划分 淘宝的数据产品的技术架构分为五层 自上而下 分别是数据源 计算层 存储层 查询层 产品层 大数据架构 淘宝海量数据 搜索引擎架构 大数据架构 淘宝海量数据 网络服务架构 3 大数据架构设计 智慧城市架构设计 基于结合物联网 云计算 大数据的智慧城市系统架构 案例分析 基于工业物联网与大数据分析平台的能源管理系统 总体架构 社会大生

15、产无序无控排放是环保死敌 一次能源生产 二次能源生产 一次排放 二次能源使用 二次排放 次生排放 原煤油气矿 精炼电热油焦矿 当前热点雾霾污染问题根源来自于无序无控排放 现在公布的雾霾指数标示只是城市若干个监测点的结果呈现 具体排放源头及排放关键因素是什么 基于国情大量燃煤 燃煤换能效率低排放高 二次排放占较大比例 二次能源消耗再产生大量次生排放 煤 煤电热焦 电热焦油气 所有排放环节均缺失精细在线监测数据 无序无控恶性排放无缘节能增效 发展决定总体能耗继续升高 缓解危局只能走节能减排信息化助力工业节能改造道路 节能减排的难点及瓶颈 节能减排是覆盖全社会所有生产消费过程的大系统工程 配套的能源

16、排放在线计量监测管理分析评估大数据信息化系统是其关键基础架构 目前存在四大难题 1 节能规划部署2 能耗诊断审计3 节能手段实施过程控制4 节能效益量化计算 EPC分成认证上报 电信运营商覆盖全国物联网及云计算体现优势 十二五期末年排放超千吨标煤的省级重点能耗单位原则上必须纳入政府节能减排监管机构的监测量化管理 年排放超万吨标煤的国家级重点能耗单位必须自建企业级能源管理系统接入当地市级能源管理监控中心 市级汇聚到省级能源管理监控中心 省级接入中央发改委全国能源管理监控中心平台 市省中央所汇集的排放原始数据向全社会开放 这样超级大数据系统需要极高的云计算网络存储资源 还要对各用能户建立多维度关联能耗排放模型 对自控可靠的用能户以模型仿真模拟结果对相关用能设备实施反向开关待机操作 实现用能设备动态能效优化 这样的操控实施理应掌控在国有3大运营商手中 解决瓶颈问题 其他问题迎刃而解 物联网云计算大数据结合 关键技术途径 网管系统 动环系统负责运营商自身能耗数据采集及融合 政府发文强制重点能耗企业采用标准化物联网采集网关及国标智能电表无线接入此系统 或企业已有系统按统一能耗排放数据采集及接口标

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 人事档案/员工关系

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号