{管理信息化大数据分析}从大数据热看我国计算机学界的机遇

资源描述

《{管理信息化大数据分析}从大数据热看我国计算机学界的机遇》由会员分享，可在线阅读，更多相关《{管理信息化大数据分析}从大数据热看我国计算机学界的机遇（47页珍藏版）》请在金锄头文库上搜索。

1、从大数据热看我国计算机学界的机遇,周傲英,计算机科学专业分类Specialties under Computer Science,科学 (Sciences) 计算机科学 (CS) 人工智能 (Artificial Intelligence) 程序设计语言 (Programming Language) 系统 (Systems) 理论 (Theory) Engineering- Computer Engineering Business/Library- Information System,大数据意味着什么？,新的技术？新的系统？新的产品？新的平台（服务）？新的的机遇！,提纲,大数据分类

2、技术和系统全景发展驱动力中国数据界的机遇值得探索的思路,大数据分类 (Sorting),从应用性质来分,网络空间大数据互联网大数据金融大数据移动大数据物理空间大数据传感器数据科学实验/观测数据,从支撑系统来分,7,分布、高性能大数据管理（海量数据的“云”管理）,管理,分析,信息服务,决策支持,科学研究,科学数据,决策数据,WEB数据,分类,从支撑系统来分,WEB数据决策数据科学数据科学实验科学观测科学文献设计数据,8,分类/应用的关系,技术和系统全景(Landscape)绕不开的Hadoop别忘了数据库数据流(CEP)系统科学/统计数据库CAD/CAM数据库共

3、同的原点：文件系统,绕不开的Hadoop,需要以低廉的价格处理更大数据量 GFS (2003), MapReduce (2004), BigTable (2006) Hadoop 在2006年开源随后有了 Pig, HBase, Hive, Zookeeper, Sqoop, Oozie,Hadoop史前,2003: GFS (Google文件系统)论文发表 Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung: The Google file system. SOSP 2003: 29-43 2004: MapReduce论文发表 Jeffrey

4、Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters. OSDI 2004: 137-150 2006: BigTable论文发表 Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al: Bigtable: A Distributed Storage System for Structured Data. OSDI 2006: 205-218,Hadoop诞生,2004年：Doug Cutting和Michael J. Cafarella根据Goog

5、le Lab论文实施，取名Hadoop。 Cloudera公司，Hadoop商用版（Apache开源版） 2005秋天 : Hadoop 由Apache作为 Lucene的子项目 Nutch的一部分正式引入。 2006年3月：Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入 Hadoop 的项目中 2006.1 2008: Web-scale Hadoop! (Yahoo!),Hadoop生态圈（部分）,Hadoop Common：在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和

6、MapReduce成为独立的子项目 MapReduce：分布式并行计算框架，Hadoop的核心 HDFS (Hadoop Distributed File System)：所起的作用就是使得每个服务器必须具备对数据的访问能力 Pig：编程语言，简化Hadoop常见的工作任务，Pig可加载数据、表达转换数据以及存储最终结果,Hadoop生态圈（部分）,Hbase (BigTable)：分布式列存储数据库，2006年成为Hadoop子项目，2010年5月顶级 Apache 项目 Hive (Facebook): 数据仓库工具，架构在HDFS之上，增加静态数据结构，方便使用进行数据分析查询，2008

7、年9月成为Hadoop子项目 Zookeeper (Facebook)：分布式锁设施，提供类似Google Chubby的功能 Avro：新的数据序列化格式与传输工具，2010年5月成为顶级 Apache 项目 ,Hadoop在数据管理中的地位,Hadoop是一个可以更容易开发和存储大规模数据的软件平台，帮助用户快速、低成本地实现大数据的存储、管理及分析查询 Hadoop的关键构成：MapReduce + HDFS MapReduce可实现高性能分布式并行数据处理 HDFS提供可靠数据存储服务，低廉MPP，高容错、高通量，可伸缩用户可在不了解分布式底层细节的情况下，开发分布式程序，充分利用M

8、PP的能力,Hadoop在数据管理中的地位,用户对大数据存储、管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时，会面临很多难以解决的问题。软、硬件平台的要求高，成本压力成本和收益不匹配的充分发掘和利用非结构化数据背后的商业价值，用户希望能以更经济的方式、更好的性能来处理数据，从而推动业务创新,Hadoop在数据管理中的地位,Hadoop在处理网页数据等方面取得巨大成功，经过几年的发展，从一门边缘技术成长为一种事实上的标准 Hadoop自身的弱点 Hadoop是一个离线的、批量的数据处理系统，实时在线(严格事务，高效分析)仍是数据库的擅长从数据

9、存储的角度来看，HDFS专门针对大文件的存储，等待时间较长，无法做到很高速的随即读写把Hadoop和数据库结合起来应对企业大数据的挑战，是目前值得探索的方案,Hadoop?=大数据,来源于Google，在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式（programming Paradigm）所基于的BigTable和HDFS 是非常质朴的数据模型和存储系统适用领域有限，为大数据研究打开了思路，但绝不代表大数据技术全部(仅是一个case) 回到文件系统来重新审视数据管理之目的,别忘了数据库,Data+Base Oracle/DB2/SQL Serve

10、r/MySQL 1974: System R 1968: IMS (IBM Information Management System) 层次模型 1965: IDS (Integrated Data Store) 网状模型 1965: List Processing Task Force under CODASYL 1967: LPTF DBTG (Data Base Task Group) 1959: CODASYL (Conference on Data Systems Languages),数据库的基本目的,计算机从数值计算转到数据处理，OS中的文件系统发展成DBMS COBOL，CO

11、DASYL DBTG报告 (图灵奖获得者Charles Bachman) 数据库系统最原始的目标是解决记账(Billing)和订票(Booking)问题商务智能的雏形事务处理 (图灵奖获得者Jim Gray) 数据库发展伊始，其目标应用简单明确,数据库的三大成就,关系模型 E.F. Codd (数据库领域第二个图灵奖获得者) 事务处理 Jim Gray (数据库领域第三个图灵奖获得者) 查询优化结构化 (模式和实例分离) 关系数据库理论 (关系代数）物理存储 (索引/统计) 成功造就了数百亿美元的数据库产业,发展驱动力 (Driving Force)源头：应用,不同的企业,传统的生产/

12、商业企业制造业企业传统的服务业企业政府机构 IT企业新型信息服务业企业搜索引擎、社交媒体电子商务、在线广告 ,不同的数据平台,传统的生产/商业企业数据平台由IT企业提供基础系统和构建方案硬件从PC服务器到小型机、大型主机软件包括操作系统、网络、数据库和中间件由专门的IT部门负责应用开发和运行维护新型信息服务业企业数据平台自行搭建硬件主要是廉价的PC集群软件主要利用开源的技术和系统带动了信息技术的发展：云计算、大数据等,不同的贡献,传统IT企业的贡献有目共睹过去的五十年的发展信息化社会的构建林林总总的技术和产品 Enterprise-Oriented 互联网企

13、业的贡献作为非IT企业极大地推动IT技术的发展 Consumer-Oriented,一个比喻,互联网企业是开自助式茶馆的市面上板凳太贵，也不合适自己做了板凳给茶客坐也可以廉价供应其他的茶馆、面馆、饭馆等传统IT企业是做板凳和买板凳的家具企业设计/制造销售服务,观察到的现象,垂直应用成为IT发展的主要驱动力以前的系统是水平式的通用的计算机系统通用的OS 通用的DBMS (One Size Fits All) 中间件上面开发的应用软件 Google为自己的应用设计了GFS和Map/Reduce等(Case by Case)。被开源了以后，Hadoop被寄予希望解决一类问题 (

14、One Size Fits a Bunch),带来的变化,思想方面：破除了迷信，人们不再认为所有数据管理问题必须依赖RDBMS 市场方面：数据库市场长期以来形成的三足鼎立和开源系统MySQL一家独大的局面发生松动技术方面：理论研究和技术探讨进入“春秋战国”时代，应用需求的变化和硬件技术的发展催生了新的技术和实现思路，数据库进入一个蓬勃发展的时期,中国数据库界的机遇Knife Re-invent,现状,我国已成为大数据开源技术的最大试验场大数据技术应用经验交流大会 Hadoop用户/开发者大会大多数报告重点在于 Scale 怎么用开源的技术搭建大数据平台数据条数很多 200亿/天机器个

15、数很多交易量很大营业额很高在线客户很多,联想1：开源是双刃剑,小偷和强盗美国WTO谈判代表：我们在和小偷谈判吴仪副总理回敬：我们来和强盗谈判强盗是越抢越强，小偷是越偷越弱制定规则、划定势力范围、引领方向开源是双刃剑迅速推动应用发展习惯性懒惰，等待开源扼杀创新能力重利益，轻责任，淡使命,联想2：从认可到敬佩,2010年3月世界互联网大会抵制中国 Great fire wall 如此漠视我国互联网发展原因何在？最大的用户群推动了社会经济发展主要是用别人的，贡献出来供别人用的不多中国的互联网企业和数据界如何赢得尊重认可(Recognition) =尊重(Respec

16、t) =敬佩 (Admire),联想3：Knife Re-invent,已经有很多种刀剪裁、厨房、手术、理发、修脚、对应于不同的用途对于新的应用，有三种做法将就用原来的刀 (One size fits all) 改造原来的刀 (Extensible database) 发明新的刀 (one size fits a bunch) One Size Fits a Bunch,值得探索的道路,数据库的假定前提,数据存在磁盘上(内存小，外存慢) 多用户共享OLTP (并发、恢复) SPARC体系结构 (三层模式两级映射) 封闭世界假设 (CWA, DB完备, 算子闭包, 说明性语言) 满足1NF (范式理论，3NF/BCNF, 数据库设计),传统数据库管理系统的问题,大量系统开销(Shore DBMS上的实验) 各种锁和恢复机制用于解决内外存的一致性问题,前提条件的变化,应用需求的变化应用环境变化硬件变化体系结构的变化计算环境的变化,应用需求的变化,Web搜索、电商、极大规模 (Large scale) 淘宝“双十一”(光棍节)网购前期收藏，

展开阅读全文