大数据技术概论

上传人:F****n 文档编号:96456719 上传时间:2019-08-26 格式:PPT 页数:177 大小:14.27MB
返回 下载 相关 举报
大数据技术概论 _第1页
第1页 / 共177页
大数据技术概论 _第2页
第2页 / 共177页
大数据技术概论 _第3页
第3页 / 共177页
大数据技术概论 _第4页
第4页 / 共177页
大数据技术概论 _第5页
第5页 / 共177页
点击查看更多>>
资源描述

《大数据技术概论 》由会员分享,可在线阅读,更多相关《大数据技术概论 (177页珍藏版)》请在金锄头文库上搜索。

1、S,大数据技术,张博士 2015年5月,8/26/2019,目 录,大数据技术概论 云数据库技术 数据挖掘技术 商业智能,8/26/2019,Big Data名词由来,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data,2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念,8/26/2019,大数据的产生,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧

2、地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,8/26/2019,数量级概念,1KB=2(10)B=1024B; 1MB=2(10)KB=1024KB=2(20)B; 1GB=2(10)MB=1024MB=2(30)B。 1TB=2(10)GB=1024GB=2(40)B 1PB=2(10)TB=1024TB=2(50)B 1EB=2(10)PB=1024PB=2(60)B,8/26/2019,数量级概念,Kilobyte(KB)=1024B 相当于一则短篇故事的內容。 Megabyte(MB)=l024KB 相当于一則短篇小說的

3、文字內容。 Gigabyte(GB)=1024MB 相当于贝多芬第五交响乐的演奏视频內容。 Terabyte(TB)=1024GB 相当于一家大型医院中所有的X光照片信息。 Petabyte(PB)=l024TB 相当于50%的全美学术图书馆信息內容。 Exabyte (EB)=1024PB;5EB相当于至今全世界人类所讲过的话语。,8/26/2019,信息通讯进入新时代,8/26/2019,摩尔定律,8/26/2019,后摩尔时代,8/26/2019,计算机演进,8/26/2019,信息计算体系演进,8/26/2019,软件技术网络化演进,8/26/2019,传输技术的发展,8/26/201

4、9,从移动数据到移动流媒体,8/26/2019,移动通信峰值速率的提升,8/26/2019,互联网发展:从电信到泛在服务,8/26/2019,联网主机数量,8/26/2019,电视网络化智能化与三网合一,8/26/2019,视频流量成为主流,8/26/2019,全球骨干网流量,8/26/2019,中国互联网干线带宽,8/26/2019,中国互联网用户,8/26/2019,移动终端功能的演进,8/26/2019,移动互联网加快普及,8/26/2019,智能终端引领后PC时代,8/26/2019,移动数据流量超过话音,8/26/2019,全球移动数据流量,8/26/2019,移动互联网流量,8/2

5、6/2019,互联网上1分钟,8/26/2019,互联网上的1天,8/26/2019,照片,8/26/2019,大数据时代到来,8/26/2019,大数据定义,8/26/2019,大数据例子,8/26/2019,科学研究催生大数据,8/26/2019,物联网催生大数据,8/26/2019,安全监控的数据量,8/26/2019,环境监测催生大数据,8/26/2019,医疗病历隐藏大数据,8/26/2019,国际关注大数据,8/26/2019,大数据的4V特征,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说

6、,只有具备这些特点的数据,才是大数据。,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍,大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义,大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效,8/26/2019,大数据的4V,8/26/2019,大数据的划分,8

7、/26/2019,大数据技术挑战,8/26/2019,大数据技术挑战,8/26/2019,大数据平台技术,8/26/2019,分布式存储与架构,8/26/2019,大数据的并行处理,8/26/2019,大数据并行处理分析,8/26/2019,大数据可视化分析,8/26/2019,虚拟化与可视化,8/26/2019,大数据可视化,8/26/2019,目 录,大数据技术概论 云数据库技术 数据挖掘技术 商业智能,8/26/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google云数据库,GFS架构,8/26

8、/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google云数据库,8/26/2019,Google Vs Hadoop,8/26/2019,Haddop是什么,8/26/2019,Hadoop发展编年,8/26/2019,8/26/2019,Hadoop子项目,8/26/2019,Hadoop特性,8/26/2019,8/26/2019,Hadoop物理部署,8/26/2019,Hadoop集群,8/26/2019,H

9、adoop用户,8/26/2019,HDFS,8/26/2019,HDFS,8/26/2019,HDFS能做什么,适合 不适合,8/26/2019,HDFS组件,8/26/2019,HDFS主要组件功能,8/26/2019,HDFS架构,8/26/2019,HDFS文件,8/26/2019,HDFS NameNode,8/26/2019,8/26/2019,HDFS DataNode,8/26/2019,HDFS可靠性保障,8/26/2019,HDFS可靠性保障,8/26/2019,HDFS可靠性保障,8/26/2019,提升性能的措施,8/26/2019,HDFS:节点失效是常态,8/26/

10、2019,DataNode磁盘挂了,8/26/2019,DataNode机器挂了,8/26/2019,NameNode挂了,8/26/2019,8/26/2019,Client挂了,8/26/2019,MR+HBase,8/26/2019,Why MapReduce?,8/26/2019,大规模数据分析,8/26/2019,大规模数据处理,8/26/2019,MR特性,8/26/2019,M+R,8/26/2019,8/26/2019,MR编程,8/26/2019,8/26/2019,8/26/2019,8/26/2019,8/26/2019,单一Reduce处理,8/26/2019,多个Re

11、duce处理,8/26/2019,MR流程,8/26/2019,8/26/2019,目 录,大数据技术概论 云数据库技术 数据挖掘技术 商业智能,8/26/2019,数据挖掘技术的由来,大量信息在给人们带来方便的同时也带来了一大堆问题: 第一:是信息过量,难以消化; 第二:是信息真假难以辨识; 第三:是信息安全难以保证; 第四:是信息形式不一致,难以统一处理。,网络之后的下一个技术热点,8/26/2019,数据挖掘技术的由来,“要学会抛弃信息” “如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?” 数据开采和知识发现(DMKD)技术应运而生,网络之后的下一个技术热点,8/26

12、/2019,数据挖掘技术的由来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,数据爆炸但知识贫乏,8/26/2019,数据挖掘技术的由来,海量数据搜集 强大的多处理器计算机 数据挖掘算法,支持数据挖掘技术的基础,8/26/2019,数据挖掘技术的由来,从商业数据到商

13、业信息的进化,8/26/2019,数据挖掘技术的由来,数据挖掘逐渐演变的过程,算法学习,专家系统,机器学习,8/26/2019,数据挖掘的定义,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,技术上的定义及含义,8/26/2019,数据挖掘的定义,数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题,技术上的定义及含义,8/26/2019,数据挖掘的定义,数据挖掘是一种

14、新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。,商业角度的定义,8/26/2019,数据挖掘的定义,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识. 数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.,数据挖掘与传统分析方法的区别,8/26/2019,数据挖掘的定义,数据仓库是为决策支持而不是为事务处理所

15、设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。 数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在传统的事务型数据库中进行。,数据挖掘和数据仓库,8/26/2019,数据挖掘的定义,数据挖掘和数据仓库,数据源,数据仓库,各分公司 数据集,分析 数据集,数据挖掘 数据集,8/26/2019,数据挖掘的定义,在线分析处理(OLAP, On-Line analytical processing)是一种增强的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。 传统的查询和报表工具是告诉你数据库中都有什么(what happened)

16、,OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。,数据挖掘和在线分析处理,8/26/2019,数据挖掘的定义,比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。,数据挖掘和在线分析处理,8/26/2019,数据挖掘的定义,数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。,数据挖掘和在线分析处理,比如,一个用数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号