海量数据管理及大数据培训讲义

资源描述

《海量数据管理及大数据培训讲义》由会员分享，可在线阅读，更多相关《海量数据管理及大数据培训讲义（59页珍藏版）》请在金锄头文库上搜索。

1、海量数据管理及大数据,什么是数据？,数据,原始数据点数字、文字、图片、视频等,有价值的数据集合具有特定的意义,可为决策提供依据具有可破译性、关联性、新颖性和价值性的加工后信息,举例： -100万（没有任何意义） A公司今年利润-100万（包含信息，意味着亏损） A公司今年亏损100万，我应该抛出手中的该公司股票（为决策服务）,数据：是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。,2009年，全球产生数据量0.80ZB； 2010年，全球产生数据量1.20ZB； 2011年，全球产生数据量1.82ZB。截止2012年，人类所有生产的印刷材料数据量2

2、00PB，全人类历史所说的话数据量大约为5EB 整个人类文明中，90%的数据是过去两年产生的到2020年，数据规模将是今天的44倍。,大数据的定义,大数据的特征,数据体量巨大。从TB级别跃升到PB级别。,处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。,数据更新、增长速度快,Facebook上每秒有4.1万张照片上传，淘宝每秒有数万笔交易。,+,数据存储、传输等处理速度快,数据体量巨大。从TB级别跃升到PB级别。,处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。,数据类型繁多。不仅包括传统的关系数据类型，也包括以网页、音视频、文档等形式存在的未加工

3、的、半结构化和非结构化的数据。,价值密度低。但庞大的数据中蕴含着新知识，以及极其重要的预测价值。,真实性或许是最难解决的问题。如果你不相信数据本身、数据的来源、或者你正在使用的判断哪些数据点是重要的流程，那么你就会被真实性问题所困扰。大数据存在的最严重问题之一是其有滚雪球式的错误倾向。用户输入的错误、冗余、腐败都会影响数据价值。你聘请的咨询公司需要帮你清理现有的数据，并将流程恢复到位，减少日后脏数据的积累。,大航海时代，早期由于对潮汐、风和洋流等知识的缺乏，远洋航海不仅效率低下，而且充满危险。,大数据的前世今生,莫里航海图，最早的大数据实践,2012年,大数据时代,大数据的发展,随着一系列标志

4、性事件的发生和建立，人们越发感觉到大数据时代的力量。因此2013年被许多国外媒体和专家称为“大数据元年”。,1、智能终端的普及,2、网络带宽的提升,3、电子商务的狂热,4、社交网络流行,5、位置信息,6、云计算的兴起,7、物联网时代的到来,海量数据管理,大数据的管理技术,数据处理技术：自然语言处理（计算语言学）,结果呈现技术：云计算、标签云、关系图等,大数据的来源,社交媒体,如微博、微信、人人网、facebook等，通过这些大众常用的社交平台，可以分析用户平时在这些社交媒体上的行为动向，归纳出用户的喜好或关注点，这些能够为企业挖掘用户需求提供重要依据。,越来越多的机器配备了连续测量和报告运

5、行情况的装置。这些机器传感数据也属于大数据的范围。,一些视频、音频设备等产生的数据,如一些大型超市，通过监控器观察消费者在超市购物的整个流程，从而对商品进行合理摆放，促进对某些商品的间接促销。,企业内部本身的一些行业数据等等。,大数据的数据采集方法,系统日志采集方法,很多互联网企业都有自己的海量数据采集工具，多用于系统日志采集，如Hadoop的Chukwa，Cloudera的Flume，Facebook的Scribe等，这些工具均采用分布式架构，能满足每秒数百MB的日志数据采集和传输需求。,网络数据采集方法：对非结构化数据的采集,网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数

6、据信息。该方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。除了网络中包含的内容之外，对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。,其他数据采集方法,对于企业生产经营数据或学科研究数据等保密性要求较高的数据，可以通过与企业或研究机构合作，使用特定系统接口等相关方式采集数据。,存储问题, 解决大数据存储效率的两方面：, 容量, 吞吐量, 容量, 单硬盘容量提升：MB GB TB 系统整体容量提升：DAS、NAS、SAN, 吞吐量 = 传输数据量 / 传输时间, 单硬盘

7、吞吐量提升：转速、接口、缓存等节点吞吐量提升：RAID、专用数据库机,提升吞吐量, RAID：Redundant Array of Inexpensive Disks，冗余磁盘阵列, 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组，从而实现高性,能和高可靠性, RAID0：连续以位或字节为单位分割数据，并行读/写于多个磁盘上，提升,吞吐量,多核技术, Moor定律：当价格不变时，集成电路上可容纳的晶体管数目，约每,隔18个月便会增加一倍，性能也将提升一倍。, 采用多核（Multi-core）技术提升IPC，从而突破性能提升瓶颈。,指令数,主频,IPS MF IPC , ,多处理器技术,

8、多处理器技术的核心：, 按处理器之间的关系可以分为两类：, 1 F 1 F/ N ,非对称多处理器架构（ASMP）, ,不同类型计算任务或进程由不同处理器执行简单，操作系统修改小低效早期过渡性架构,对称多处理器架构（SMP）, ,所有处理器完全对等计算任务按需分配高效普遍采用,并行模式,独立并行,两个数据操作间没有数据依,赖关系, ,可以采用独立并行的方式分配给不同的处理器执行例：两个独立数据集的Scan,操作,流水线并行,多个操作间存在依赖关系，且,后一个操作必须等待前一个操,作处理完后方可执行将多个操作分配给不同处理器，但处理器间以流水线方式执行,例：Scan Sort

9、 Group,分割并行,数据操作的输入数据可以分解为多个,子集，且子集之间相互独立,分割为若干独立的子操作，每个子操作只处理对应的部分数据，并将这些子操作配到不同的处理器上执行,例： Scan Merge,并行系统架构,共享内存（Shared Memory，SM）,多个处理器，多个磁盘，一个共享,内存，通过数据总线相连,处理器间共享全部磁盘和内存, ,结构简单，负载均衡数据总线成为瓶颈，可扩展性较差，共享内存单点故障适合处理器较少（8）的小规模并行数据库,共享磁盘（Shared Disk，SD）,多个处理器，每个处理器拥有独立,内存，多个磁盘，处理器与磁盘通,过数据总线相连, ,处

10、理器间共享全部磁盘容错性提高共享磁盘成为性能瓶颈，需要额外维护内存与磁盘间的数据一致性,无共享（Shared Nothing，SN）,每个处理器拥有独立的内存和若干磁盘，,通过高速网络相连,处理器独立处理所管理的数据, ,数据传输量小，效率高可扩展性强节点间交换数据开销较大适合处理器数量较大的大规模并行系统后期发展的主流,计算任务容错, 计算任务容错的关键问题：, 故障监测, 计算数据定位与获取任务迁移,大数据处理模式,大数据处理模式大数据的应用类型有很多，主要的处理模式可以分为流处理和批处理两种批处理是先存储后处理，而流处理则是直接处理流处理流处理的基本理念是数据

11、的价值会随着时间的流逝而不断减少，因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络、金融中的高频交易等流处理的处理模式将数据视为流，源源不断的数据组成了数据流当新的数据到来时就立刻处理并返回所需的结果批处理的核心是：）将问题分而治之，相同类型的数据集中处理；）把计算推到数据而不是把数据推到计算，有效地避免数据传输过程中产生的大量通信开销,大数据时代的管理启示,大数据分析，将只有在少数情况下采用随机样本分析法，而大多数时候应进行全部数据分析大数据要求我们有所改变，不必追求精确性

12、，而应该接受混乱与不确定性不是因果关系，而是相关关系。在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己“发声” 数据化，一切皆可量化。信息技术非常重要数据创新能产生取之不竭的价值。大数据的真实价值就像飘浮的冰山，第一眼只能看到冰山的一角，而绝大部分都隐藏在表面之下我们正处在大数据时代的早期，思维和技术是最有价值的，但最终大部分的价值还是必须从数据本身中挖掘风险，让数据主宰一切的隐忧。我们总是以群体的方式存在，并体现出群体性的风险特征。要挖掘大数据的价值，更要防止大数据挖掘带来的风险,大数据的应用,大数据挖掘商业价值的方法主要分为四种,（1）客户群体细分，然后为每个群体量定

13、制特别的服务。（2）模拟现实环境，发掘新的需求同时提高投资的回报率。（3）加强部门联系，提高整条管理链条和产业链条的效率。（4）降低服务成本，发现隐藏线索进行产品和服务的创新。,大数据应用：利用大数据分析的结果，为用户提供辅助决策，发掘潜在价值的过程。从理论上来看：所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因，第一、第二产业的发展速度相对于第三产业来说会迟缓一些。,大数据在几个领域中的应用,企业内部大数据应用市场方面：利用大数据关联分析，更准确地了解消费者的使用行为，挖掘新的商业模式。销售规划方面：通过大量数据的比较，优化商品价格。运营方面：提高运营效

14、率和运营满意度，优化劳动力投入，准确预测人员配置要求，避免产能过剩，降低人员成本。供应链方面：利用大数据进行库存优化、物流优化、供应商协同等工作，可以缓和供需之间的矛盾、控制预算开支，提升服务。,实例：当然最典型的应用还是在电子商务领域，每天有数以万计的交易在淘宝上进行，与此同时相应的交易时间、商品价格、购买数量会被记录，更重要的是，这些信息可以与买方和卖方的年龄、性别、地址、甚至兴趣爱好等个人特征信息相匹配。淘宝数据魔方是淘宝平台上的大数据应用方案，通过这一服务，商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等，并可以据此进行生产、库存决策，而与此同时，更多的

15、消费者也能以更优惠的价格买到更心仪的宝贝。,而阿里信用贷款则是阿里巴巴通过掌握的企业交易数据，借助大数据技术自动分析判定是否给予企业贷款，全程不会出现人工干预。据透露，截至目前阿里巴巴己经放贷300多亿元，坏账率约0.3%左右，大大低于商业银行。,物联网大数据应用物联网不仅是大数据的重要来源，还是大数据应用的主要市场。在物联网中，现实世界中的每个物体都可以是数据的生产者和消费者，由于物体种类繁多，物联网的应用也层出不穷。,实例：在物联网大数据的应用上，物流企业应该有深刻的体会。UPS快递为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障，它的货车上装有传感器、无线适配器和UPS

16、。同时，这些设备也方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年，UPS的驾驶员少跑了近4828万公里的路程。,UPS的司机一般每天要送120至175次货。在任何两个目的地之间，都可以选择多条路线。显然，司机和UPS想要找到其中最有效率的那条。,UPS行车路线选择,面向在线社交网络大数据的应用在线社交网络大数据主要来自即时消息、在线社交、微博和共享空间4类应用。由于在线社交网络大数据代表了人的各类活动，因此对于此类数据的分析得到了更多关注。在线社交网络大数据分析是从网络结构、群体互动和信息传播3个维度，通过基于数学、信息学、社会学、管理学等多个学科的融合理论

展开阅读全文