尚学堂大数据

上传人:lcm****20 文档编号:45092523 上传时间:2018-06-15 格式:DOCX 页数:22 大小:150.44KB
返回 下载 相关 举报
尚学堂大数据_第1页
第1页 / 共22页
尚学堂大数据_第2页
第2页 / 共22页
尚学堂大数据_第3页
第3页 / 共22页
尚学堂大数据_第4页
第4页 / 共22页
尚学堂大数据_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《尚学堂大数据》由会员分享,可在线阅读,更多相关《尚学堂大数据(22页珍藏版)》请在金锄头文库上搜索。

1、大数据 Big Data巨量资料(big data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的 4V 特点:Volume、Velocity、Variety、Veracity。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。大数据的特征通常表现为以下四个方面:(1)数据体量巨大数据体量巨大(Volume)截至目前,人类生产的所有印刷材料的数据量是 200PB(1PB

2、=210TB),而历史上全人类说过的所有的话的数据量大约是 5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。(2)数据类型繁多数据类型繁多(Variety)这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。(3)价值密度低价值密度低(Value)价值密度的高低与数据总量的大小成反比。以视频为例,一部 1 小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒

3、。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。(4)处理速度快处理速度快(Velocity)这是大数据区分于传统数据挖掘的最显著特征。根据 IDC 的“数字宇宙”的报告,预计到 2020 年,全球数据使用量将达到 35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。1.概念从技术上看,大数据1与云计算2的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托迈尔-舍恩伯格及肯尼斯库克

4、耶编写的大数据时代5中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的 4V 特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。早在 1980 年,著名未来学家阿尔文托夫勒便在第三次浪潮一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从 2009 年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长 50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有

5、着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据 。2013 年 5 月 10 日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团 CEO 的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清 PC 时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约

6、 40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。从海量数据中“提纯”出有用的信息,这对网络架构和数据处理能力而言也是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后,大数据终于迎来了属于它的时代。2012 年 3 月 22 日,奥巴马政府宣布投资 2 亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战

7、略。奥巴马政府甚至将大数据定义为“未来的新石油”。大数据时代已经来临,它将在众多领域掀起变革的巨浪。但我们要冷静的看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信,在国家的统筹规划与支持下,通过各地方政府因地制宜制定大数据产业发展策略,通过国内外 IT 龙头企业以及众多创新企业的积极参与,大数据产业未来发展前景十分广阔。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起

8、来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。2 基本介绍随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像 MapReduce 一样的框架来向数十、数百或甚至数千的电脑分配工作。 简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的 4 个

9、“V”,或者说特点有四个层面:第一,数据体量巨大。从 TB级别,跃升到 PB 级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1 秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为 4 个“V”Volume,Variety,Value,Velocity。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC 以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。3 举例说明例子包括网络日志,RFID,传感器网络,社会网络,社会数

10、据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务 。篮球比赛当中利用大数据对球员的个人在比赛场上的数据分析,可以帮助比赛变得更加精彩。4 大数据处理分析的六大最好工具在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。(1)Hadoop7Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是

11、以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop

12、 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C+。(2)HPCCHPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993 年,由美国科学

13、、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为 HPCC 计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC 是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;2、先进软件技术与算法(ASTA),内容有巨大

14、挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;3、国家科研与教育网格(NREN),内容有中接站及 10 亿位级传输的研究与开发;4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支 持这些调查和研究活动;5、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。(3) StormStorm 是自由的开源软件,一个分布式的、容错的

15、实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理 Hadoop 的批量数据。 Storm 很简单,支持许多种编程语言,使用起来非常有趣。Storm 由 Twitter 开源而来,其它知名的应用企业包括 Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster 等等。Storm 有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式 RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading 的缩写,即数据抽取、转换和加载)等等。Storm 的处理速度惊人:经测 试,每个节点每秒钟可

16、以处理 100 万个数据元组。Storm 是可扩展、容错,很容易设置和操作。(4)Apache Drill为了帮助企业用户寻找更为有效、加快 Hadoop 数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Googles Dremel.据 Hadoop 厂商 MapR Technologies 公司产品经理 Tomer Shiran 介绍,“Drill”已经作为 Apache 孵化器项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌 Dremel Hadoop 工具(谷歌使用该工具来为 Hadoop 数据分析工具的互联网应用提速)。而“Drill”将有助于 Hadoop 用户实现更快查询海量数据集的目的。“Drill”项目其实也是从谷歌的 Dremel 项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取 Web 文档、跟踪安装在 Android Market 上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。通

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号