大数据处理技术发展现状及其应用展望

上传人:ni****g 文档编号:463960786 上传时间:2023-06-09 格式:DOCX 页数:9 大小:15.50KB
返回 下载 相关 举报
大数据处理技术发展现状及其应用展望_第1页
第1页 / 共9页
大数据处理技术发展现状及其应用展望_第2页
第2页 / 共9页
大数据处理技术发展现状及其应用展望_第3页
第3页 / 共9页
大数据处理技术发展现状及其应用展望_第4页
第4页 / 共9页
大数据处理技术发展现状及其应用展望_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《大数据处理技术发展现状及其应用展望》由会员分享,可在线阅读,更多相关《大数据处理技术发展现状及其应用展望(9页珍藏版)》请在金锄头文库上搜索。

1、大数据处理技术发展现状及其应用展望一、定义著名的管理咨询公司麦肯锡曾预测到:“数据,已经渗透到 当今每一个行业和业务职能领域,成为重要的生产因素。人们对 于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 余浪潮的到来。”这是大数据的最早定义。业界(于2021 年,高德纳修改了对大数据的定义)将大数据的特征归纳为4 个 “V”(量 Volume,多样 Variety, 价值 Value, 速 Velocity),或者说特点有四个层面:第一,海量数据量。大 数据计量单位至少是PB级别;第二,数据类型繁多。比如, 网络日志、视频、图片、地理位置信息等等都是囊括进来。 第三,商业价值高。第四,

2、处理速度快。在大数据时代,三分技术,七分数据,得数据者得天下。 在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜 在价值。Google利用人们的搜索记录挖掘数据二次利用价值, 比如预测某地流感爆发的趋势;Amazon利用用户的购买和浏览 历史数据进行有针对性的书籍购买推荐,以此有效提升销售量; Farecast利用过去十年所有的航线机票价格打折数据,来预测用 户购买机票的时机是否合适。大数据分析相比于传统的数据仓库应用,具有数据量大、 查询分析复杂等特点。对于“大数据”(Big data)研究机构 Gartner给出了这样的定义。“大数据”是需要新处理模式才能 具有更强的决策力、洞察发

3、现力和流程优化能力的海量、高增 长率和多样化的信息资产。二、大数据的技术技术是大数据价值体现的手段和前进的基石。我将分别从云 计算、分布式处理技术、存储技术和感知技术的发展来说明大 数据从采集、处理、存储到形成结果的整个过程。2.1、云技术大数据常和云计算联系到一起,因为实时的大型数据集分析 需要分布式处理框架来向数十、数百或甚至数万的电脑分配工 作。可以说,云计算充当了工业革命时期的发动机的角色,而 大数据则是电。云计算思想的起源是麦卡锡在上世纪60年代提出的:把计 算能力作为一种像水和电一样的公用事业提供给用户。如今, 在Google、Amazon、 等一批互联网企业引领下,一种行之有 效

4、的模式出现了:云计算提供基础架构平台,大数据应用运行 在这个平台上。业内是这么形容两者的关系:没有大数据的信息 积淀,则云计算的计算能力再强大,也难以找到用武之地;没 有云计算的处理能力,则大数据的信息积淀再丰富,也终究只 是镜花水月。那么大数据到底需要哪些云计算技术呢?这里暂且 列举一些,比如虚拟化技术,分布式处理技术,海量数据的存 储和管理技术,NoSQL、实时流数据处理、智能分析技术(类 似模式识别以及自然语言理解)等。2.2、分布式处理技术分布式处理系统可以将不同地点的或具有不同功能的或拥有 不同数据的多台计算机用通信网络连接起来,在控制系统的统一 管理控制下,协调地完成信息处理任务一

5、这就是分布式处理系统 的定义。以Hadoop (Yahoo)为例进行说明,Hadoop是一个实现了 MapReduce模式的能够对大量数据进行分布式处理的软件框架, 是以一种可靠、高效、可伸缩的方式进行处理的。而 MapReduce是Google提出的一种云计算的核心计算模式,是一 种分布式运算技术,也是简化的分布式编程模式,MapReduce 模式的主要思想是将自动分割要执行的问题(例如程序)拆解成 map (映射)和reduce (化简)的方式,在数据被分割后通过 Map函数的程序将数据映射成不同的区块,分配给计算机机群处 理达到分布式运算的效果,在通过Reduce函数的程序将结果汇 整,

6、从而输出开发者需要的结果。再来看看Hadoop的特性,第一,它是可靠的,因为它假 设计算元素和存储会失败,因此它维护多个工作数据副本,确 保能够针对失败的节点重新分布处理。其次,Hadoop是高效 的,因为它以并行的方式工作,通过并行处理加快处理速度。 Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使 用。你也可以这么理解Hadoop的构成,Hadoop=HDFS (文件系 统,数据存储技术相关)+HBase (数据库)+MapReduce (数据 处理)2.3、存储技术大数据可以抽象的分为大数据存储和大数据分析,这两者的

7、关系是:大数据存储的目的是支撑大数据分析。到目前为止, 还是两种截然不同的计算机技术领域:大数据存储致力于研发可 以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在 最短时间内处理大量不同类型的数据集。提到存储,有一个著名的摩尔定律相信大家都听过:18个 月集成电路的复杂性就增加一倍。所以,存储器的成本大约每 18-24个月就下降一半。成本的不断下降也造就了大数据的可存 储性。比如,Google大约管理着超过50万台服务器和100万块 硬盘,而且Google还在不断的扩大计算能力和存储能力,其 中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进 行的,这大大降低了其服务成本,因此可

8、以将更多的资金投入 到技术的研发当中。以Amazon举例,Amazon S3是一种面向 Inter的存储服务。该服务旨在让开发人员能更轻松的进行网络 规模计算。Amazon S3提供一个简明的Web服务界面,用户可 通过它随时在Web上的任何位置存储和检索的任意大小的数据。 此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、 安全性和快速价廉的基础设施,Amazon用它来运行其全球的网 站网络。再看看S3的设计指标:在特定年度内为数据元提供 99. 999999999%的耐久性和99. 99%的可用性,并能够承受两 个设施中的数据同时丢失。S3很成功也确实卓有成效,S3云的存储对象已达到

9、万亿级 别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对 象,同时AWS的对象执行请求也达到百万的峰值数量。目前全 球范围内已经有数以十万计的企业在通过AWS运行自己的全部或 者部分日常业务。这些企业用户遍布190多个国家,几乎世界 上的每个角落都有Amazon用户的身影。2.4、预测技术大数据的核心、在于“预测”,而云计算使数据从“小样本” 转变成有机会对所有可能的数据进行分析,预测将基于“数据 之间的关联性”而非“为什么是这样的因果性”,我们只需要 按照预测出来的趋势去响应,使用这些结果。比如预测机票价格的走势,并给出可信度,帮助用户来决 定什么时间购买机票最省钱。它不用关心为什么机

10、票会有差异, 是因为季节性还是因为其他什么原因,它仅仅是预测当前的机票 未来一段时间会上涨还是下降。如果机票价格有上涨的趋势, 系统就系统用户立即购买机票。而原始的数据可以从机票预订数 据库或者行业网站上扒下来。这项预测技术可以用在类似的相关 领域。比如宾馆预订,商品购买等。比如通过汽车引擎的散热 和振动来预测引擎是否会出现故障。亚马逊的推荐系统是很好的例子:亚马逊从每一个客户身上 捕获了大量的数据,历史购买了什么,哪些商品只是浏览却没 有购买,浏览停留的时间,哪些商品是合并购买的,它要做的 是找到产品之间的关联性。在零售行业,销售数据的统计分析,可以让供应商监控销 售速率、数量、以及存货情况

11、,可以知道什么货物和什么货物 摆在一起,放在什么位置销量最好,特定的季节,什么产品销 量最高。公共设施领域,不再是随机的巡检,而是针对设施上报的 数据以及故障发生的历史数据、环境数据进行分析和预测,集 中人力和物力优先检查最有可能出现问题的那些设施,减少整体 平均的故障发生率。最近的”棱镜计划“,从音视频、图片、邮件、文档 以及连接信息中分析个人可能对国家安全造成威胁的行动。三、大数据处理技术的展望3.1、对于企业对于企业的大数据,随着数据逐渐成为企业的一种资产, 数据产业会向传统企业的供应链模式发展,最终形成“数据供应 链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。

12、在互联互通的互 联网时代,单一企业的内部数据与整个互联网数据比较起来只是 沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多 环节服务的公司会有明显的综合竞争优势。以IBM举例,上一个十年,他们抛弃了 PC,成功转向了 软件和服务,而这次将远离服务与咨询,更多地专注于因大数 据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认 为,“数据将成为一切行业当中决定胜负的根本因素,最终数据 将成为人类至关重要的自然资源。” IBM积极的提出了 “大数据 平台”架构。该平台的四大核心能力包括Hadoop系统、流计 算(Streuting)、数据仓库(Data Warehouse) 和

13、信息整合与 治理(InformationIntegration and Governance)3.2、对于个人个人的大数据,与个人相关联的各种有价值数据信息被有效 采集后,可由本人授权提供第三方进行处理和使用,并获得第 三方提供的数据服务。未来,每个用户可以在互联网上注册个人的数据中心,以 存储个人的大数据信息。用户可确定哪些个人数据可被采集, 并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数 据,比如,牙齿监控数据,心率数据,体温数据,视力数 据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。用户可以将其中的牙齿监测数据授 权给XX牙科诊所使用,由他们监控和

14、使用这些数据,进而为用 户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授 权提供给某运动健身机构,由他们监测自己的身体运动机能,并 有针对的制定和调整个人的运动计划;还可以将个人的消费数据 授权给金融理财机构,由他们帮你制定合理的理财计划并对收益 进行预测。当然,其中有一部分个人数据是无需个人授权即可 提供给国家相关部门进行实时监控的,比如罪案预防监控中心可 以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯 罪的发生。3.3、对于政府近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业 发展,将“大数据战略”上升为国家意志。奥巴马政府将数据 定义为“未来的新石油”,并表示一个国家

15、拥有数据的规模、 活性及解释运用的能力将成为综合国力的重要组成部分,未来, 对数据的占有和控制甚至将成为陆权、海权、空权之外的另一 种国家核心资产。在国内,政府各个部门都握有构成社会基础的原始数据, 比如,气象数据,金融数据,信用数据,电力数据,煤气数 据,自来水数据,道路交通数据,客运数据,安全刑事案件 数据,住房数据,海关数据,出入境数据,旅游数据,医疗 数据,教育数据,环保数据等等。这些数据在每个政府部门里 面看起来是单一的,静态的。但是,如果政府可以将这些数据 关联起来,并对这些数据进行有效的关联分析和统一管理,这 些数据必定将获得新生,其价值是无法估量的。具体来说,现在城市都在走向智

16、能和智慧,比如,智能电 网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依 托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2021年底全国开建智慧城市 的城市数超过180个,通信网络和数据平台等基础设施建设投 资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设 备投资规模将达1万亿元人民币。大数据为智慧城市的各个领 域提供决策支持。在城市规划方面,通过对城市地理、气象等 自然信息和经济、社会、文化、人口等人文社会信息的挖掘, 可以为城市规划提供决策,强化城市管理服务的科学性和前瞻 性。在交通管理方面,通过对道路交通信息的实时挖掘,能有 效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运 转提供科学的决策依据。在舆情监控方面,通过网络关键词搜 索及语义智能分析,能提高舆情分析的及时性、全面性,全面 掌握社情民意,提高公共服务能力,应对网络突发的公共事 件,打击违法犯罪。在安防与防灾领域,通过大数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号