大数据综述

上传人:夏** 文档编号:564891986 上传时间:2022-08-08 格式:DOCX 页数:7 大小:24.71KB
返回 下载 相关 举报
大数据综述_第1页
第1页 / 共7页
大数据综述_第2页
第2页 / 共7页
大数据综述_第3页
第3页 / 共7页
大数据综述_第4页
第4页 / 共7页
大数据综述_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《大数据综述》由会员分享,可在线阅读,更多相关《大数据综述(7页珍藏版)》请在金锄头文库上搜索。

1、大数据综述大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技 术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、 个人决策的过程和方式。随着科技和社会的发展进步加上计算机和网络技术的兴起, 社交网络、物联网、云计算以及多种传感器的广泛应用,使数量庞大,种类众多, 时效性强为特征的数据的不断涌现,引发了数据规模的爆炸式增长1。国际数据公司(International Data Corporation, IDC)研究报告称:2011年全 球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律(全球数据 量大约每两年翻一番),预计2020年将达

2、到35ZB。与此同时,数据复杂性也急剧 增长,其多样性(多源、异构、多模态、不连贯语法或语义等 ) 、低价值密度(大 量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分 析)等复杂特征日益显著。预示着全球已然进入了“大数据”时代2。1. 大数据国外研究现状1.1大数据相关理论的研究“大数据”这一术语从2008年开始在科技领域中出现,随之引起学术界的广泛 研究兴趣。Nature与Science杂志分别出版专刊,从互联网技术、互联网经济 学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。世界 各国政府也高度重视大数据领域的研究和探索,并从国家战略的层面推出

3、研究规划 以应对其带来的挑战。虽然大数据研究已在全球范围内成为热点和焦点,但目前国 内外大数据相关的研究仍然处于起步阶段,面向管理和决策的大数据研究与应用逐 步兴起,研究理念、思路、方法和学术路线等方面的探索已经开始全面展开3。大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的 战略意义。目前,大数据已经在政府公共管理、医疗服务、零售业、制造业,以及 涉及个人的位置服务等领域得到了广泛应用,并产生了巨大的社会价值和产业空间。 麦肯锡公司在一份研究报告中,根据西方产业数据预测,大数据的应用将能为欧洲 发达国家的政府节省1000亿欧元以上的运作成本,使美国医疗保健行业的成本降低

4、8%,约每年 3000 多亿美元,并使得零售商的营业利润率提高 60%以上4。市场调 研机构IDC的“数字宇宙”研究报告中则预测,大数据技术与服务市场在2015年 将达到169亿美元,实现40%的年增长率,为IT与通信产业增长率的7倍。大数 据中蕴含的巨大商业价值、科学研究价值、社会管理与公共服务价值以及支撑科学 决策的价值正在被认知与开发利用。1.2大数据关键技术进行的研究1.2.1批量数据处理技术数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力。Mayer-Schonberger 在大数据时代一书中指出了大数据时代处理数据理念的三大 转变,即要全体不要抽样,要效率不要绝对精确,要相关不

5、要因果 6。因此,大数 据的处理对于当前存在的技术来说是一种极大的挑战。目前,人们对大数据的处理 形式主要是对静态数据的批量处理、对在线数据的实时处理,以及对图数据的综合 处理7。批量大数据来源:在互联网领域中,批量大数据来源主要包括:(a)社交网 络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、 音视频等不同形式的数据。对这些数据的批量处理可以对社交网络进行分析,发现人 与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的 体验。(b)电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的 访问次数和驻留时间等数据,通过批量分

6、析这些数据,每个商铺可以精准地选择其热 卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相 关商品,以提升优质客户数量。(c)搜索引擎:Google、百度搜索等大型互联网搜索 引擎将会产生大量的数据信息8。主要批量数据处理系统:由 Google 公司 2003 年研发的 Google 文件系统 GFS 和2004年研发的MapReduce编程模型以其Web环境下批量处理大规模海量数据的 特有魅力,在学术界和工业界引起了很大反响。凭借其适合非结构处理、大规模并行 处理和简单易用等优势,在互联网搜索和其他大数据分析技术领域取得重大进展, 成为主流技术9。1.2.2流式数据处

7、理技术通俗而言,流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格 式复杂,序列往往包含时序特性,或者有其他的有序标签。数据流中的数据格式可以 是结构化的、半结构化的甚至是无结构化的。因此流式数据的处理系统要有很好的 容错性与异构数据分析能力,能够完成数据的动态清洗、格式处理等.并且,流式数据 是活动的(用完即弃),随着时间的推移不断增长,这与传统的数据处理模型(存储一 查询)不同,要求系统能够根据局部数据进行计算,保存数据流的动态属性。流式计算的应用场景:流式计算的应用场景较多,典型的有两类: (a) 数据采集 应用:数据采集应用通过主动获取海量的实时数据,及时地挖掘出有价值的信息

8、。当 前数据采集应用有日志采集、传感器采集、 Web 数据采集等。日志采集系统是针对 各类平台不断产生的大量日志信息量身订做的处理系统,通过流式挖掘日志信息,达 到动态提醒与预警功能。传感器采集系统(物联网)通过采集传感器的信息(通常包含 时间、位置、环境和行为等内容),实时分析提供动态的信息展示,目前主要应用于智 能交通、环境监控、灾难预警等。 Web 数据采集系统是利用网络爬虫程序抓取万维 网上的内容,通过清洗、归类、分析并挖掘其数据价值。 (b) 金融银行业的应用:在 金融银行领域的日常运营过程中会产生大量数据,这些数据的时效性往往较短,不仅 有结构化数据,也会有半结构化和非结构化数据.

9、通过对这些大数据的流式计算,发 现隐含于其中的内在特征,可帮助金融银行进行实时决策。这与传统的商业智能(BI) 分析不同,BI要求数据是静态的,通过数据挖掘技术,获得数据的价值.然而在瞬息 万变的场景下,诸如股票期货市场,数据挖掘技术不能及时地响应需求,就需要借助 流式数据处理的帮助。流式数据处理系统 :流式数据处理已经在业界得到广泛的应用,典型的有 Twitter 的 Storm,Facebook 的 Scribe,Linkedin 的 Samza,Cloudera 的 Flume, Apache 的 Nutch。1.2.3交互式数据处理技术在大数据环境下,数据量的急剧膨胀是交互式数据处理系

10、统面临的首要问题。互 联网领域。在互联网领域中,主要体现了人际间的交互.随着互联网技术的发展,传统 的简单按需响应的人机互动已不能满足用户的需求,用户之间也需要交互,这种需求 诞生了互联网中交互式数据处理的各种平台,如搜索引擎、电子邮件、即时通讯工具、 社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息。 此外,各种交互式问答平台,如百度的知道、新浪的爱问以及Yahoo!的知识堂等。 由此可见,用户与平台之间的交互变得越来越容易,越来越频繁。这些平台中数据类 型的多样性,使得传统的关系数据库不能满足交互式数据处理的实时性需求。目前,各大平台主要使用 NoSQL 类型的数

11、据库系统来处理交互式的数据 ,如 HBaseio采用多维有续表的列式存储方式;MongoDBs采用JSON格式的数据嵌套 存储方式。大多 NoSQL 数据库不提供 Join 等关系数据库的操作模式,以增加数 据操作的实时性。交互式数据处理系统:交互式数据处理系统的典型代表系统是 Berkeley 的 Spark 系统和 Google 的 Dremel 系统。1.2.4图数据处理技术图由于自身的结构特征,可以很好地表示事物之间的关系,在近几年已成为各学 科研究的热点。图中点和边的强关联性,需要图数据处理系统对图数据进行一系列的 操作,包括图数据的存储、图查询、最短路径查询、关键字查询、图模式挖掘

12、以及图 数据的分类、聚类等.随着图中节点和边数的增多(达到几千万甚至上亿数),图数据 处理的复杂性给图数据处理系统提出了严峻的挑战。图能很好地表示各实体之间的 关系,因此,在各个领域得到了广泛的应用,如计算机领域、自然科学领域以及交通领 域。当今世界上比较流行的 3 个典型的图数据处理系统 ,包括 Google 的 Pregel 系统, Neo4j 系统和微软的 Trinity 系统。1.3大数据与云计算相结合的研究大数据分析是大数据研究领域的核心内容之一。然而云计算技术对大数据的分 析具有得天独厚的优势。 Google 首席经济学家 Hal Varian 教授指出:“数据正在 变得无处不在、

13、触手可及;而数据创造的真正价值,在于我们能否提供进一步的稀 缺的附加服务。这种增值服务就是数据分析。”数据的背后隐藏着信息,而信息之 中蕴含着知识和智慧。大数据作为具有潜在价值的原始数据资产,只有通过深入分 析才能挖掘出所需的信息、知识以及智慧.未来人们的决策将日益依赖于大数据分析 的结果,而非单纯的经验和直觉。早在 2009 年, 联合国就启动了 “全球脉动计划”, 拟通过云计算技术对大数 据进行分析进而推动落后地区的发展 , 2011 年 5 月,全球知名咨询公司麦肯锡 ( Mckinsey and Company) 发布了 大数据: 创新、竞争和生产力的下一个前沿领 域12报告,报告指出

14、“数据已经渗透到每一个行业和业务职能领域,逐渐成为重 要的生产因素13而2012年1月的世界经济论坛年会也把“云计算与大数据”作为 重要议题之一。 2012 年 3 月, 美国政府提出 “大数据研究和发展倡议”, 发起全 球开放政府数据运动, 把大数据的分析放在重要的战略位置. 英国政府也将大数据 分析技术作为重点发展的科技领域, 在发展 8 类高新技术的 6 亿英镑投资中, 大 数据的注资占三成。 2014 年 7 月, 欧盟委员会也呼吁各成员国积极发展大数据技 术,并将采取具体措施发展大数据业务. 例如建立大数据领域的公私合作关系;依托“地平线 2020” 科研规划, 创建开放式数据孵化器

15、;成立多个超级云计算中心; 在成员国创建数据处理设施网络14。评述:国外在对大数据的行研究,主要集中在对大数据格式的转化、数据转移 和大数据及时处理的问题上,但是由于大数据具有异构性和异质性的特点,所以学 者需要设法提高大数据格式转化的效率和大数据的处理速率,目前国外学者主要从 批量数据、流式数据、交互式数据和图数据处理技术进行研究,目的在于加速大数 据的处理和计算能力从而有效的提高大数据的应用价值。2. 大数据国内研究现状日前,IDC的首份关于大数据的报告中国大数据技术与服务市场2012-2016 年预测与分析发布,该报告显示大数据市场规模将从2011年的7760万美元增长 到2016年的6

16、.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。 该报告指出中国已进入大数据时代。IDC中国负责商业分析软件市场研究的经理潘永花指出:“从全球看,大型的 IT公司普遍增加了对大数据相关技术和产品的投资,同时也出现了不少新的关注大 数据的小型公司。在中国,互联网巨头是率先使用大数据技术的用户,但他们主要 基于开源软件自主开发大数据应用。电信和银行领域开始对大数据技术和服务产生 浓厚的兴趣,将会从非关键应用开始尝试使用大数据解决方案。”在中国,移动互联网、电子商务、物联网以及社交媒体的快速发展已经使我们 进入了大数据时代。潘永花认为,大数据市场不是由某些特定产品所驱动的,每种 应用实例都需要不同层次的产品组合,包括服务器、存储、网络、软件和服务等, 以获得更好的应用效果。21大数据相关理论研究在我国学术界和产业界也早已经开始高度重视大数据的研究和应用的工作,并 纷

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号