大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展

上传人:简****9 文档编号:105740992 上传时间:2019-10-13 格式:PDF 页数:8 大小:562.69KB
返回 下载 相关 举报
大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展_第1页
第1页 / 共8页
大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展_第2页
第2页 / 共8页
大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展_第3页
第3页 / 共8页
大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展_第4页
第4页 / 共8页
大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展》由会员分享,可在线阅读,更多相关《大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展(8页珍藏版)》请在金锄头文库上搜索。

1、1 科技发展研究科技发展研究 第 10 期 (总第 364 期) 上海科技发展研究中心 2014 年 04 月 14 日 编者按:编者按:当前,大数据已经成为社会各界普遍关注的热点。我们基于上海市软科学研究基地 前沿技术发展研究中心对大数据论文和专利数据库的知识图谱研究成果, 将分三期对大数 据的产业技术路线、研究前沿和产业链竞争格局、商业模式进行分析梳理。供参考。 大数据技术发展态势跟踪(上)大数据技术发展态势跟踪(上) 关于大数据的几个重要观点和产业技术路线发展 大数据(Big Data) ,普遍认为是指在特定行业中,超出常规处理 能力、实时生成、类型多样化的数据集合体,具有海量( 在特定

2、行业中,超出常规处理 能力、实时生成、类型多样化的数据集合体,具有海量(Volume) 、 快速( ) 、 快速(Velocity) 、多样() 、多样(Variety)和价值()和价值(Value)的)的 4V 特征特征。 最早提出大数据特征最早提出大数据特征的是 2001 年麦塔集团 (后被 Gartner 公司收 购)分析师道格莱尼(Douglas Laney)发布的3D 数据管理:控 制数据容量、 处理速度及数据种类(3D Data Management: Controlling Data Volume, Velocity and Variety) ,提出了 4V 特征中的 3V。最早

3、提 出词汇“ 最早提 出词汇“Big Data”的是 2011 年麦肯锡全球研究院发布的大数据: 下一个创新、竞争和生产力的前沿研究报告。之后,之后,经 Gartner 技 术炒作曲线和 2012 年维克托舍恩伯格大数据时代:生活、工作与 2 思维的大变革的宣传推广,大数据概念开始风靡全球。 一、关于大数据的几个重要观点 大数据发展至今,伴随着很多争议。有人称之为“新瓶装旧酒” , 也有人认为大数据的机遇被过于夸大, 企业就是在这种怀疑和忐忑中 抓紧推进大数据应用。客观上看,大数据在研究范式、企业战略层面 具有变革的潜力, 但不宜过于强调其新颖性, 不应同过去的数据学科 领域割裂开来; 客观上

4、看,大数据在研究范式、企业战略层面 具有变革的潜力, 但不宜过于强调其新颖性, 不应同过去的数据学科 领域割裂开来;21 世纪以来,大数据技术发生了革命性突破,主要 体现在对 世纪以来,大数据技术发生了革命性突破,主要 体现在对 3V 特性的“适应”和“运用”上,目前受益最大的是云计 算产业,对其他产业和社会发展的变革作用尚未落地。 特性的“适应”和“运用”上,目前受益最大的是云计 算产业,对其他产业和社会发展的变革作用尚未落地。 有如下几个重要判断和观点: 1、大数据的核心思想本质是数据挖掘。、大数据的核心思想本质是数据挖掘。数据挖掘(Data Mining) 借助计算机从海量数据中发现隐含

5、的知识和规律, 是一门融合了计算 机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模 式识别等理论在上世纪 90 时代推行知识管理时已有显著进展。从本 质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智 能(Business Intelligence)模式创新,都是数据挖掘理论的延伸,表 达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确 表 达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。比 如,因果关系是数理统计中的重要内容,基于完善的数学理论,代表 是回归模型;而相关关系是数据挖掘中的重要内容,基于强大的机器 运算能力,代表是神经网络、决策树算法,这使

6、得人们不需要了解背 后复杂的因果逻辑也可以获得良好的分析和预测结果。 从某种程度上 说,必须感谢大数据的宣传者,正是这样的热炒才让数据挖掘这样一 门小众却极具价值的科学展现在大众眼前,起到了很好的科普作用。 2、 突破主要来自技术上的 “能力拓展” 。、 突破主要来自技术上的 “能力拓展” 。 表现在对多样 (Variety) 、 海量(Volume) 、快速(Velocity)特征的“适应”和“运用”上:一 是存储数据 一 是存储数据从结构化向半结构化、非结构化拓展,如基于 Web 异构 3 环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数 据的专有挖掘算法的产生和发展。二是数据

7、库二是数据库从关系型向非关系型、 分布式拓展, 关系型数据库是以行和列的形式组织起来的结构化数据 表,如 Excel 表格,缺点在于存储容量小、数据扩展性和多样性差, 而新的非关系型、分布式数据库可以弥补上述不足。三是数据处理三是数据处理从 静态向实时交互拓展, 新的大规模分布式并行数据处理技术能够实时 处理社交媒体和物联网应用产生的大量交互数据,有效应对多样 (Variety)和海量(Volume)带来的复杂度和时效性要求。 3、能力拓展直接促成了价值(、能力拓展直接促成了价值(Value)的实现。)的实现。得益于上述技术, 数据挖掘理论获得了呈几何倍数增长的数据量和处理能力, 原本很多 无

8、法验证的设想和方法得以实现。比如,传统 BI 分析有一个“集中” 步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整的数 据仓库,这个步骤往往成为 BI 分析全过程的能力瓶颈;而基于大数 据分布式技术的 BI 分析无需 “集中” , 大大提升了敏捷度和智能水平, 从而推动机器学习、语义处理等领域发生重大突破,直接促成了 Mahout 机器学习算法集、Siri 语音助手等一批商用化产品的问世。 4、变革的潜力主要体现在数据开放战略和数据驱动范式上。在 战略层面, 、变革的潜力主要体现在数据开放战略和数据驱动范式上。在 战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变, 引发了社

9、区、众包、网格等新业态、新模式蓬勃发展,在此基础上将 推动机构数据开放和公众共享运动的兴起。在研究范式层面,在研究范式层面,科学研 究出现从推理演绎驱动向数据驱动拓展的苗头, 如生物基因与健康等 研发密集型产业开始向数据研究科学拓展; 许多传统的科学研究如历 史、文学等也开始尝试运用数据分析技术。但上述重大变革目前尚未 真正实现。 大数据现有技术水平的主要受益产业仍然是云计算和各类 基于云计算的商业模式, 在信息基础设施普及率、 社会开放性以及与 网络智能交互技术的结合度没有达到一定能级时, 大数据的应用是有 限的 大数据现有技术水平的主要受益产业仍然是云计算和各类 基于云计算的商业模式, 在

10、信息基础设施普及率、 社会开放性以及与 网络智能交互技术的结合度没有达到一定能级时, 大数据的应用是有 限的,达不到面向社会的“无所不能” 。达不到面向社会的“无所不能” 。 4 5、大数据技术的主要推动者是互联网企业。、大数据技术的主要推动者是互联网企业。由于更多地围绕云 计算,所以大数据的底层架构和核心技术主要由谷歌、亚马逊、脸谱 以及美国 Apache 基金会等互联网企业机构掌握。谷歌公司研发了大 数据“三核心”文件系统( 谷歌公司研发了大 数据“三核心”文件系统(GoogleFileSystem) 、处理算法 ( ) 、处理算法 (MapReduce)和分布式数据库()和分布式数据库(

11、BigTable) ,打造了全球大数据开 发的主流框架和范式。 ) ,打造了全球大数据开 发的主流框架和范式。雅虎和 Apache 基金会基于谷歌的算法思想, 开发了 Hadoop 开源框架,向广大企业和创业者开放,推动产业生态 系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各 类功能性工具;而微软、IBM 等传统 IT 企业在产业链上更多关注下 游应用,开发产品和系统解决方案。 6、大数据的提出有助于进一步明晰云计算的概念。、大数据的提出有助于进一步明晰云计算的概念。从专有领域 的角度看, 原来的云计算包括两层概念: 一类是海量数据的高效处理, 主要是大规模分布式并行运算技术,代

12、表是谷歌公司;另一类是硬件 资源的虚拟化分配,更多聚焦虚拟机技术和对象存储出租商业模式, 代表是亚马逊公司。这两层概念相互交织,往往让外界分不清楚。大 数据概念的提出,可以将前者完全涵盖,侧重微观、技术和前端;云 计算这个概念今后可更多地在商业模式层面进行定义, 侧重宏观、 服 务和后端。 大 数据概念的提出,可以将前者完全涵盖,侧重微观、技术和前端;云 计算这个概念今后可更多地在商业模式层面进行定义, 侧重宏观、 服 务和后端。任何 IT 企业的云战略都可以分成两条线:一个是大数据, 一个是云计算,分别对应不同的产品。比如微软公司,如果说的是其 并行数据仓库与 Hadoop 集成的解决方案,

13、那么谈论的是大数据;如 果提到的是其 Azure 数据库服务租用平台和 IaaS、PaaS、SaaS 三类 服务模式,那么谈论的是云计算。 7、数据并非越大越有价值。、数据并非越大越有价值。大数据支持者的一个重要论断是: 基于全量,大数据分析的准确性将超越传统数理统计,因果关系将为 相关关系所取代,而事实并非如此乐观。一方面,传统的数理统计没 有过时 一方面,传统的数理统计没 有过时。其经历四百年的发展,仍然在经济社会各方面发挥着重要作 用。比如,抽样是一门古老且成熟的统计方法,如果目标明确、方法 5 科学,其在绝大多数情况下得出结论的正确性,并不逊于全量数据。 客观上看, 全量的价值更多体现

14、在一些传统数理统计基本假设可能失 效之处,如互联网“长尾”现象的出现,导致正态分布、帕累托法则 在个别领域不再适用,此时需要依靠全量数据寻求规律。另一方面, 全量伴生的“噪音”有时会影响精准度。 另一方面, 全量伴生的“噪音”有时会影响精准度。例如,被誉为大数据杰出案 例的“谷歌流感趋势”近期陷入低谷,错误率高达 90%以上(108 周 中错了 100 周) ,不能预测甲型 H1N1 等重大疫情。它的核心逻辑是: 搜索“流感”的人数与实际患症的人数之间存在相关性,而事实上, 即便去医院看流感的人都有 80%90%实际没有得流感, 表面的网络 搜索行为与可靠的信息来源还存在较大差距以及“去噪”过

15、程。很多 专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作 为其补充。 二、大数据技术发展经历了从萌芽到成熟的过程 基于 Web of Science 数据库1中 1994 年后涉及大数据概念的 4495 篇文献,采用 Citespace 知识图谱工具,通过热点关键词和高被引文 献分析,勾勒出了大数据技术从萌芽到成熟的发展历程(如图 1、2) 。 1、萌芽期:数据挖掘技术(上世纪、萌芽期:数据挖掘技术(上世纪 90 年代年代-本世纪初)本世纪初) 随着数据挖掘理论和数据库技术的逐步成熟, 一批商业智能工具 和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统 等。此时,对于

16、大数据的研究主要集中于“Algorithms” (算法) 、 “ ” (算法) 、 “Model” (模型) 、 “” (模型) 、 “Patterns” (模式) 、 “” (模式) 、 “Identification” (识别)等 热点关键词 ” (识别)等 热点关键词,高被引文献侧重于数据挖掘和机器学习的基础技术,如 1993 年 Quinlan JR 发明的 C4.5 数据挖掘算法,1995 年 Vladimir N.Vapnik 撰写的机器学习教材, 以及 1998 年 Eisen MB 等关于聚类分 析和全基因组表达模式的研究等。 1 属美国 Thomson ISI 公司,主要涉及其中 4 个引文数据库,Science Citation Index Expanded,Social Science Citation Index,Arts & Humanities Citation Index 和 Conference Proceedings Citation Index- Science。 6 图 1. 1994-2013 年

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号