大数据时代索引与数据库事业的发展与创新ppt课件

上传人:人*** 文档编号:569549824 上传时间:2024-07-30 格式:PPT 页数:56 大小:742.02KB
返回 下载 相关 举报
大数据时代索引与数据库事业的发展与创新ppt课件_第1页
第1页 / 共56页
大数据时代索引与数据库事业的发展与创新ppt课件_第2页
第2页 / 共56页
大数据时代索引与数据库事业的发展与创新ppt课件_第3页
第3页 / 共56页
大数据时代索引与数据库事业的发展与创新ppt课件_第4页
第4页 / 共56页
大数据时代索引与数据库事业的发展与创新ppt课件_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《大数据时代索引与数据库事业的发展与创新ppt课件》由会员分享,可在线阅读,更多相关《大数据时代索引与数据库事业的发展与创新ppt课件(56页珍藏版)》请在金锄头文库上搜索。

1、中国中国中国中国科学科学科学科学评评评评价价价价研究中心研究中心研究中心研究中心(RCCSE) (RCCSE) (RCCSE) (RCCSE) 主任主任主任主任武武武武汉汉汉汉大学信息管理学院大学信息管理学院大学信息管理学院大学信息管理学院 教授、博士生教授、博士生教授、博士生教授、博士生导师导师导师导师武武武武汉汉汉汉大学中国教育大学中国教育大学中国教育大学中国教育质质质质量量量量评评评评价中心价中心价中心价中心 主任主任主任主任中国索引学会中国索引学会中国索引学会中国索引学会 副理事副理事副理事副理事长长长长 评评评评价与管理价与管理价与管理价与管理主主主主编编编编邱均平邱均平大数据时代索

2、引与数据库大数据时代索引与数据库事业的发展与创新事业的发展与创新2大纲大纲结语结语大数据时代索引与数据库事业面临的挑战及创新大数据时代索引与数据库事业面临的挑战及创新索引与数据库的发展现状索引与数据库的发展现状大数据时代大数据时代引言引言RCCSE 中国科学评价研究中心中国科学评价研究中心31 1 引言引言“大数据大数据”(Big DataBig Data)已经在全球引起了广)已经在全球引起了广泛关注,正在引领了又一轮数据技术的革命。泛关注,正在引领了又一轮数据技术的革命。美国美国EMCEMC公司于公司于20112011年年5 5月在美国拉斯维加斯举月在美国拉斯维加斯举办第办第1111届届EM

3、C WorldEMC World大会,大会的核心是帮助企大会,大会的核心是帮助企业利用业利用ITIT变革的重要趋势。此次大会以变革的重要趋势。此次大会以“云计云计算相遇大数据(算相遇大数据(Cloud Meets Big DataCloud Meets Big Data)”为为主题,着重展现当今两个最重要的技术趋势,主题,着重展现当今两个最重要的技术趋势,正式提出了正式提出了“大数据大数据”概念。概念。RCCSE 中国科学评价研究中心中国科学评价研究中心4根据根据IDCIDC数字世界数字世界研究项目在研究项目在20122012年的统计,年的统计,20102010年全球数字资年全球数字资源的规模

4、首次突破了源的规模首次突破了ZBZB(1ZB=11ZB=1万万亿亿GBGB)级别,达到了)级别,达到了1.227ZB1.227ZB;而;而20052005年只有年只有130Eb130Eb,五年增长了,五年增长了1010倍。如果保持这种爆炸式的增长速倍。如果保持这种爆炸式的增长速度,到了度,到了20202020年,我们的数字资源年,我们的数字资源规模将超过规模将超过40ZB40ZB,相当于世界上每,相当于世界上每个人拥有超过个人拥有超过5200GB5200GB的数据。无疑,的数据。无疑,我们已进入了大数据时代。我们已进入了大数据时代。RCCSE 中国科学评价研究中心中国科学评价研究中心单位:单位

5、:ZBZB1 1 引言引言5在在 20112011年年1212月,我国工信部发布了物联网月,我国工信部发布了物联网 “十二五十二五”规划,提出了规划,提出了4 4项关键技术创新工程。项关键技术创新工程。信息处理技术信息处理技术的内容包括海量数据存储、数据的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外的重要组成部分;另外3 3项关键技术创新工程,项关键技术创新工程,包括包括信息感知技术信息感知技术、信息传输技术信息传输技术、信息安全信息安全技术技术,这些也都与,这些也都与“大数据大数据”密切相关。我国密切相关。我国

6、也对大数据技术给予了足够的重视。也对大数据技术给予了足够的重视。RCCSE 中国科学评价研究中心中国科学评价研究中心1 1 引言引言61 1 引言引言基于以上概述,我们认为,大数据时代已经到基于以上概述,我们认为,大数据时代已经到来,已经对我们的社会产生了重大影响。本文来,已经对我们的社会产生了重大影响。本文将将尝试对大数据时代我国的索引和数据库事业尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望的发展与创新进行研究和展望。RCCSE 中国科学评价研究中心中国科学评价研究中心72 2 大数据时代大数据时代v2.1 2.1 大数据的定义和特征大数据的定义和特征许多权威机构和企业对

7、大数据给予了不同的定许多权威机构和企业对大数据给予了不同的定义。义。麦肯锡认为,麦肯锡认为,“大数据所涉及的数据集规模已大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和经超过了传统数据库软件获取、存储、管理和分析的能力。分析的能力。”RCCSE 中国科学评价研究中心中国科学评价研究中心82 2 大数据时代大数据时代IBMIBM公司认为,可以用公司认为,可以用3 3个特征相结合来定义大个特征相结合来定义大数据:数量(数据:数量(VolumeVolume)、种类()、种类(VarietyVariety)和速)和速度(度(VelocityVelocity),即庞大容量、极快速度和种

8、),即庞大容量、极快速度和种类丰富的数据。类丰富的数据。IDCIDC公司认为公司认为,“大数据不是一个事物,而是一大数据不是一个事物,而是一个跨多个信息技术领域个跨多个信息技术领域的现象。的现象。大数据技术描大数据技术描述了新一代的技术和架构述了新一代的技术和架构,通过,通过使用高速使用高速(VelocityVelocity)的采集、发现或)的采集、发现或分析方法,分析方法,从超从超大容量(大容量(VolumeVolume)的多样()的多样(VarietyVariety)数据中经)数据中经济地提取价值(济地提取价值(ValueValue)。)。”RCCSE 中国科学评价研究中心中国科学评价研究

9、中心9综合以上几种不同的见解,综合以上几种不同的见解,我们认为,具备以我们认为,具备以下特征的就是大数据下特征的就是大数据。(1 1)数量大(数量大(VolumeVolume)。大数据所包含的数据。大数据所包含的数据量很大,而且在急剧增长之中。但是,在可供量很大,而且在急剧增长之中。但是,在可供使用的数据数量不断增长的同时,可处理、理使用的数据数量不断增长的同时,可处理、理解和分析的数据比例却在不断下降。解和分析的数据比例却在不断下降。RCCSE 中国科学评价研究中心中国科学评价研究中心2 2 大数据时代大数据时代102 2 大数据时代大数据时代(2 2)种类多(种类多(VarietyVari

10、ety)。随着技术的发展,。随着技术的发展,数据源不断增多,数据的类型也不断增加。不数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、仅包含传统的关系型数据,还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传感器互联网、搜索引擎、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。数据等原始的、半结构化和非结构化数据。(3 3)速度快(速度快(VelocityVelocity)。除了收集数据的数。除了收集数据的数量和种类发生变化,量和种类发生变化,需要需要处理和处理和生成生成数据的速数据的速度也在变化。数据流动的速度在加快,要有效度也在变化。数据流动的速

11、度在加快,要有效的处理大数据,需要在数据变化的过程中实时的处理大数据,需要在数据变化的过程中实时的对其进行分析,而不是滞后的进行处理。的对其进行分析,而不是滞后的进行处理。RCCSE 中国科学评价研究中心中国科学评价研究中心112 2 大数据时代大数据时代(4 4)价值量(价值量(ValueValue)。在信息时代,信息具。在信息时代,信息具有很重要的商业价值。但是,信息具有生命周有很重要的商业价值。但是,信息具有生命周期,数据的价值会随时间快速减少。另外期,数据的价值会随时间快速减少。另外,大,大数据的数量庞大,种类繁多,变化也快,数据数据的数量庞大,种类繁多,变化也快,数据的价值密度很的价

12、值密度很低。如何从大量多样的数据中低。如何从大量多样的数据中尽尽快的快的分析出分析出有价值有价值的信息非常的信息非常重要。对海量的重要。对海量的数据进行数据进行挖掘和分析挖掘和分析,这也是大,这也是大数据技术的数据技术的难难点。点。RCCSE 中国科学评价研究中心中国科学评价研究中心12(5 5)真实性(真实性(VeracityVeracity)。这是一个衍生特征。这是一个衍生特征。真实有效的数据才具有意义。随着新数据源的真实有效的数据才具有意义。随着新数据源的增加,信息量的爆炸式增长,我们很难对数据增加,信息量的爆炸式增长,我们很难对数据的真实性和安全性进行控制,因此需要对大数的真实性和安全

13、性进行控制,因此需要对大数据进行有效的信息治理。据进行有效的信息治理。大数据在结构类型上也有其特点:大数据在结构类型上也有其特点:大多数的大大多数的大数据都是半结构化或非结构化的数据都是半结构化或非结构化的。RCCSE 中国科学评价研究中心中国科学评价研究中心2 2 大数据时代大数据时代13半结构化的数据半结构化的数据是指具有一定的结构性并可被是指具有一定的结构性并可被解析或者通过使用工具可以使之格式化的数据,解析或者通过使用工具可以使之格式化的数据,如包含不一致的数据和格式的员工薪酬数据。如包含不一致的数据和格式的员工薪酬数据。非结构化的数据非结构化的数据是指没有固定结构,通常无法是指没有固

14、定结构,通常无法直接知道其内容,保存为不同类型文件的数据,直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。如各种图像、视频文件。根据目前大数据的发展状况,根据目前大数据的发展状况,未来数据增长的未来数据增长的绝大部分将是半结构化或非结构化的数据绝大部分将是半结构化或非结构化的数据。RCCSE 中国科学评价研究中心中国科学评价研究中心2 2 大数据时代大数据时代14v2.2 2.2 大数据时代已经到来大数据时代已经到来(1 1)大数据时代已经到来)大数据时代已经到来理论理论的提出:的提出:20082008年,年,NatureNature杂志出版一杂志出版一期专刊,专门讨论未来的大

15、数据(期专刊,专门讨论未来的大数据(Big DataBig Data)处理相关的一系列技术问题和挑战。处理相关的一系列技术问题和挑战。现实现实的节点:的节点:20072007年是人类创造的信息量有史年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的以来第一次在理论上超过可用存储空间总量的一年。一年。RCCSE 中国科学评价研究中心中国科学评价研究中心2 2 大数据时代大数据时代15(2 2)大数据时代到来的)大数据时代到来的原因原因首先,首先,信息技术和计算机网络技术的发展,为信息技术和计算机网络技术的发展,为大数据时代的到来奠定了坚实的技术基础大数据时代的到来奠定了坚实的技术基

16、础。各种技术的发展,使得数据的来源、类型、数各种技术的发展,使得数据的来源、类型、数量变得越来越多,由此产生出了的数目庞大且量变得越来越多,由此产生出了的数目庞大且不断急剧增长的非结构化数据、半结构化数据,不断急剧增长的非结构化数据、半结构化数据,整个社会发展进入到了大数据时代。整个社会发展进入到了大数据时代。RCCSE 中国科学评价研究中心中国科学评价研究中心2 2 大数据时代大数据时代162 2 大数据时代大数据时代其次其次,大量智能终端的广泛应用与网络应用的大量智能终端的广泛应用与网络应用的不断增长,为大数据时代的到来奠定了坚实的不断增长,为大数据时代的到来奠定了坚实的物质基础物质基础。

17、通过通过互联网和社交互联网和社交网络、数码网络、数码相机等工具,每相机等工具,每个人的日常生活正在被数字化,人们可以随时个人的日常生活正在被数字化,人们可以随时方便的根据自己的需要,产生大量的非结构化方便的根据自己的需要,产生大量的非结构化数据、半结构化数据。特别是智能手机和笔记数据、半结构化数据。特别是智能手机和笔记本电脑的普及,是当前数据量爆炸增长的一个本电脑的普及,是当前数据量爆炸增长的一个重要原因。重要原因。RCCSE 中国科学评价研究中心中国科学评价研究中心17最后,最后,信息社会的快速建立,信息成为越来越信息社会的快速建立,信息成为越来越重要的经济资源,也是大数据时代到来的重要重要

18、的经济资源,也是大数据时代到来的重要原因原因。在信息时代,数据已经成为社会资源的重要组在信息时代,数据已经成为社会资源的重要组成部分,基于数据的处理、分析、挖掘等服务成部分,基于数据的处理、分析、挖掘等服务都被信息服务机构广泛应用和开展,信息的经都被信息服务机构广泛应用和开展,信息的经济价值越来越大,人们对数据的重视程度越来济价值越来越大,人们对数据的重视程度越来越高,由此也产生了大量的数据。越高,由此也产生了大量的数据。RCCSE 中国科学评价研究中心中国科学评价研究中心2 2 大数据时代大数据时代182 2 大数据时代大数据时代(3 3)大数据时代的到来,必定会对索引和数据大数据时代的到来

19、,必定会对索引和数据库事业也库事业也产生重大影响产生重大影响。本文本文将论述大数据为索引和数据库带来的机遇将论述大数据为索引和数据库带来的机遇和挑战,探讨大数据时代索引和数据库事业的和挑战,探讨大数据时代索引和数据库事业的发展与创新,以引起业界学者对相关问题的关发展与创新,以引起业界学者对相关问题的关注与探讨。注与探讨。RCCSE 中国科学评价研究中心中国科学评价研究中心193 3 索引与数据库的发展现状索引与数据库的发展现状v3.1 3.1 索引事业的发展现状索引事业的发展现状按照钱亚新教授的说法,按照钱亚新教授的说法,“将一种书报或一套将一种书报或一套书报中讨论所及的人名、物名、事名、地名

20、、书报中讨论所及的人名、物名、事名、地名、时名或篇名等分析而组合,用一定的方法排列时名或篇名等分析而组合,用一定的方法排列它们的次序,并表明它们在书报中所在的地位它们的次序,并表明它们在书报中所在的地位的表,叫作索引。换言之,索引是一种检查指的表,叫作索引。换言之,索引是一种检查指定范围内的书报所有特项知识的工具。定范围内的书报所有特项知识的工具。”RCCSE 中国科学评价研究中心中国科学评价研究中心20一般来说,索引的编制有手工和计算机编制两一般来说,索引的编制有手工和计算机编制两种方式,随着科技和时代的发展,目前基本都种方式,随着科技和时代的发展,目前基本都使用计算机编制索引的方式。使用计

21、算机编制索引的方式。九十年代以来,随着当代数字化、网络化、智九十年代以来,随着当代数字化、网络化、智能化技术的发展,索引研究对象也随之从传统能化技术的发展,索引研究对象也随之从传统的印刷型扩大到了数字型,出现了索引数据库、的印刷型扩大到了数字型,出现了索引数据库、文摘数据库、全文数据库,以及网页索引、网文摘数据库、全文数据库,以及网页索引、网址索引、搜索引擎、学科导航等各种新兴工具,址索引、搜索引擎、学科导航等各种新兴工具,检索语言、标引方法和索引技术等领域都有了检索语言、标引方法和索引技术等领域都有了新的突破。新的突破。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库

22、的发展现状索引与数据库的发展现状213 3 索引与数据库的发展现状索引与数据库的发展现状目前目前使用最多的索引产品是数据库索引使用最多的索引产品是数据库索引,南京,南京政治学院上海分院信息管理系的张琪玉教授直政治学院上海分院信息管理系的张琪玉教授直接提出了现代的索引就是数据库的判断接提出了现代的索引就是数据库的判断。目前国内外的索引事业随着计算机和网络技术目前国内外的索引事业随着计算机和网络技术的发展也取得了很大的进展。的发展也取得了很大的进展。RCCSE 中国科学评价研究中心中国科学评价研究中心22在国际,在国际,SCISCI等三大索引在科技界形成了重大影等三大索引在科技界形成了重大影响,其

23、他领域的索引应用也取得了广泛的成果。响,其他领域的索引应用也取得了广泛的成果。在国内,各种类型的中文全文文献数据库纷纷在国内,各种类型的中文全文文献数据库纷纷上网,为科研工作者提供了很好的帮助,传统上网,为科研工作者提供了很好的帮助,传统索引事业也稳步发展。网络信息检索工具是国索引事业也稳步发展。网络信息检索工具是国内外索引研究和应用的热点,影响越来越大。内外索引研究和应用的热点,影响越来越大。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状23根据本中心的研究,根据本中心的研究,目前国内外在索引领域的目前国内外在索引领域的研究表现出明显

24、的差异性,但发展趋势基本一研究表现出明显的差异性,但发展趋势基本一致致。具体表现在以下四个方面:具体表现在以下四个方面:第一,国内外对电子索引技术的研究日益成熟,第一,国内外对电子索引技术的研究日益成熟,在国内正处于研究网络的中心,而在国外已逐在国内正处于研究网络的中心,而在国外已逐渐处于网络边缘。这与国内信息技术研究比国渐处于网络边缘。这与国内信息技术研究比国外起步稍晚的原因是分不开的。外起步稍晚的原因是分不开的。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状243 3 索引与数据库的发展现状索引与数据库的发展现状第二第二,传统的索引

25、理论的研究仍然占据重要地,传统的索引理论的研究仍然占据重要地位。国内外学者对传统索引理论的研究仍然非位。国内外学者对传统索引理论的研究仍然非常重视。相对而言,国外学者的理论研究更具常重视。相对而言,国外学者的理论研究更具全面性和系统性。全面性和系统性。第三,索引的应用研究将成为索引研究中的重第三,索引的应用研究将成为索引研究中的重要内容,国外的应用研究相对国内更为广泛。要内容,国外的应用研究相对国内更为广泛。国外对索引的实践与应用的国外对索引的实践与应用的研究已经深入研究已经深入到了到了引文分析、文献计量学、科学计量学、评价、引文分析、文献计量学、科学计量学、评价、绩效评估、医学等多个具体领域

26、。绩效评估、医学等多个具体领域。RCCSE 中国科学评价研究中心中国科学评价研究中心25第四,与其他学科相结合开展研究可能成为未第四,与其他学科相结合开展研究可能成为未来索引研究的发展趋势之一。在索引研究的过来索引研究的发展趋势之一。在索引研究的过程中注重与其他学科的结合,一方面可以引入程中注重与其他学科的结合,一方面可以引入新的理论与方法,如社会学、本体、知识地图、新的理论与方法,如社会学、本体、知识地图、元数据等,为索引理论和方法的研究带来新的元数据等,为索引理论和方法的研究带来新的视角;另一方面,索引的方法与研究成果也可视角;另一方面,索引的方法与研究成果也可以应用于其他学科,为促进其他

27、学科研究的发以应用于其他学科,为促进其他学科研究的发展做出贡献。展做出贡献。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状26此外,自从改革开放到现在,我国的索引从业此外,自从改革开放到现在,我国的索引从业人员数量一直在稳步增加,这一方面与国家重人员数量一直在稳步增加,这一方面与国家重视图书馆的建设有关,另一方面也是索引事业视图书馆的建设有关,另一方面也是索引事业发展的需要。发展的需要。但是我们与国外相比,索引事业的从业人员仍但是我们与国外相比,索引事业的从业人员仍然数量偏少,素质有待提高。特别是在索引教然数量偏少,素质有待提高。特别是

28、在索引教育方面,我们取得的成绩还不够,比如我们至育方面,我们取得的成绩还不够,比如我们至今没有一本公认的比较权威的索引学教材。今没有一本公认的比较权威的索引学教材。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状27v3.2 3.2 数据库事业的发展现状数据库事业的发展现状数据库(数据库(DatabaseDatabase)是按照数据结构来组织、)是按照数据结构来组织、存储和管理数据的仓库。存储和管理数据的仓库。相对于索引事业,数据库事业的发展更为迅猛相对于索引事业,数据库事业的发展更为迅猛。目前,全世界大约有书目型数据库、参考型数目前,全

29、世界大约有书目型数据库、参考型数据库、参考文献数据库、全文型数据库等几十据库、参考文献数据库、全文型数据库等几十种不同类型的数据库。各种数据库的具体数量种不同类型的数据库。各种数据库的具体数量更是难以估计。更是难以估计。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状2819801980年以前,数据库技术的发展,主要体现在年以前,数据库技术的发展,主要体现在数据库的模型设计数据库的模型设计上。上。进入进入9090年代后,计算机领域中年代后,计算机领域中其它新兴技术的其它新兴技术的发展对数据库技术产生了重大影响发展对数据库技术产生了重大影响

30、。数据库技。数据库技术与网络通信技术、人工智能技术、多媒体技术与网络通信技术、人工智能技术、多媒体技术等相互渗透,相互结合,使数据库技术的新术等相互渗透,相互结合,使数据库技术的新内容层出不穷。内容层出不穷。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状293 3 索引与数据库的发展现状索引与数据库的发展现状至今,数据库至今,数据库的许多概念、应用领域,甚至某的许多概念、应用领域,甚至某些原理都有了重大的发展和变化,形成了数据些原理都有了重大的发展和变化,形成了数据库领域众多的研究分支和课题,库领域众多的研究分支和课题,产生了一系列产生

31、了一系列新型数据库新型数据库。如:分布式数据库、联合数据库、。如:分布式数据库、联合数据库、大规模并行处理数据库等大规模并行处理数据库等。国外数据库的发展大致经历了四个阶段国外数据库的发展大致经历了四个阶段:RCCSE 中国科学评价研究中心中国科学评价研究中心3019701970年以前为初步发展阶段;年以前为初步发展阶段;1970-19801970-1980年数据库数量迅速增加,开始进入联年数据库数量迅速增加,开始进入联机检索阶段;机检索阶段;19801980年至年至20102010年数据库数量剧增,类型也发生年数据库数量剧增,类型也发生了巨大变化,而且开始全球化,是数据库的深了巨大变化,而且

32、开始全球化,是数据库的深入发展阶段;入发展阶段;20102010年至今,数据的类型和数量均发生了重大年至今,数据的类型和数量均发生了重大变化,数据库也必须随之发生改变,于是进入变化,数据库也必须随之发生改变,于是进入了变革发展阶段。了变革发展阶段。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状31我国数据库的研究和应用我国数据库的研究和应用相对国外来说,起步相对国外来说,起步较晚,也可以大致参照国外的发展状况划分为较晚,也可以大致参照国外的发展状况划分为四个时期:四个时期:介绍学习时期(介绍学习时期(70-8070-80年代)、初步发展

33、时期年代)、初步发展时期(80-9080-90年代)、稳定发展时期(年代)、稳定发展时期(1990-20101990-2010年)年)、变革发展时期(、变革发展时期(20102010年至今)。年至今)。总的来说,国内外的数据库技术发展非常迅猛。总的来说,国内外的数据库技术发展非常迅猛。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状32分析我国数据库建设现状,目前分析我国数据库建设现状,目前仍处于较低的仍处于较低的发展阶段发展阶段。虽然已经建立了种类众多的数据库,全国各高虽然已经建立了种类众多的数据库,全国各高校的计算机和信息管理专业都开

34、设了数据库课校的计算机和信息管理专业都开设了数据库课程,数据库、商业数据库的建设和使用越来越程,数据库、商业数据库的建设和使用越来越广泛。广泛。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引与数据库的发展现状索引与数据库的发展现状333 3 索引与数据库的发展现状索引与数据库的发展现状但是,我国的数据库建设仍然普遍存在以下一但是,我国的数据库建设仍然普遍存在以下一些制约因素些制约因素:政府缺乏统一的整体规划;政府缺乏统一的整体规划;各地的信息机构对数据库的建设不够重视;各地的信息机构对数据库的建设不够重视;数据库的技术发展仍滞后于国外;数据库的技术发展仍滞后于国外;商业数据库

35、的建设和应用不够广泛;商业数据库的建设和应用不够广泛;数据库技术人员的素质还有待提高等。数据库技术人员的素质还有待提高等。RCCSE 中国科学评价研究中心中国科学评价研究中心34而在国外,从六十年代末期开始,数据库系统而在国外,从六十年代末期开始,数据库系统的研究和开发已经走过了四十多年的历程,取的研究和开发已经走过了四十多年的历程,取得了辉煌的成就,得了辉煌的成就,形成了庞大的产业形成了庞大的产业。数据库技术和系统已经成为世界各国信息基础数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。设施的核心技术和重要基础。RCCSE 中国科学评价研究中心中国科学评价研究中心3 3 索引

36、与数据库的发展现状索引与数据库的发展现状353 3 索引与数据库的发展现状索引与数据库的发展现状进入进入大数据时代,当我国还在研究大数据的概大数据时代,当我国还在研究大数据的概念时,英国的维克托念时,英国的维克托迈尔迈尔舍恩伯格早在舍恩伯格早在20102010年年就在就在经济学人经济学人上发布了长达上发布了长达1414页对大数据页对大数据应用的前瞻性研究,已写出了应用的前瞻性研究,已写出了大数据时代大数据时代这本对大数据系统研究的先河之作,并被誉为这本对大数据系统研究的先河之作,并被誉为“大数据商业应用第一人大数据商业应用第一人”。RCCSE 中国科学评价研究中心中国科学评价研究中心364 4

37、 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新v4.1 4.1 面临的挑战面临的挑战大数据对于索引和数据库事业而言,既是巨大大数据对于索引和数据库事业而言,既是巨大的机遇,又是巨大的挑战。的机遇,又是巨大的挑战。面对海量的种类繁面对海量的种类繁多的半结构化和非结构化数据,从中迅速的进多的半结构化和非结构化数据,从中迅速的进行分析,找出有效的价值,这一方面具有重大行分析,找出有效的价值,这一方面具有重大的经济意义,另一方面也要求我们必须改进现的经济意义,另一方面也要求我们必须改进现有的技术,使用新方法来从数据中提取价值有的技术,使用新方法来从数据中提取价值

38、。大数据时代对索引和数据库事业提出了如下的大数据时代对索引和数据库事业提出了如下的重大挑战重大挑战:RCCSE 中国科学评价研究中心中国科学评价研究中心37(1 1)理念更新理念更新。大数据带来的是一种全新的模。大数据带来的是一种全新的模式,索引和数据库的观念也要随之跟随变化,式,索引和数据库的观念也要随之跟随变化,以适应时代的需要。同时要更加注重商业思维,以适应时代的需要。同时要更加注重商业思维,充分利用大数据,获取经济利益。充分利用大数据,获取经济利益。(2 2)及时有效及时有效。大数据时代的数据产生迅速,。大数据时代的数据产生迅速,数据的价值生命周期却很短暂,如何能够及时数据的价值生命周

39、期却很短暂,如何能够及时有效的从数据中发现商机并付诸行动才能获取有效的从数据中发现商机并付诸行动才能获取价值。价值。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新38(3 3)集成分析集成分析。如果将分析集成到与数据所面。如果将分析集成到与数据所面临的环境中,将加快信息分析的速度,使分析临的环境中,将加快信息分析的速度,使分析结果能够更快的实现可操作化。结果能够更快的实现可操作化。(4 4)可扩展可扩展。面对大数据必须采取新方法来处。面对大数据必须采取新方法来处理数据,要实现从规模较小的数据集到大

40、规模理数据,要实现从规模较小的数据集到大规模数据集的分析,因为我们不能控制所面临的数数据集的分析,因为我们不能控制所面临的数据源产生数据的规模。据源产生数据的规模。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新39v4.2 4.2 技术的创新技术的创新目前,大数据时代的索引和数据库事业目前,大数据时代的索引和数据库事业已经创已经创造出了很多重要的基础性的新技术造出了很多重要的基础性的新技术,如下:,如下:RCCSE 中国科学评价研究中心中国科学评价研究中心云计算云计算虚拟化虚拟化数据存储数据存储智

41、能索引智能索引数据分析数据分析4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新40(1 1)云计算(云计算(cloud computingcloud computing)云计算是在分布式处理、并行处理和网格计算云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共等技术的基础上发展起来的,是一种新兴的共享基础架构的方法。它可以自我维护和管理庞享基础架构的方法。它可以自我维护和管理庞大的虚拟计算资源(包括计算服务器、存储服大的虚拟计算资源(包括计算服务器、存储服务器、宽带资源等等),为我们提供了跨地域、务器、宽带资源等等),为

42、我们提供了跨地域、高可靠、按需付费、快速部署的能力。甚至可高可靠、按需付费、快速部署的能力。甚至可以说,云数据库是数据库技术的未来发展方向。以说,云数据库是数据库技术的未来发展方向。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新41云数据库具有以下特性:动态可扩展,理论上,云数据库具有以下特性:动态可扩展,理论上,云数据库具有无限可扩展性;高可用性,不存云数据库具有无限可扩展性;高可用性,不存在单点失效问题;较低使用代价,可以实现按在单点失效问题;较低使用代价,可以实现按需付费;可以大规模并行处理

43、。需付费;可以大规模并行处理。云计算和大数据之间关联非常紧密,大数据为云计算和大数据之间关联非常紧密,大数据为云计算提供了应用空间,云计算为大数据提供云计算提供了应用空间,云计算为大数据提供了处理工具。了处理工具。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新42(2 2)虚拟化(虚拟化(virtualizationvirtualization)虚拟化技术是云计算所有要素中最重要的部分,虚拟化技术是云计算所有要素中最重要的部分,主要包括计算虚拟化、存储虚拟化和网络虚拟主要包括计算虚拟化、存储虚拟化

44、和网络虚拟化。化。利用虚拟化技术可以在一台主机上运行多台虚利用虚拟化技术可以在一台主机上运行多台虚拟计算机,允许很多用户共享一台高性能设备拟计算机,允许很多用户共享一台高性能设备的使用,可以极大的节约成本,也为云计算的的使用,可以极大的节约成本,也为云计算的实现奠定了技术基础。实现奠定了技术基础。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新43(3 3)数据存储数据存储大数据的特征,需要新的数据存储技术和数据大数据的特征,需要新的数据存储技术和数据存储工具来满足。目前已经出现了一些新型的存储工具

45、来满足。目前已经出现了一些新型的大数据存储系统,具有优秀可扩展能力的分布大数据存储系统,具有优秀可扩展能力的分布式存储成为大数据存储的主流架构方式。式存储成为大数据存储的主流架构方式。大数据存储还需解决一些问题:如何对数据进大数据存储还需解决一些问题:如何对数据进行去重;如何更好地实现分层存储;如何解决行去重;如何更好地实现分层存储;如何解决数据的安全性问题等。数据的安全性问题等。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新44(4 4)数据分析数据分析大数据时代的数据分析需要满足及时有效的要大

46、数据时代的数据分析需要满足及时有效的要求,既要能处理高速的数据,又要能够实现实求,既要能处理高速的数据,又要能够实现实时的分析。时的分析。目前产生了一些新型的在线事务处理系统,如目前产生了一些新型的在线事务处理系统,如NoSQLNoSQL方案和方案和NewSQLNewSQL方案。方案。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新45NoSQLNoSQL方案通过消除方案通过消除SQLSQL的语言查询来实现性能的语言查询来实现性能的提高和扩展性的增加。有以下特征:不需要的提高和扩展性的增加。有以下特

47、征:不需要预定的模式;没有共享架构;具有弹性可扩展预定的模式;没有共享架构;具有弹性可扩展性;可对数据进行分区处理;能够异步复制等。性;可对数据进行分区处理;能够异步复制等。常用的产品有常用的产品有HBaseHBase、MongoDBMongoDB等。等。NewSQLNewSQL方案是既能保留方案是既能保留SQLSQL查询的方便性,又能查询的方便性,又能提供高性能和高扩展性的新型数据分析工具,提供高性能和高扩展性的新型数据分析工具,是一种新型的关系数据库管理系统。常见的系是一种新型的关系数据库管理系统。常见的系统有统有Google SpannerGoogle Spanner、ClustrixC

48、lustrix、VoltDBVoltDB等。等。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新46对大数据进行处理,目前有两大主流的方向:对大数据进行处理,目前有两大主流的方向:一个是一个是MPPMPP数据库(大规模并行数据库)为首的数据库(大规模并行数据库)为首的并列关系数据库方向,一个是以并列关系数据库方向,一个是以MapReduceMapReduce为首为首的分布式的分布式NoSQLNoSQL方向。方向。除此之外,流数据管理也是大数据处理分析的除此之外,流数据管理也是大数据处理分析的一种解决

49、方案。一种解决方案。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新47为了为了成功的实现对大数据的分析,还要建立具成功的实现对大数据的分析,还要建立具有敏捷的计算平台,线性扩展能力,全方位、有敏捷的计算平台,线性扩展能力,全方位、协作性用户体验的大数据分析平台,还需要聚协作性用户体验的大数据分析平台,还需要聚类分析等高级的分析理论和方法以及方便易用类分析等高级的分析理论和方法以及方便易用的数据可视化技术。的数据可视化技术。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与

50、数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新48(5 5)智能索引技术智能索引技术当前硬、软件环境越来越好,从而为索引技术当前硬、软件环境越来越好,从而为索引技术向智能化、多语种化、索引手段的自动化的方向智能化、多语种化、索引手段的自动化的方向发展提供了物质条件,使搜索引擎向高层次向发展提供了物质条件,使搜索引擎向高层次发展成为可能。目前在搜索引擎智能化、用户发展成为可能。目前在搜索引擎智能化、用户接口的多语种化、索引手段的自动化等方面已接口的多语种化、索引手段的自动化等方面已取得了一定的成果。取得了一定的成果。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4

51、 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新49v4.3 4.3 事业的发展与创新事业的发展与创新索引和数据库事业的发展和创新,既离不开技索引和数据库事业的发展和创新,既离不开技术的发展,又需要理念的转变,方式的创新和术的发展,又需要理念的转变,方式的创新和人才的培养。人才的培养。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新50(1 1)技术的创新)技术的创新需要进一步满足对容量大、种类多、变化快的需要进一步满足对容量大、种类多、变化快的数据进行及时有效

52、分析的要求。进一步拓展对数据进行及时有效分析的要求。进一步拓展对NoSQLNoSQL方案和方案和NewSQLNewSQL方案的研究,以取得更好的方案的研究,以取得更好的效果。同时在大数据存储、管理、分析的方面效果。同时在大数据存储、管理、分析的方面需要革命性的理论和新算法的出现,需要新的需要革命性的理论和新算法的出现,需要新的兼备大规模并行处理数据库的高效率同时又具兼备大规模并行处理数据库的高效率同时又具有有HadoopHadoop平台的高扩展性特点的系统的出现。平台的高扩展性特点的系统的出现。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数

53、据库事业面临的挑战及创新事业面临的挑战及创新51(2 2)理念的转变)理念的转变主要是对索引和数据库的理论进行更新,服务主要是对索引和数据库的理论进行更新,服务提供方式进行创新,以实现商业价值。不能只提供方式进行创新,以实现商业价值。不能只满足于传统的理论,要对已有的理论进行创新,满足于传统的理论,要对已有的理论进行创新,需要对大数据中蕴含的价值进行深入的挖掘,需要对大数据中蕴含的价值进行深入的挖掘,积极主动的提供给需要数据的对象,积极主动积极主动的提供给需要数据的对象,积极主动的去创造商机。的去创造商机。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据

54、时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新52(3 3)方式的创新)方式的创新是指如何满足人们的小型化、便捷化的需要,是指如何满足人们的小型化、便捷化的需要,如何实现商机的主动获取和推介。随着智能设如何实现商机的主动获取和推介。随着智能设备的普及,人们使用的移动终端越来越小型化,备的普及,人们使用的移动终端越来越小型化,便捷化,索引和数据库的服务提供要重视这些便捷化,索引和数据库的服务提供要重视这些终端,要开放接口,使用云技术,极大的改进终端,要开放接口,使用云技术,极大的改进移动终端上的用户体验。移动终端上的用户体验。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4

55、大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新53(4 4)人才的培养)人才的培养一方面是加强对传统的索引和数据库专业的人一方面是加强对传统的索引和数据库专业的人才的教育和培养,更重要的是适应大数据的要才的教育和培养,更重要的是适应大数据的要求,重视对数据科学和数据研究人员的教育和求,重视对数据科学和数据研究人员的教育和培养。数据研究人员应该是具有良好视野的复培养。数据研究人员应该是具有良好视野的复合型人才,既有坚实的技术基础,又有广泛的合型人才,既有坚实的技术基础,又有广泛的业务知识和经验,从而能够熟练的使用各种大业务知识和经验,从而能够熟练的使用各种大

56、数据工具,分析并制定出各种策略和计划。数据工具,分析并制定出各种策略和计划。RCCSE 中国科学评价研究中心中国科学评价研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新54(5 5)国家的支持)国家的支持政府相关部门也要从整体规划、配套建设、权政府相关部门也要从整体规划、配套建设、权益保护等方面出发,支持索引和数据库事业的益保护等方面出发,支持索引和数据库事业的创新和发展。创新和发展。各高校和科研院所也应该对此加大投入的力度,各高校和科研院所也应该对此加大投入的力度,探索有益的成果。探索有益的成果。RCCSE 中国科学评价研究中心中国科学评价

57、研究中心4 4 大数据时代索引与数据库大数据时代索引与数据库事业面临的挑战及创新事业面临的挑战及创新555 5 结语结语大数据时代的到来,给索引和数据库事业带来大数据时代的到来,给索引和数据库事业带来了巨大的冲击,提出了新的要求。面对挑战,了巨大的冲击,提出了新的要求。面对挑战,索引和数据库事业的经过发展与创新,必然会索引和数据库事业的经过发展与创新,必然会给用户提供更高水平的服务。给用户提供更高水平的服务。索引和数据库事索引和数据库事业的发展也会推向一个新阶段业的发展也会推向一个新阶段。RCCSE 中国科学评价研究中心中国科学评价研究中心中国中国中国中国科学科学科学科学评评评评价价价价研究中心研究中心研究中心研究中心(RCCSE) (RCCSE) (RCCSE) (RCCSE) 主任主任主任主任武武武武汉汉汉汉大学信息管理学院大学信息管理学院大学信息管理学院大学信息管理学院 教授、博士生教授、博士生教授、博士生教授、博士生导师导师导师导师武武武武汉汉汉汉大学中国教育大学中国教育大学中国教育大学中国教育质质质质量量量量评评评评价中心价中心价中心价中心 主任主任主任主任中国索引学会中国索引学会中国索引学会中国索引学会 副理事副理事副理事副理事长长长长 评评评评价与管理价与管理价与管理价与管理主主主主编编编编邱均平邱均平

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号