科学大数据管理概念、技术与系统

上传人:小** 文档编号:34160843 上传时间:2018-02-21 格式:DOC 页数:21 大小:218.50KB
返回 下载 相关 举报
科学大数据管理概念、技术与系统_第1页
第1页 / 共21页
科学大数据管理概念、技术与系统_第2页
第2页 / 共21页
科学大数据管理概念、技术与系统_第3页
第3页 / 共21页
科学大数据管理概念、技术与系统_第4页
第4页 / 共21页
科学大数据管理概念、技术与系统_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《科学大数据管理概念、技术与系统》由会员分享,可在线阅读,更多相关《科学大数据管理概念、技术与系统(21页珍藏版)》请在金锄头文库上搜索。

1、科学大数据管理:概念、技术与系统 黎建辉 沈志宏 孟小峰 中国科学院计算机网络信息中心 中国人民大学信息学院 摘 要: 近年来,随着越来越多的大科学装置的建设和重大科学实验的开展,科学研究进入到一个前所未有的大数据时代.大数据时代科学研究是一个大科学、大需求、大数据、大计算、大发现的过程,研发一个支持科学大数据全生命周期的数据管理系统具有重要的意义.分析了研发科学大数据管理系统的背景,阐述了科学大数据的概念和三大特征,通过对科学数据资源发展和科学数据管理系统的研究进展进行综述分析,提出了满足科学数据管理全生命周期的科学大数据管理框架,并从数据融合、数据实时分析、长期存储、云服务体系以及数据开放

2、共享机制5 个方面分析了科学大数据管理系统中的关键技术.最后,结合科学研究领域展望了科学大数据管理系统的应用前景.关键词: 科学数据; 大数据; 数据流水线; 数据全生命周期; 作者简介:黎建辉 作者简介:Shen Zhihong, born in 1977. PhD, professor. His main research interests include scientific data management and integration,linked data and big data management.作者简介:Meng Xiaofeng, born in 1964. PhD,

3、 professor at Renmin University of China. CCF fellow.His main research interests include data fusion and knowledge fusion, big data management for new hardware, big data real time and interactive analysis, and big data privacy management.收稿日期:2016-11-15基金:国家重点研发计划项目(2016YFB1000600)Scientific Big Dat

4、a Management:Concepts,Technologies and SystemLi Jianhui Shen Zhihong Meng Xiaofeng Computer Network Information Center,Chinese Academy of Sciences; School of Information,Remin University of China; Abstract: In recent years,as more and more large-scale scientific facilities have been built and signif

5、icant scientific experiments have been carried out, scientific research has entered an unprecedented big data era.Scientific research in big data era is a process of big science,big demand,big data,big computing,and big discovery.It is of important significance to develop a full life cycle data mana

6、gement system for scientific big data.In this paper,we first introduce the background of the development of scientific big data management system.Then we specify the concepts and three key characteristics of scientific big data.After an review of scientific data resource development projects and sci

7、entific data management systems,a framework is proposed aiming at the full life cycle management of scientific big data.Further,we introduce the key technologies of the management framework including data fusion,real-time analysis,long termstorage,cloud service,and data opening and sharing.Finally,w

8、e summarize the research progress in this field,and look into the application prospects of scientific big data management system.Keyword: scientific data; big data; data pipeline; full life cycle of data; Received: 2016-11-15大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使得全球科技创新进入一个前所未有的科学大数据时代.科学大数据已成为科学发

9、现的新型战略资源,一个国家的科学研究水平将直接取决于其在科学大数据的优势以及将数据转换为知识的能力.面向大规模的科学数据管理,以及科学大数据应用,往往需要突破当今所有数据管理系统的极限,才能实现高效的科学知识发现,这也成为当下科学界和数据管理领域携手攻坚的“难题”.概括起来,科学大数据管理面临的主要问题和挑战包括:1)超大规模关系数据管理.如天文领域多个数据中心千亿乃至万亿行天文星表数据的管理.2)多源数据关联和知识发现.如全球开放生物资源、文献、序列和疾病等万种数据源 100 亿级关联数据的知识发现,需 6 步以上关联挖掘.3)实时的高效数据处理.如引力波科学发现中,16MHz 采样频率 1

10、0 000 信道数据需要近似零延迟数据处理.1 科学大数据概念与特性1.1 科学大数据概念科学数据是科研活动的输入、输出和资产.但究竟“什么是科学数据?”,如何给“科学数据”一个确切的定义?迄今为止,还在困扰着学术界.Greenberg 在其最近出版的著作大数据,小数据,没数据1 中,列举了学术界对数据各种不同的认识和理解,“在自然科学、社会科学和人文科学领域,学者们创造、使用、分析和解释数据,但往往不知道这些数据的真正含义.”科学数据是对所研究的客观对象的某些现象的描述.这种描述,一般是指在领域或学科知识指导下,对客观对象进行科学抽象和概念化后,就其中的某些现象进行系统地、有目的地观测、调查

11、、实验所形成的实体.因此,数据不是客观事物,数据不是带有自身特征的自然对象,数据只是对学术研究的客观对象中某些可观测到的现象的描述.这些描述会因人而异、因地而异和因时而异.把一些事物概念化为数据,本身就是一种学术研究活动.科学数据是以科学证据形式存在的事实,它至少应该包括科学观测与监测的数据、实验数据、计算与模型模拟输出的数据、对情景或现象的描述数据、对行为的观测或定性描述数据、用于管理或者商业目的统计数据等,以及描述数据的元数据.它们通常是科研活动的输入,是证实、证伪科学发现、科学观点的事实与证据,或者是论证推理的基础.科学数据从历史上非自动化的“手工采集”的方式,逐渐地过度到自动化的“机器

12、采集”.非自动“手工采集”的数据,其产生的速度较慢,数据量与复杂度不高,但数据的价值密度高.而通过大型仪器设备、大科学装置、大规模传感器网络等自动化采集的数字化数据,其产生的速度快,数据量和复杂性高,存在着不确定性和噪声.对这些数据进行存储、分析和应用需要新技术与更强的基础设施环境支持.科学大数据主要是指这种通过“机器”自动化快速采集、规模化存储与分析处理、具有较高维度和复杂关联的数据及其衍生产品.随着越来越多的诸如 500m 口径球面射电望远镜(five-hundred-meter aperture spherical radio telescope,FAST)、中国散裂中子源(China

13、spallation neutron source,CSNS)等大科学装置的建设和重大科学实验的开展,以及无所不在的科学传感器和传感器网络广泛应用于天空、陆地和海洋,对自然环境进行全方位的探测、监测,源源不断产生的科学数据将科学研究快速推进到一个前所未有的大数据时代.科学大数据将改变人类几个世纪以来科学研究主要在于理解相对简单、未耦合或弱耦合系统这一局面,增强我们详细表征和描述复杂性的能力,以及分析高度耦合复杂系统的动态行为的能力,催生如希格斯粒子和引力波等重大科学发现.可以这样比喻,科学大数据为科学发现提供了一种新型的“望远镜”和“显微镜”,在宏观上大大扩展了我们对复杂系统整体性进行研究的能

14、力,在微观上,让我们的视线可以深入到复杂系统内部细微的行为和动态变化.1.2 科学大数据的特征相较于其他类型的大数据,科学大数据除了具有明显的“4V”特征2-4 之外,还具有多层次逐级演化、全生命周期以及流水线处理和应用等特征.1.2.1 多层次演化特征科学大数据具有多层次逐级演化的显著特征.如图 1 所示,由大型仪器设备、大科学装置和计算模拟等产生的海量原始数据,经过校对、刻度、特征提取等处理形成具有科学意义的实例对象数据,并与相关的数据关联融合,形成知识网络.典型例子如美国航空航天局(NASA)地球观测系统(earth observing system,EOS)5 卫星获取的数据按照其不断

15、加工和演化过程,区分为 0 级、1A 级、1B 级、2 级、3 级、4 级 6 个不同的级别.根据科学应用和目标的不同,科学家可以直接使用精加工的 4 级数据,也可以使用 1A 级,甚至 0 级数据.Fig.1 Characteristics of multi-level progressive evolution of scientific big data 图 1 科学大数据具有多层次逐级演化的显著特性 下载原图1.2.2 全生命周期特征科学大数据具有明显的涉及“采集与实时分析存储与处理发布与共享再分析与重用归档与长期保存”全过程的全生命周期特征.其中,采集与实时分析阶段主要完成科学实验装

16、置、仪器设备、观测台站等数据的采集,并实现数据的实时筛选、处理和分析;存储与处理阶段主要完成对采集?筛选的数据的持久化存储,同时通过批量分析任务,完成初步的科学分析和科学发现;发布与共享阶段主要按照特定的主题,对科学数据进行组织管理,形成系列的数据集产品,通过Web 等方式对科研界发布,提供数据共享与交换服务;再分析与重用阶段主要支持用户对发布的数据集进行二次整合分析,实现进一步的科学发现;归档与长期保存阶段主要完成历史数据的归档,通过采用持久的存储设备,实现海量历史数据的长期保存.整个流程如图 2 所示.在如上不同阶段中,对科学数据的操作方式具有不同的特征,如表 1 所示.Fig.2 Full life cycle of scientific big data 图 2 科学大数据全生命周期 下载原图Table 1 Stages of Full Life Cycle Management of Scientific Big Data表 1 科学大数据全生命周期的不同过程 下载原表 1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号